AI训练数据成了抢手货!全国首笔交易在南京完成
创始人
2025-12-30 09:45:53

人民网记者 马晓波

在江苏箸境智能科技有限公司数据采集室内,工作人员轻轻弯肘、抬臂、向前抓取——每一个基础动作,都被实时同步给一旁的机器人,转化为一条条结构化的数据。这些数据包含视频、关节角度与力矩参数,如同给机器注入了“肌肉记忆”。

近日,由这些数据汇聚而成的“具身智能数据集”在江苏省数据交易所上架并完成交易,实现全国范围内具身智能数据集数交所交易的“零突破”。产品上架即售出的背后,折射出人工智能产业正从“模型驱动”迈向“数据驱动”的深刻转型。

这场静默的数据交易,不仅标志着“具身智能数据”要素市场化迈出关键一步,也引出一个核心议题:当AI深度融入真实世界,什么样的数据才算“高质量”?谁愿意为它买单?

在工作人员操控下,机器人练习抓、取、放等技能。人民网记者 马晓波摄

数据筑基:从“手把手教”到“精准执行”

成立仅4个多月的江苏箸境智能科技有限公司位于南京市玄武区,办公节奏处于高速运转状态。在数据采集室中,机器人正用水瓶、抹布等物品反复练习抓、取、放等基础家政动作。记者尝试穿戴操作设备控制机器人叠放毛巾,才发现让机器“精准叠好”并非易事——毛巾不时从机械指缝滑落,这双“灵巧手”也像人类一样,正通过持续学习和吸收数据不断成长。

“这就像教幼儿园孩子写字,需要老师手把手引导。机器人同样需要人类的贴身‘指导’。”技术员王煊解释道。机器人每完成一次任务,就产生一笔数据,而它对训练数据的需求极大,通常需达到数万条规模。数据量越大、覆盖场景越全,模型的执行精度就越高。

此次完成交易的具身智能数据集,包含约2.5万条结构化数据,覆盖办公、商超、餐饮、家政四大场景。每条数据时长约10秒,容量从几十兆到上百兆不等,不仅包含机器人“视角”的实时画面,还完整记录了执行过程中各关节的电流、角度、力矩等参数,并附带任务指令,结构清晰、可直接用于模型训练。

“我们提供的,是经过深度清洗、严密标注的‘高浓度养分’。”王煊说,企业直接采购这类数据,省去了从零搭建采集环境、反复调试数据的漫长周期,大幅降低了试错成本与不确定性,让买方能以更高起点、更快速度推进AI模型在复杂环境中的能力迭代。

生态聚合:为何“高质量数据”成竞争焦点?

“高质量数据产品正成为市场竞逐焦点,具备高价值应用、高知识密度与高技术含量的‘三高’特征。”江苏省数据交易所相关负责人表示。在算法逐渐开源、算力持续扩容的背景下,数据集已成为AI模型迭代的核心燃料,更是AI与实体经济深度融合不可或缺的基础支撑。

江苏大模型发展服务基地落地玄武。玄轩摄

作为数据要素资源大省,江苏早在2023年就推出专项行动,从供需两侧精准发力:编制重点领域建设指南与数据标注产业图谱,推进数联网与可信数据空间试点,搭建公共服务平台,培育中小企业,精准对接供需。

南京市玄武区作为中国软件名城的核心区,正着力构建数据要素产业生态,运营基础设施,开展市场启蒙与服务。截至2025年10月底,江苏已在医疗、交通、工业、能源、文旅等重点领域形成321个高质量数据集,数据总规模超93PB——这一体量相当于9300万部2小时时长的电影。

未来路径:标准化、场景化、生态化

面向未来,高质量数据集应“如何建”?标准化被视为关键路径。玄武区通过落地江苏国际数据港、江苏省数据交易所、玄武大模型工厂等关键载体,成为数据要素流通的“核心枢纽”。

今年7月在数据港注册成立的江苏传古科技有限公司,已在江苏数交所上架一款儿童肠道菌群数据集并完成交易。“这些数据将用于改良益生菌饮料,其跨界价值可能连数据源头方都未曾预料。”企业负责人赵博感慨道。这也揭示了AI发展的核心逻辑:未来的竞争力,源于数据与产业场景的深度融合与价值再造。

2025“数智未来”高质量数据集开发者创新大赛即将在南京举行。玄轩摄

今年11月,全国数据标准化技术委员会“标准周”活动在南京举行。国家数据局政策和规划司负责人栾婕指出,标准化是衔接数据资源与实际应用的关键桥梁。

中国电子技术标准化研究院副院长范科峰透露,全国数标委已发布4项高质量数据集系列技术文件,旨在解决当前建设中的突出问题。

顶层设计也已同步明确。国家数据发展研究院院长胡坚波透露,我国正按照“1+3+5+N”思路推进高质量数据集建设:依托1个管理服务平台,从3个层次推进基础设施化,通过5类建设主体,以N个典型场景为牵引,聚焦重点行业打造高质量数据集。

作为上述蓝图的前沿实践,由南京市数据局、玄武区政府主办的“数智未来”高质量数据集开发者创新大赛即将启动。据主办方相关负责人介绍,大赛将设医疗健康、能源管输、卫星遥感、工程机械、钢铁行业五大专业赛道,以赛促建、以赛促用、以赛促生态,推动高质量数据集从“零散建设”转向“体系化供给”。

从首笔具身智能数据交易的落地,到标准化体系的加速构建,江苏正以数据为切口,探索一条数据要素价值释放的可行路径。当机器人逐步学会“叠毛巾”“抓水瓶”,当数据成为AI走进现实的“语言”,一场由数据驱动的智能革命,正在悄然成型。

相关内容

热门资讯

非洲杯:莫桑比克VS喀麦隆 赛... 一、赛事背景与球队定位 作为非洲足坛的传统劲旅与新兴力量的对决,本届非洲杯小组赛阶段莫桑比克与喀麦隆...
Anthropic最新CJE技... 大型语言模型(LLM)的评估就像给学生考试打分一样,是决定AI系统好坏的关键环节。现在大多数公司都在...
Meta:数十亿美元收购蝴蝶效... 【12月30日Meta涨1.4%,报668.02美元,官宣数十亿美元收购蝴蝶效应】消息显示,Meta...
官方网站)德宏夜景最佳观赏地 ## 夜色如诗:德宏夜景最佳观赏地指南 当夕阳的余晖渐渐褪去,德宏这片神奇的土地便开始披上夜的华服。...
元旦跨年哪里最火?重庆解放碑民... 元旦假期将至,在社交平台上,去哪儿跨年成了热门话题。记者注意到,重庆解放碑商圈在热门目的地中名列前茅...