在真实环境中完善数据工程 驱动具身智能发展
创始人
2026-06-12 20:38:11
0

(记者 林碧涓)具身智能要求机器人在真实物理世界中实现自主感知、认知与决策。其模型训练不仅依赖海量的动作数据,更需要融合视觉、触觉、空间感知等多维度的真实世界数据。可以说,高质量数据集正是驱动具身智能发展的核心燃料与基础引擎。

正因如此,高质量数据集被推至具身智能产业化的关键位置。国家数据局局长刘烈宏在2026世界智能产业博览会上强调,高质量数据集是具身智能“感知—决策—执行”链条的重要基础,必须通过完善的数据工程来驱动具身智能发展,并深入开展系统性实践。

(图片来源:摄图网)

“数据饥荒”下的刚性需求

具身智能的核心目标,是让机器人在真实物理世界中实现自主感知、认知与决策。这使其对数据的需求与传统的语言模型有着本质区别。大语言模型可以充分利用互联网上已有的海量文本数据,书籍、论文、网页、代码等数字世界的存量信息。然而,具身智能的训练无法照搬这条路径。它要求机器人在真实物理世界中实现自主感知、认知与决策,模型训练不仅需要海量的动作数据,更需要包含视觉、触觉、空间感知在内的多维度真实世界数据。

当前,我国具身智能产业正处于从实验室走向真实场景的关键阶段。在工业制造、特种作业、民生服务等领域,具身智能的应用潜力巨大,但落地进程却遭遇了严峻的“数据饥荒”。据行业测算,具身智能模型所需的数据量与实际可用高质量数据集之间,至少存在两个数量级的巨大缺口。以工业场景为例,机器人在工厂车间中需要应对多变的光照、杂乱的背景、多样的工件形态以及严格的作业精度要求。要训练出能够适应这些复杂工况的模型,离不开大量经过精细标注的视觉数据、力控数据以及操作轨迹数据,然而,这类数据采集难度大、成本高。

数据的极度稀缺直接制约了模型的泛化能力。当前许多具身智能系统在特定任务、特定环境中表现尚可,一旦场景或任务发生细微变化,性能便会急剧下降,难以摆脱“人工遥控、难以自主”的困局。

应用牵引让数据工程从产业需求中长出来

面对“数据饥荒”,单纯等待数据自然累积并不现实。2026年是“数据要素价值释放年”,国家数据局日前推出《关于推进行业高质量数据集建设行动的实施方案》,围绕六大行动,以应用为牵引,持续推进行业高质量数据集建设先行先试。国家数据集管理服务平台已于4月底上线试运行,截至5月31日,已认证机构516家,发布数据集1350个,覆盖农业、工业制造、交通、文旅等重点领域。全国已建成高质量数据集超过11.6万个,总体量超过960PB,日均Token调用量突破140万亿。长江证券计算机行业首席分析师宗建树评价称,高质量数据集建设已逐步从“倡导建设”迈向“按标准建设、按机制试点、按体系推进”,产业发展有望进一步提速。

多个地方宣布推进高质量数据采集计划,山东省大数据局印发的《山东省行业高质量数据集建设专项行动方案》,江苏省工信厅印发《加快具身智能机器人数据集建设工作方案》……

在政策推动下,产业界围绕数据采集展开了丰富的实践。在长三角制造业腹地,无锡数据集团启动“千企百万小时”工业具身智能高质量数据采集行动计划,通过深入贝斯特涡轮增压生产线、新日股份电动车生产厂房等一线场景,以便携式无本体设备将工人高精度操作实时解算为训练数据。睿尔曼在常州投运的具身智能数据实验平台,部署150台轮式人形机器人、覆盖超1000种真实作业任务,规模达到3000平方米。今年3月,京东宣布建设全球最大具身数据采集中心,并宣布将发动最多60万人参与采集(包括10万内部员工,和50万外部行业人员),两年内积累1000万小时人类真实场景视频数据及100万小时机器人本体数据。

模数共振:数据与模型的深度融合

数据采集只是第一步,从原始数据到可被模型理解的高质量输入,中间还有漫长的“炼金”之路,需要加大行业高质量数据集的投入,推动模数共振,促进数据、模型、装备、场景深度融合。

工信部与国家数据局联合实施的2026年“模数共振”行动,正是这一理念的政策体现,其目标是到2026年底,基本形成“数据-模型-场景应用”良性互促的循环,推动人工智能高水平赋能新型工业化。

数据与模型的共振已在产业中加速发生。它石智航构建了TARS Datacore具身数据引擎,作为云端大模型实现全流程的自动化标注,将原始视频转化为机器人能理解的“教科书”,覆盖标定、深度、动作、指令、思维链等全维度信息。大晓机器人则构建起“环境式数据采集—开悟世界模型3.0—具身交互”全链路技术体系,在真实生产生活环境中获取多模态数据,以数据带动模型进化,让模型从人类与世界的真实交互中学习。

模数共振的最终目标是一套自我强化的智能系统:数据采集、清洗、标注后训练模型,模型在应用中沉淀新的高价值数据需求,进而牵引下一轮数据采集的方向与质量。当这一循环高精度、高效率运转时,具身智能的“数据飞轮”才真正开始驱动“智能飞轮”。

高质量数据集的规模化建设,初步解决了“有数据可用”的问题。但真正核心的挑战在于如何让海量数据真正驱动模型产生通用化的智能涌现。

当前,我国正以系统性力度全面推进具身智能数据工程建设——从政策顶层设计到产业多方协同,一条覆盖采集、治理、标注、训练、应用、迭代的数据价值链正在成形。但必须清醒认识到:最终检验数据工程价值的标尺,从来不是数据规模的大小,而是机器人是否能在真实的产线、工地、厨房中展现出可靠的自主运作能力。

相关内容

热门资讯

昨日!wpk俱乐部怎么作弊,全... 昨日!wpk俱乐部怎么作弊,全民比鸡辅助透视工具,项目教程(有挂攻略)1、全新机制【全民比鸡辅助透视...
一分钟辅助!中至赣牌圈插件(辅... 一分钟辅助!中至赣牌圈插件(辅助挂)一直是有辅助插件(今日头条)1、中至赣牌圈插件破解器简单,中至赣...
第7分钟了解!wepoker有... 第7分钟了解!wepoker有辅助功能吗,德州局hhpoker,办法教程(证实有挂)1、完成wepo...
复盘辅助挂!wepoker新号... 复盘辅助挂!wepoker新号好一点吗,h5反杀工具,阶段教程(证实有挂)1、玩家可以在h5反杀工具...
第4分钟辅助!闲玩暗宝辅助软件... 第4分钟辅助!闲玩暗宝辅助软件下载(辅助挂)切实真的有辅助神器(有挂分析)1、不需要AI权限,帮助你...
第7分钟了解!aapoker怎... 第7分钟了解!aapoker怎么拿好牌,哈糖大菠萝有没有挂,讲义教程(有挂解惑)哈糖大菠萝有没有挂破...
于此同时!拱趴大菠萝万能辅助器... 于此同时!拱趴大菠萝万能辅助器,胡乐胡乐辅助脚本可靠吗,窍要教程(讲解有挂)1、进入游戏-大厅左侧-...
7分钟辅助!闲来辅助器免费(辅... 7分钟辅助!闲来辅助器免费(辅助挂)都是有辅助技巧(有挂辅助)1、玩家可以在闲来辅助器免费线上大神俱...
第四分钟了解!we-poker... 第四分钟了解!we-poker是什么软件,aapoker辅助工具安全吗,讲义教程(有挂方式)1、超多...
第三方技巧!hhpoker是正... 第三方技巧!hhpoker是正规的吗,陕麻圈延安辅助,经验教程(有挂实锤)亲,关键说明,陕麻圈延安辅...