从模型到行动,AI进入"物理世界"的关键一跃
过去两年,所有人都在讨论大模型。
GPT-4、DeepSeek、Claude……一个比一个聪明,一个比一个能说会道。你可以让它写代码、写报告、分析财报、帮你回复邮件。
但如果你现在去问那些最顶尖的AI研究者一个更关键的问题——
为什么机器人还没有像ChatGPT一样爆发?
他们几乎会给你同一个答案,而且这个答案会让你有点意外:
不是模型不够强,而是数据不对。
这听起来很反常识。大家都知道AI需要数据,ChatGPT用了海量的互联网文本训练,Midjourney用了数十亿张图片训练。那机器人呢?机器人需要的数据,难道不就是更多的图片和文字吗?
不。
这正是具身智能与语言AI之间那道最根本的鸿沟——机器人需要的,是一种完全不同的东西:动作数据(Action Data)。
而中国,正在系统性地、国家战略级地,搭建这套"机器人数据底座"。
这不是PPT上的概念,而是正在发生的现实。
你可以把AI的发展想象成教一个孩子学技能。
教孩子认字、写作文——给他大量的书本、文章、对话,他就能学会。这就是GPT的逻辑:用语言数据,训练语言能力。
教孩子认图、画画——给他大量图片,他就能学会视觉规律。这就是Stable Diffusion的逻辑:用图像数据,训练图像能力。
但如果你想教孩子拿筷子夹菜呢?
光给他看书,没用。光给他看图,也没用。你必须让他自己拿起筷子,感受一下筷子夹住菜的那一刻,手指的力度、食物的重量、菜快滑落时的那一个微调……这些经验,只能从真实的动作过程中获得。
这就是动作数据的本质:感知 + 决策 + 执行的完整闭环记录。
对外行来说,理解这件事最快的方式是:它包括三层。
第一层:感知数据(Perception)
机器人的"眼睛"和"皮肤"看到了什么——视觉图像、深度信息、传感器数值。比如,机器人看到桌上有一只杯子,它的摄像头记录了杯子的位置、形状、光线反射。
第二层:决策数据(Decision)
机器人的"大脑"是怎么判断的——该走哪条路?该用什么动作?比如,判断要从左边还是右边去抓这只杯子,杯子是不是有盖子需要特别处理。
第三层:执行数据(Action)
机器人的"手"实际怎么动的——抓握的方式、施加的力度、运动的轨迹。比如,手指以多大力度夹住杯子,避免太用力捏碎、又不能太轻让杯子掉落。
用一句话总结:机器人数据 = 感知 + 决策 + 行动的闭环。
缺了任何一层,这个数据就是残缺的,训练出来的模型就是跛脚的。
这里有一个残酷的现实:语言数据,可以靠爬虫从互联网上批量获取——几十年积累的人类文字,全都是训练素材。图像数据,也可以从各种渠道大规模采集。
但动作数据,必须从真实的物理世界中一条一条采集。
一台机器人,按照目前的效率,每天大约能采集500条动作轨迹数据。100台机器人,一年下来也不过1800万条。而且每一条数据的采集,都涉及场景搭建、遥操作人员、硬件成本、数据标注……成本高昂到令人咋舌。
更关键的是,机器人数据的标注,比语言数据复杂至少十倍以上。 标注一段文字,可能需要几十秒;标注一段机器人动作数据,需要记录毫秒级的力度变化、关节角度、多路摄像头同步,并且需要专业人员判断哪个动作是"正确"的。
这就是为什么,模型可以很强大,但机器人还没爆发:卡住具身智能的,不是大脑,而是经验的积累方式。
🔑 核心判断:谁掌握了动作数据,谁就掌握了具身智能的未来。
2025年《政府工作报告》,首次将"具身智能"写入国家未来产业重点培育清单。这是一个重要的政治信号——意味着这条赛道已经从科技圈的讨论,正式进入国家顶层设计。
2026年1月,国家数据局在年度部署中明确宣布:2026年,我国将在智能体、具身智能等前沿方向布局一批数据标准,与此同时加快出台公共数据、高质量数据集、数据基础设施等方向的急需标准。
这不是一个行业会议的倡议,而是国家数据监管机构的正式部署。标准先行,意味着产业基础设施的建设正式开闸。
全国数据标准化技术委员会相关负责人表示,凭借海量数据和巨大市场应用规模优势,我国在数据标准的研制进程和应用深度上均稳居全球第一梯队。2025年,我国研制了48项数据领域国家标准和技术文件,其中超过三分之一的标准在制定过程中就同步开展了验证试点。
同时,中国信通院联合清华大学电子工程系发布的《具身智能发展报告(2025年)》指出:聚焦"数据-模型-本体"三个关键环节,国内已建成或计划在建的训练场已接近30家,行业商业化落地仍处于早期探索阶段。
接近30家训练场——这个数字意味着什么?意味着在全球范围内,中国已经在系统性地建设具身智能数据基础设施,而不只是几家企业在各自为战。
为什么是现在,而不是五年前,也不是五年后?
时机一:大模型的"大脑"准备好了。
GPT-4、DeepSeek R1的出现,证明AI在语言理解、逻辑推理、多模态感知上已经达到了可用的水准。机器人需要一个"聪明的大脑"来理解指令、规划任务——这块短板,已经被大模型填补。
时机二:硬件成本大幅下降。
五年前,一台能做精细操作的机器人手臂,成本可能高达数十万元。随着国产电机、减速器、传感器的快速成熟,人形机器人的成本正在向消费级靠近。2024年人形机器人产值已达27.6亿元,预计2025年将翻倍至53亿元,2029年有望达750亿元。量产的临界点正在到来。
时机三:场景需求爆发。
制造业转型、老龄化加速、劳动力成本上升……这三股力量同时发力,让机器人从"有了当然好"变成了"必须要有"。
三个条件同时成熟,就构成了一个历史性的窗口期。
🔑 核心判断:现在缺的不是模型,而是"让模型能动起来的数据"。
这部分不讲概念,讲真实发生的事情。
2025年1月21日,上海浦东张江模力社区,一个占地超过5000平方米的特殊"工厂"正式启用。
该训练场由国家地方共建人形机器人创新中心牵头建设,首期已部署超过100台异构人形机器人,是全国首个异构人形机器人训练场。上海市政府副秘书长庄木弟、上海市经济和信息化委员会主任张英等出席启用仪式。
这里的"异构"二字是关键。以前的训练场,通常只有一种型号的机器人,采集的数据只能用于训练这一种机器人。张江这个训练场同时部署了来自10余家企业的100多台不同品牌、不同构型的机器人,采集的数据可以跨机器人复用,这是一个质的飞跃。
用比喻来说:过去是一个孩子学骑自行车,只能学骑他家那辆。现在是100个孩子同时学,而且骑完自行车还能直接骑摩托,技能可以迁移。
国地中心已实现单台机器人每日采集轨迹数据500条以上,打通了数据采集、数据审核、数据存储、模型训练、模型推理验证、模型真机部署的完整数据闭环流程。预计2025年底将构建包含5000万条数据的具身智能语料库。
5000万条。这是一个什么概念?
业内最常被引用的基准是谷歌发布的Open X-Embodiment数据集。而5000万条的目标,意味着中国将在数据规模上形成压倒性优势。
训练场的建设旨在解决人形机器人产业发展中的核心数据采集问题,特别是数据采集效率低、成本高,数据无法跨平台复用,以及缺乏统一的数据标准规范等挑战。
如果说政府主导的训练场是"公共基础设施",那么企业层面的开源行动则是这场数据革命的另一块拼图。
2024年12月30日,由"前华为天才少年"稚晖君创办的智元机器人,联合上海人工智能实验室、国家地方共建人形机器人创新中心,发布了一个重磅开源项目:AgiBot World。
智元机器人重磅开源全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集AgiBot World,标志着具身智能领域"ImageNet时刻"已到来。
"ImageNet时刻"——这个说法,圈内人一听就懂它的分量。
2012年,深度学习之所以突然爆发,一个关键原因是ImageNet这个大规模图像数据库的出现,让研究者有了标准化的训练素材和评测基准。从那以后,图像识别的准确率飙升,计算机视觉进入黄金时代。
今天,AgiBot World被认为在具身智能领域扮演了同样的角色。
AgiBot World是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集,包含来自100个机器人的100多万条演示轨迹。在长程数据规模上,已超过谷歌OpenX-Embodiment数据集十倍。相比谷歌开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。
覆盖的场景包括:家居、餐饮、工业、商超、办公五大类,涵盖80余种真实技能——从抓取、放置等基础动作,到搅拌、折叠、熨烫等精细长程操作,几乎涵盖了人类日常生活所需的大多数场景。
2025年2月,智元又进一步发布了仿真框架AgiBot Digital World,同步开源海量仿真数据集,涵盖5大类场景、180+品类具体物品、9种常见材质、12种核心技能,质量高、泛化快、任务多样。
"真机数据 + 仿真数据"的双轨并进,正是这场数据基础设施建设的核心方法论。
一个让工程师看了会心一跳的数字。
上海人工智能实验室发布"书生"具身全栈引擎Intern-Robotics,实现开发一套模型即可适配10余种机器人形态;融合真机实采与虚拟合成数据,数采成本相比前代方案进一步降至0.06%;全任务工具链,一键启动模型训练,快速部署具身大脑开发。
数据采集成本降低到原来的0.06%——这意味着,以前需要1000万元才能采集的数据,现在可能只需要6000元。这是一个能改变整个产业经济模型的突破。
用比喻来理解:过去给机器人"上课",必须在真实世界里一遍一遍地练习,像给孩子请私教,成本极高。现在可以先在虚拟世界里"游戏化"训练,再把有价值的经验迁移到真实机器人上,效率提升了1000倍以上。
如果你想更深入地理解这件事,可以把"机器人数据底座"想象成一个四层结构的系统。
数据采集分两条路径并行:
真实世界采集:在工厂、仓库、家庭等真实场景中,让机器人执行任务,用遥操作、动作捕捉、传感器记录等方式采集真实数据。这条路的优势是数据质量高、真实可信;劣势是成本高、效率低。
仿真环境(Simulation)生成:在数字孪生平台中,构建高度仿真的虚拟世界,让机器人在虚拟环境里大量"刷任务",批量生成训练数据。这条路的优势是成本极低、规模可以无限扩大;劣势是存在"仿真-现实差距"(sim-to-real gap),虚拟数据未必在真实世界有效。
解决方案是两者结合:用仿真数据做大规模预训练,用真实数据做校准和微调。这正是上海AI实验室"虚实贯通"的核心思路。
采集来的原始数据,不能直接用于训练。必须经过:
这一步的难度远超语言数据处理。标注一段机器人动作数据,需要同时考虑时序、力度、空间关系,工作量大、专业要求高。这也是为什么"数据标准化"成为国家级任务的原因——没有统一标准,各家采集的数据就是一座座孤岛,无法形成合力。
当前主流的训练方式有三种:
模仿学习(Imitation Learning):给机器人看人类的示范动作,让它模仿。就像让孩子跟着厨师学做菜,先照葫芦画瓢。
强化学习(Reinforcement Learning):让机器人自己尝试,失败了给惩罚,成功了给奖励,让它在试错中摸索出最优策略。就像让孩子自己摸索骑自行车,摔倒了疼,掌握平衡后顿悟。
多模态融合:将视觉、语言、动作等多种信息融合到同一个模型里,让机器人真正具备"理解 + 行动"的综合能力。这是目前最前沿的方向,也是VLA(Vision-Language-Action)模型的核心。
这是整个体系中最关键,也最容易被忽视的一层。
采集数据 → 训练模型 → 机器人执行 → 收集执行数据 → 再训练模型这个闭环,意味着机器人的能力不是固定的,而是随着使用而持续进化。每一次机器人在工厂里完成一个任务,这个成功(或失败)的经历都可以作为新的训练数据,反哺下一代模型。
🔑 核心判断:具身智能不是一次训练,而是一个持续进化的闭环系统。这和大模型的"一次训练、长期使用"有本质的不同。
在具身智能领域,"没有标准"意味着什么?意味着:
历史上有过很多类似的教训。早期个人电脑行业,Windows和Mac的文件不兼容,每家厂商各自为战,严重阻碍了软件生态的发展。直到统一的接口标准出现,生态才真正爆发。
人形机器人领域已经开始发布人形机器人分类分级应用指南等标准,划分技术等级(L1-L4)和智能化阶段(G1-G5),并推动数据开源共享。
国家数据局透露,2026年我国将推出30多项数据领域的国家标准,在智能体、具身智能等前沿方向将布局一批数据标准,城市全域数字化转型和全国一体化算力网等重点标准的研制也在推进中。
这30多项标准,覆盖了从数据格式、接口协议到算力调度、安全规范的各个层面。
更值得注意的是,中国在标准制定方面有一个显著的竞争优势:场景规模。标准必须通过大量的实践验证才能站得住脚,而中国拥有全球最大的制造业场景基础,验证标准的成本和速度都远超其他国家。
全国数据标准化技术委员会相关负责人表示,凭借海量数据和巨大市场应用规模优势,我国在数据标准的研制进程和应用深度上均稳居全球第一梯队。
🔑 核心判断:标准,是产业化的起点。谁的标准被行业采纳,谁就掌握了这个产业的话语权。
人形机器人最直接的冲击,是蓝领劳动力市场。
装配、搬运、分拣、检测——这些重复性、标准化的岗位,将率先被机器人替代。但这不是简单的"机器取代人",而是一次生产效率的结构性跃迁。
一台机器人可以24小时不停工,没有节假日,不需要社保,疲劳率为零。从纯经济学角度看,一旦机器人的成本降到足够低,它的性价比将在众多岗位上碾压人工。
目前,这个临界点正在快速逼近。今年1月,当时成立尚不足两年的智元机器人,已在临港工厂下线了第1000台通用具身机器人。到本月,这个数字变成了5000台。
5000台,只是开始。据预测,上海机器人本体企业的惊人量产速度,有望将2026年全国人形机器人订单量推上5万台。
传统自动化,做的是固定动作的重复执行——机械臂焊接同一个位置,AGV小车走同一条路线。这叫"自动化"。
具身智能要做的,是在变化环境中的自适应操作——当生产线产品换型时,机器人能够自主学习新的装配动作,而不需要人工重新编程。这叫"智能化"。
这两者之间的鸿沟,正是数据底座要填平的。
如果把具身智能产业链拆开来看:
上游(硬件基础):传感器、一体化关节、电机、减速器、灵巧手。供应链专家经缜密测算,得出结论:人形机器人所需的核心零部件,以上海为圆心,直线半径150公里范围内可100%配齐。
中游(数据与算法):动作数据平台、仿真引擎、VLA模型、具身操作系统。这是整个产业链中技术壁垒最高、附加值最高的环节,也是当前竞争最激烈的地方。
下游(应用层):工厂机器人、物流机器人、家政机器人、医疗辅助机器人。这是离消费者最近、市场空间最大的环节,但也是当前落地难度最高的环节。
🔑 核心判断:未来最值钱的不是机器人本体,而是"训练机器人的系统"——数据平台、仿真引擎、技能库。这就像手机时代,最终跑出来的不是硬件厂商,而是iOS和Android这样的操作系统生态。
全球范围内,在具身智能这条赛道上,有三种截然不同的发展路径:
美国的路径:以OpenAI、Google DeepMind、特斯拉为代表,优势在模型能力和算力基础设施。美国定义了当前AI的技术范式,掌握了最顶尖的大脑。但它的短板在场景:美国制造业规模有限,能用来训练机器人的真实工厂场景不多。
中国的路径:以国家主导的训练场、智元、傅利叶、宇树科技为代表,优势在场景、制造业基础和数据规模。中国拥有全球最大的制造业体系,这意味着最丰富的训练场景、最多样的任务类型、最快的迭代速度。中国凭借制造业场景丰富、政策支持积极、资本投入充裕以及关键核心技术突破,有望在物理式AI的全球竞争中实现"换道超车"。
欧洲的路径:以德国、法国为代表,优势在精密制造和监管体系。欧洲在高端机器人本体制造上有深厚积累(库卡、ABB原本都是欧洲品牌),在安全标准和伦理规范上也走在前面。但在数据规模和AI模型能力上落后明显。
用一句话来总结这场三方竞争的核心:
美国在定义"智能",中国在定义"行动"。
这两件事缺一不可。但在当前这个阶段,"行动数据"的稀缺程度远超"智能模型"——前者很难,后者正在快速普及开源化。这意味着,中国在具身智能这场比赛中,握着的这张牌,价值或许比很多人想象的要重。
值得关注的是,专家认为,AI的创新前沿将突破数字世界的边界,未来的AI将是信息智能、物理智能和生物智能的融合。而在这个融合过程中,物理智能的数据基础设施,将是最稀缺的战略资产。
这场变革中,企业的正确姿势是什么?
短期:关注机器人在本行业的落地场景,评估哪些岗位可以先行导入机器人。物流、分拣、装配、检测,这四类场景是目前成熟度最高的。
中期:思考如何参与数据体系的建设。你的工厂,就是最宝贵的数据采集场景。如果能与机器人公司形成"场景换数据"的合作模式,你不只是一个机器人的用户,而是整个生态的共建者。
长期:布局"行业数据平台"。每个垂直行业,都需要自己的专属动作数据库。医疗行业的精细操作数据、农业的田间作业数据、餐饮行业的烹饪动作数据……这些都是价值极高的未来资产,越早积累越有先发优势。
对普通职场人来说,最重要的不是"我会不会被机器人取代",而是"我能不能成为那个让机器人学会干活的人"。
这意味着一批新的岗位正在浮现:
这些岗位有一个共同点:他们不"操作机器",而是**"让机器学会操作"**。
对于已经在技术领域工作的人,现在正是积累具身智能相关知识的窗口期——机器人操作系统、强化学习基础、多模态模型——这些都将是未来五年极具价值的稀缺能力。
回到最开始那个问题。
为什么机器人还没有像ChatGPT一样爆发?
因为ChatGPT用的数据,人类已经积累了几十年。它站在互联网这座图书馆的肩膀上。
而机器人所需要的数据,人类几乎还没有开始积累。这座图书馆,现在才刚刚破土动工。
但当这座图书馆建成的那一天——当5000万条、5亿条、50亿条动作数据成为可训练的素材——当虚实贯通让数据成本降到接近于零——当国家级标准让所有数据可以互通共享——
那个时候,机器人的爆发,可能比ChatGPT当年的那次更剧烈、更彻底。
因为语言AI改变的,只是人类与信息交互的方式。
而具身智能改变的,是人类与物理世界的关系。
是制造业的生产方式。是服务业的交付方式。是老龄化社会的照护方式。是每一个蓝领工人每天重复的那些动作。
如果说大模型,让AI第一次拥有了"思考"的能力;那么具身智能,将让AI真正拥有"行动"的能力。
而一切行动的起点,不是模型,是数据。
谁掌握了机器人数据,谁就掌握了下一代生产力。