人形机器人2030年上岗拧螺丝
人形机器人已经开始量产,但目前“秀拳脚”的仍然多于“拧螺丝”的。它们更多提供的是情绪价值,这或许会成为未来五年的行业常态。要等到 2030 年,机器人才能真正从特定场景走向规模化落地,独立进厂上岗。
提出这一预见的,是上周末发布的《科技预见与未来愿景2049》,由腾冲科学家论坛与华为战略研究院等联合编撰。报告将人形机器人演进划分为四个阶段,对应不同的技术成熟度与市场渗透程度:
中国科学家首次叩响未来之门,发布2049十大科技愿景
(2025/12/7) 阅读全文>
第一阶段(2025 年起):技术与商业化均处于初期探索,任务成功率约为 80%,应用主要集中在开发者市场和情感价值领域;
第二阶段(2030 年起):蕴含更多物理维度的模型范式涌现,灵巧手精细操作提升了对复杂场景的适配,机器人开始从特定场景向规模化落地迈进;
第三阶段(2035 年起):海量真实场景数据反哺模型优化,数据飞轮发挥作用,机器人不仅上得工厂,还下得厨房;
第四阶段(2045 年起):规模经济推动成本持续下降,高规格机器人整机价格降至数千元,变得像手机一样普及。

难怪市场对那些人形机器人浮夸的营销持怀疑态度,普遍认为其中充满“障碍法”。真正创造价值的工作意味着,机器人必须像人一样可靠,至少能够以相同速度运行,并且在整个生命周期内的总拥有成本要相同或更低。银河通用创始人王鹤批评,美国人形机器人泡沫严重,遥操作常态化,它们过度依赖精美视频营销,带坏了国内企业风气。
美国的FigureAI声称已经为宝马生产3万辆汽车做出贡献,但人们质疑不如把工作交给机械臂更高效;特斯拉的擎天柱在摔倒前做出摘下“不存在的VR头显”动作,疑似露出了远程操作的马脚。中国已经拥有超过150家人形机器人公司,智元的第5000台机器人已经走下产线;它们除了参加各式运动会,更多则走进了科研实验室与数据采集工厂,部分汽车巨头则给它安插了内部岗位。国家发改委也提醒,要着力防范扎堆上市,挤压研发空间。
前述报告指出,在接下去的五年里,人形机器人的核心技术挑战,就在于灵巧手发展滞后、触觉感知不成熟及训练数据匮乏。这与华尔街投行近期观点“转向”相呼应。摩根士丹利建议押注组件而不是品牌,短期内仍然是“镐和铲”的逻辑;高盛则认为,行业正进入寻找“机器人向导”等利基市场的过渡阶段。
灵巧手量产
灵巧手对生产力的重要性不言而喻。人类大多数的工作,都是由手来完成的。“人类”就是这样的生物,大约四分之一的骨头位于双手,手指在一生中弯曲和伸展约25万次,手掌共有17,000个触觉感受器和游离神经末梢。在美国劳工部的描述中,大约20%需要两条腿来完成,而高达98.7%的工作,需要灵巧双手精细操作。
近年来,人形机器人技术专利的重心已经逐渐从下肢结构和步态控制,转向上肢结构及精细操作。然而,MIT机器人专家Rodney Brooks指出,目前尚无任何灵巧手能在通用场景下展现接近人类的灵活性,也没有设计能真正投入实际应用。前述报告也总结道,在这一阶段,主流的二指夹爪或六自由度灵巧手难以完成精细操作,而高自由度灵巧手的企业仍处于起步阶段。虽然接近量产形态的方案已开始出现,但它们仍需在实际应用中不断验证、优化和迭代。
马斯克对此判断应当深有同感。特斯拉原计划今年就发布第三代擎天柱(Optimus),但在三季度财报电话会上确认,它将延期到明年一季度。在所有零部件供应商中,灵巧手是最后才确定下来的。为了增加自由度,特斯拉将灵巧手的执行器数量,从17个提升至22个,它的内部结构更为复杂,容易在高频共振和转动中磨损,逐步丢失应有的精度;电机散热不足也导致使用寿命下降。第二代擎天柱的灵巧手,单只成本6000美元,用它完成分拣快递工作,平均寿命只有六周。
更多物理维度
缺乏更多物理维度的数据,同样制约了精细操作技术的成熟。纯视觉感知存在天然盲区,无法捕捉物体的硬度、弹性等关键力学特性。这也是为什么前述报告提出,VTLA(视觉-触觉-语言-动作)模型有望取代现有的VLA(视觉-语言-动作)模型,成为未来主流方案。通过融入触觉模态,VTLA能补充关键力学信息,大幅降低接触密集型任务的失败率;同时,凭借多模态整合能力,机器人可以通过少量交互提炼通用规律,实现跨场景的灵活迁移。
但这涉及到数据的采集与处理。Rodney Brooks就指出,目前主流数据采集手段都忽视了手腕力反馈与触觉等信息。事实上,这更是技术局限。人类对触觉的感知仅限于“即时直接体验”,尚未开发出“捕捉、存储、远程传输”触觉的技术,更无法将触觉信息“重放”给自身或他人。
触觉本质上是由多种传感器和复杂处理机制构成的系统,其传递的信息随时间和运动状态不断变化,远比单纯的局部压力丰富。即便是打开冰箱门这样的日常动作,人形机器人也难以做到顺滑自然,因为它无法连续感知并动态调整施力,无法应对门在刚开启瞬间,以及不同开启角度下的力学变化。
学界与业界正在积极探索解决方案,但技术仍远未收敛。亚马逊拥有庞大的机器人队伍,超过100万,其中,它将旗下笨重的物流机器人Vulcan描述为“首个真正具有触觉的机器人系统”,配置了多个传感器,可以根据物品的大小和形状,调整它们的抓握力,不至于破坏包裹。智元机器人的启元大模型GO-1,可以接收来自视触觉传感器的力学信号,进行通用的场景感知和指令理解。所谓视触觉传感器,就是通过摄像头捕捉柔性材料的形变等视觉特征,并将其映射为受力面和受力大小等触觉信息。
数据飞轮
与大型语言模型疑似触及预训练扩展边际不同,真正值得人形机器人担心的问题是,行业离真正勾勒出那条扩展定律曲线都为时尚早。物理世界中蕴藏的数据量本应巨大,但当前可用数据远不及自然语言,更不用说如何将这些数据的质量、分布、多样性和覆盖范围转化为可用于指导模型性能优化的工程指标。
训练人形机器人,需要庞大数据量。在过去一年里,特斯拉一直都在扩容自己的AI算力基础设施。按照马斯克的预估,对人形机器人的训练需求,可能至少是自动驾驶所需的10倍。前述报告称,数据匮乏问题,会在灵巧手硬件稳定,以及触觉等物理维度信息更为丰富后,逐步得以解决。海量真实场景数据将反哺模型优化。这免去了目前专门数据采集的高昂成本,类似特斯拉用户“付费”向FSD提供真实驾驶数据。在数据真正得以“精炼”之前,中国同样难言产业场景优势。
但是,从VLA模型到VTLA模型,本质上仍然是对多模态模型的修修补补。在视觉语言先驱李飞飞看来,自然语言的上下文带宽太窄,难以描述复杂动作与物理维度,装不下三维世界。世界模型是被寄予众望的下一个范式。它可以基于前一帧画面与机器人动作,预测下一帧画面。年内,李飞飞的世界实验室(World Labs)拿出了Marble,杨立昆离职创办了先进机器智能(AMI),华为哈勃基金投资了这一领域的极佳视界。
人形机器人批量上岗拧螺丝,会比2030年更早吗?量产灵巧手、融合触觉感知以及加速数据飞轮,中国能比美国更快吗?也许在下一年《科技预见与未来愿景》报告中就能找到答案与线索。
--
报告下载方式:
点击链接
科技预见与未来愿景2049