剥离资本的热度,从技术成熟度曲线来看,2025年的具身智能最值得关注的特征是,认知能力超前,执行能力滞后。在认知层面,视觉-语言-动作(Vision Language Action,即VLA)大模型的成熟是过去一年最大的技术变量。基于Transformer架构的泛化能力,机器人实现了对自然语言指令的语义理解和任务拆解,让机器人听懂了“人话”。这带来两个层面的变革:一是环境感知上,多模态大模型大幅提升了机器人对环境的语义感知能力,使其能够识别从未见过的物体,并且推断其属性。二是交互上,机器人不再依赖工程师编写的确定性代码来执行任务,而是能够理解模糊指令,并且自动规划出一系列动作序列。Google DeepMind与OpenAI相继发布的具身模型(如RT-4、Figure-Next),实现了从“看图说话”到“看图干活”的本质变化。你对它喊一声:“我渴了”,它就能理解你的意图,识别出桌上的苹果不是水,准确地抓起水杯递给你。这种从“执行指令”到“理解意图”的跨越,是这一年最大的技术突破之一。但VLA大模型也并不完美无缺,仍然面临着三大痛点,包括端侧算力限制导致的推理延时、在毫米级装配任务中精度不足以及在长序列任务中的幻觉问题。在运控层,2025年是本体运动控制技术的核心突破年。如果说2024年企业们还在比拼“谁走得稳”,2025年则是在比拼“谁适应能力强”。基于强化学习(RL)的全动力学控制成为主流。通过大规模仿真训练,人形机器人不再需要预设繁杂的步态算法,而是涌现出类似人类的平衡本能。在亦庄的马拉松上,不少机器人已经能够自主应对上下斜坡、草地碎石等非结构化路面,甚至出现了抗冲击的跑酷动作。这场马拉松的一支视频切片流传甚广:一个机器人被路边观众的横幅绊倒之后,没有像前两年那样直接死机,而是调整重心,以一个略显笨拙的姿态翻滚起身,重新站立,继续奔跑。这支视频在抖音上有上亿次播放。2025年也是“灵巧手”技术的分水岭。此前,大多数机器人的手部只能进行简单的开合抓取。而今年,以帕西尼感知(Pacini)为代表的企业实现了阵列式触觉传感器的规模化配套。这些传感器赋予了机器人“盲操”的能力,即使视觉受阻,机器人也能通过手指尖的压力分布感知物体的纹理、硬度和几何形状。同时,12-22个自由度的灵巧手在2025年成为了旗舰标配,在模仿人类打结、撕开包装袋等精细动作上,成功率从2024年的30%大幅提升至85%。在去年的世界人工智能大会上,来自云百生的手术机器人用机械臂剥鹌鹑蛋壳,蛋膜完好无损。机器人真正具备了处理复杂手工活的可能性。尽管有这样一些进展,但是在物理执行层面,机器人仍面临挑战。虽然国内通过国产替代将成本大幅降低并实现了5000台级的量产交付,但在非结构化环境中的作业能力依然不足。当中的核心痛点,在于物理常识的确实与运动控制的鲁棒性不足。在复杂的工厂环境中,光照变化、油污干扰、柔性物体的形变等等因素,都会导致机器人的操作成功率下降。目前的机器人尚不具备类似人类的物理直觉,比如能预判玻璃易碎、液体流动,导致其在面对长尾场景时泛化能力较弱,难以从实验室环境中平滑地迁移到真实产线。为了解决上述问题,从2025年开始,行业主要在两个方向上发力:第一,世界模型和虚实迁移(Sim to Real)。行业逐渐意识到,数据质量远比数量重要。鉴于真实物理数据采集的高成本与低效率,构建高保真的虚拟仿真环境成为行业共识。银河通用等企业通过在虚拟仿真世界中生成数以亿计的合成数据,训练机器人的策略网络,再将其迁移至真机。这一路径正在成为解决数据匮乏问题的关键手段。腾讯等头部企业也在开始构建能够预测物理世界未来帧的视频生成模型,让机器人在大脑中推演动作后果,减少试错成本。第二,标准化与国产化替代。2025年12月26日,工信部人形机器人与具身智能标准化技术委员会成立,标志着行业进入标准化建设新阶段。标委会致力于统一接口协议、通信标准与安全规范,以降低系统集成成本,减轻行业内“重复造轮子”的内耗。根据行业测算,零部件通用率每提升10%,单台机器人成本可下降8%-10%,适配周期可缩短40%以上。