发布于 12小时前

机器人浓度最高的一届春晚后，具身智能离走进千家万户还有多远？

作者 | QCon 全球软件开发大会

策划 | Kitty

编辑 | 宇琪

具身智能作为 AI 从数字世界迈向物理现实的核心跃迁，是通往 AGI 的关键路径，却依然受困于模型泛化性不足、数据采集难、闭环难以实现等深层难题，真正的产业落地仍举步维艰。那么，具身智能究竟卡在哪儿了？

近日 InfoQ《极客有约》X QCon 直播栏目特别邀请 地瓜机器人算法副总裁隋伟博士 担任主持人，和 地瓜机器人具身智能负责人何泳澔博士、乐享科技 CTO 李元庆、北京科技大学副教授彭君然博士 一起，在 2026 年 QCon 全球软件开发大会（北京站） 即将召开之际，共同探讨具身智能落地实战中的卡点。

部分精彩观点如下：

工业场景并不需要追求通用性，如果能将某个高价值工位的任务做到稳定、可靠、高效，这本身就足以支撑一家公司达到百亿估值。
如果想让 AI 实现可控生成，就必须保证每一个环节都是可控的，全链路可控才能实现整体可控。无人驾驶是这样做的，从实验室走向落地同样应该如此。
这么多年做机器学习，我一直认为保证数据质量是第一位的，模型反而是第二位的。
现阶段不应该一股脑上具身，很多具身公司在做的事情，明显有更低成本的自动化替代方案。‘

在 4 月 16-18 日将于北京举办的 QCon 全球软件开发大会（北京站）上，我们特别设置了【具身智能与物理世界交互】专题。该专题将深度拆解具身智能技术链路，探讨模型现状、核心挑战与机会，加速具身智能技术研发转化与产业规模化落地。查看大会日程解锁更多精彩内容：https://qcon.infoq.cn/2026/beijing/schedule

以下内容基于直播速记整理（经 InfoQ 删减）。

完整直播回放可查看：http://gk.link/a/12HKJ

隋伟：我们今天谈“卡”，有一种声音认为“技术发展需要时间，不算卡”；另一种声音认为“商业化不及预期，就是卡住了”。在老师们看来，我们现在的状态，是“在爬坡”还是“被卡住”？

何泳澔： 具身智能从边缘领域逐步成为主流焦点的根本驱动力在于大模型的突破性进展，直接激发了整个赛道的想象空间。此前大模型能力局限于数字空间，无法与物理世界交互；彼时的具身也还是基于传统模块化能力构建的。大模型出现之后，业界迅速捕捉到一个方向：将大模型与硬件结合，或许能让硬件能力实现跨越式发展。有了硬件加持，高级智能便得以与物理世界交互，想象空间巨大。

与物理世界交互，意味着需要大量传感器，视觉类传感器是主流，力觉类也在逐步成为重要组成部分。传感器增多，数据维度与模态随之增加，学习难度呈指数级上升。因此我们现在的体感是：时不时出现引人瞩目的成果，随后沉寂相当长一段时间，令人心生疑虑，而后又突然出现突破性进展，重新振奋信心。我认为任何创业方向都是在乐观与悲观并存的状态下推进的，遭遇卡点或商业化不及预期都是可以理解的。许多人提到，这一波 AI 技术浪潮有可能成为人类历史上最后一波技术创新。一旦这些问题真正解决，人类将进入高速发展期，奇点也将随之到来。

李元庆： 从现状来说，机器人走进千家万户、渗透工业各行各业确实尚未实现，从资本和企业的视角看确实存在卡点。但以无人驾驶为参照，耦合度和复杂度较高的系统通常需要经历约五年的成长期、稳定期和成熟期。具身智能这一概念大约在 2023 年前后才开始广泛传播，才刚刚起步。三年前，市面上大多还是小舵机机器人、小型人形机器人乃至四足机器狗，甚至不太敢出现在展台上。但今年春晚，宇树的机器人在台上做跑酷，跳跃高度令人震惊。

从另一个角度看，耦合度和复杂度较高的系统在中国市场发展，通常需要 400 到 500 家企业持续攻关才能推动市场化运营，目前具身智能领域的企业数量尚未达到这一规模。待到那个阶段，或许会经历一轮对过高预期的祛魅，但也必然留存下扎实可靠的技术。

总体而言，ToB 方向各家已在用各种策略推进落地，虽还无法直接替代各行各业，但已能解决部分问题。ToC 方向，承载情绪价值的会说话的玩具已十分典型。导航与人机交互已初具雏形，具备小型记忆与推理能力，若能在灵巧操作和长链条任务复杂推理上进一步突破，具身智能其实离大众并不遥远。

彭君然：ToB 层面目前并非卡住了，而是处于磨合期，涉及几个层面：第一是需求，机器人能做导航、能做运动控制，但工厂真正的需求是什么？目前头部企业中估值百亿以上的约有 50 家，基本都在做 ToB，各家都在与垂直领域工厂对接，探讨如何用自身方案解决客户需求。第二是痛点颗粒度，哪些问题必须用具身解决，哪些用工业自动化更合适？

第三是经济账，政府补贴之后，需要达到多高的良品率或提升多少效率才能盈利？这为行业提供了一个过渡期，给出了明确的成本导向。现在一台机器人卖 50 万、70 万尚属高位，但市场可能只能接受 20 万左右。我也听说过一个案例：头部企业报价 400 万，一家规模仅其十分之一的团队报价 200 万，工厂最终选择了后者，可见 ToB 市场成本敏感程度极高。

ToC 方面，目前尚未真正进入磨合期。当前率先走进家庭的主要是以情绪价值为主的产品，机器人尚不了解家庭环境，需要先找到进入家庭的途径，即便此时其他功能几乎全依赖大模型或视频通话等非具身能力。但一旦进入家庭，机器人便能对用户和环境建立更深入的了解，C 端用户的购买倾向与产品价值也在双向磨合中逐步匹配。所以我认为目前完全没有卡点，整体发展相当顺畅。

隋伟：何博，您在演讲中提出“VA 比 VLA 更适配工业”，这个判断本身就隐含了一个“卡点”——大模型进不了产线。想先请您用一分钟概括：那个最根本的“不适配”到底在哪？

何泳澔：VLA 全称 Vision-Language-Action，以视觉与语言模态共同作为输入来生成动作；VA 则仅以视觉作为输入来预测动作，两者之差正是中间的 L——语言。在工业场景中，整体环境高度结构化，流程基本确定，不需要通过自然语言来引导机器人。

语言本质上是一种交互手段，更像 UI 层，面向 C 端时 L 或许是核心，但在工厂中它不仅作用有限，还带来额外的计算开销和训练数据复杂度。基本可以理解为，工业场景与 C 端通用场景之间的本质差异，是专用与通用的区别。

隋伟：元庆老师，您在演讲中明确提出，“具身 Agent 是破解瓶颈、衔接 VLA/VA 与物理世界的核心载体”。您所说的这个“Agent”，和业界常说的“大模型”、“机器人软件系统”，最本质的区别是什么？它为什么是“核心”？

李元庆： 在做端到端的过程中，我发现从指令到最终动作轨迹，往往无法完整执行任务，成功率低、节拍慢、效果差。核心问题在于：要让模型指挥任务，必须将所有关键信息完整提供给它。举个例子：让机器人帮我把水杯拿来，它立刻面临一系列问题：去哪拿？两个水杯哪个是你的？要不要加水？加什么？人的指令高度压缩，而完成任务所需的信息严重缺失。

端到端在现阶段无法落地，因为无论从视觉、指令还是语义地图中，都无法提取完整信息，人类自然语言压缩了太多内容。因此我坚信这一阶段率先落地的应该是 modular-based 方案，而 Agent 正是这一路线下的典型策略。Agent 涵盖 perception、decision-making、memory 与 action 的完整闭环，与强化学习范式高度相似，且各单点目前都已有可落地的解法。

我相信未来存在 model as a product 的形态，一个 AI 模型解决一切问题，这非常接近 AGI。但在此之前，AI 外部还需要大量工程化的壳来辅助，通过更好的 prompt 和不断补充的信息来构建 Agent。

此外，机器人软件系统很像操作系统，目前基于 AI 架构设计的软件系统还未得到充分应用。我们还看到，硬件开发过程中底层软件和嵌入式驱动仍在大量重复开发，根源在于技术路径尚未定型、产品导向尚不清晰，相关标准与协议仍不够成熟。如果有一个软件系统天然适配 AI 所需的高带宽、高实时响应、高并行 GPU 运算及异步计算，同时能轻量化运行在机器人本体上，将是极为值得期待的产品。

隋伟：彭老师，从高校研究者的视角，您觉得产业界现在对“空间智能”最大的误解是什么？这个误解本身，是不是一个“卡点”？

彭君然： 我认为并不存在误解，因为空间智能这个词本身太宽泛了，场景重建、位姿估计、SLAM、三维生成、资产生成乃至世界模型，都在其范畴之内。问题不在于误解，而在于讨论时术语未能统一，各说各的，实际上都是在谈某一个具体技术方向，却用了宽泛的表述，这倒不构成卡点。

算法之卡

隋伟：何博您在演讲提纲中提到“注意力放在 VA 上，潜台词是没考虑通用性”。那我想追问：工业场景真的不需要通用性吗？一条产线今天拧螺丝、明天装手机，这不就是通用性需求吗？“工业通用性”和“AGI 通用性”的区别到底在哪？

何泳澔： 我为工业方案归纳了三个依次递进的关键词：稳定（机器不能宕机）、可靠（功能成功率接近 100%）、高效（在前两者基础上追求），这三个关键词与通用性关联不大。工业场景中硬件首先无法通用，尤其是操作类任务，不同工位的末端执行器大概率不同。但通用性可以体现在模型层面：任务不同，底层模型架构可以相同，针对不同任务采集数据训练出不同能力的模型，模型结构保持一致。因此工业场景并不需要追求通用性，如果能将某个高价值工位的任务做到稳定、可靠、高效，这本身就足以支撑一家公司达到百亿估值。

隋伟： 那 VLA 和 VA 目前能达到这个程度吗？工业操作有些需要毫米级乃至亚毫米级的精度，现有模型能直接解决吗？

何泳澔： 解决不了。即便 VA 类模型更适配工业，若要完成高精度任务并保证高成功率，单靠模型肯定不够。需要从整体架构设计入手，可能采用模块化方案，其中某些环节引入 VA 算法，还需要配套的数据采集方案和仿真能力。解决工业问题是极其综合的工程，绝非单一模型所能胜任。

隋伟： 所以未来工业智能不会是一个模型通吃，而更可能是模型超市，不同模型解决不同任务。

何泳澔： 是的，不同场景、不同任务，组合方式都会不一样。

隋伟： 随着技术发展和数据积累，这些模型有没有可能走向大一统？

何泳澔： 投入足够大也许有可能，但过程中随时会出现 ROI 层面的变化。当某个节点 ROI 已经最优，就没必要继续推进通用性了。对工业场景而言，追求通用性可能是一种执念，而这种执念并无必要。

隋伟： 工业场景本身就是相对专业化的领域。

何泳澔： 正是如此，而且正因为有难度，反而可以推动工厂配合进行场景改造。这件事归根结底由投入产出来定义，而非纯粹出于“希望它变得通用”的技术愿景。

隋伟：元庆老师，您提出要“避免实验室好用、现场失效”。从 Agent 架构设计的角度看，导致“现场失效”的最主要的技术原因是什么？是感知层对环境变化不适应，还是决策层规划太慢，或是执行层的指令翻译出错？

李元庆： 如果先不谈算法，我认为从实验室走向落地最典型的挑战就是信号问题。边端协同场景下，一旦网络带宽不足或出现丢包，机器人就会直接宕机。

以 Agent 各层次来看：perception 层面，实验室里 7B 左右的模型基本什么都能识别，但真实场景中物体大量重叠、颜色色差、传感器跳变、光照影响，红色可能被识别成橙色，底层感知整个就乱了。决策层面，只要存在一点时延或误差，甚至中间有动态阴影经过，判断就会完全失准。

执行层面，硬件精度、执行准确度与策略推理之间哪怕存在微小误差，影响都会非常显著。整体来看，这是一个极其复杂的系统。AI 的可控生成，其实一定程度上就是保证每一个环节都是可控的，全链路可控才能实现整体可控。无人驾驶是这样做的，从实验室走向落地的产品同样应该如此。

隋伟： 两者对场景的要求确实不同。实验室更多是解决创新性问题，而真正到现场就得应对各种 corner case。

李元庆： 而且具身智能从一开始就在解决 scaling 和通用性的问题，从来没有进入过能用 SOP 去测试的成熟阶段。我可以负责任地说，我们的实验室在场景和落地细节不清晰的情况下，很多性能指标就没怎么评估准确过。

隋伟：您也提到“多智能体协同、长期记忆几乎没有成熟方案”。这个问题在工业场景下是不是特别突出？比如一条产线上多个机器人协作，或者一个机器人需要记住昨天没干完的活。Agent 框架能怎么解决这个问题？还是说，这超出了当前 Agent 的能力范围？

李元庆： 能走向落地的记忆系统应该是分层的、多模态的，具备时空关联，支持可检索与可推理。以往实现记忆大致有三种方式：内隐记忆（将内容训入模型）、外显式记忆（结构化写入文件后检索）、embedding 索引检索。

工厂场景中如果多机需要协作共享日志，不如直接用成熟的通信工具解决，而不必强行套用 AI 方案。用合适的技术解决合适的问题，这正是 Agent 的魅力：它并非 all-in AI，而是将以往自动化领域积累的结构化信息，以更巧妙的方式整合进来。从黑盒外部看到的是完整结果，打开内部会发现是拼凑起来的模块，这完全没有问题。

隋伟：元庆老师提到的 Agent 架构中，有一个“基于 World Model 的意图预判与规划”层。何博，在您的工业操作实践中，您觉得引入这种“预判”能力，对于提升操作的柔性和成功率，是必需的吗？它的计算开销会不会成为新的瓶颈？

李元庆： 关键在于要不要用。字节在 Flamingo 之后就开始做 imagination，特斯拉 FSD 也将其纳入。在算力充裕的前提下使用没有问题，收益也很明确：在动态环境下能更快响应，提高成功率。至于开销，取决于产品定义，如果产品需要在这样的工况下运行，就应该承担相应的算力开销。

以前学 MPC 时，它用短规程动力学模型做规划，加入预测来做滚动误差迭代。自动化领域其实早就存在解决类似问题的思路，world model 与之非常相似，只不过处理的是更长规程、多模态的问题。

何泳澔： 我们最近正在研究 world model 与操作任务的结合，初步结论是肯定能起到正向作用。主流 world model 大致有两种形态。第一类在像素空间预测未来，通过预测未来帧来理解物理规律和事件演化，视频生成模型就可以视为这一类，具身领域知名的如 World Labs 的 Marble 即属此类。

第二类是 LeCun 提出的 JEPA 路线，不在像素空间预测，因为其中干扰和噪声太多，而是在隐空间预测特征的演化。两种路线都已获得资本的大额押注。world model 对操作之所以有用，在于以往基于简单视觉基础模型描述观测，只能整合当前和历史信息；而在 world model 范式下预训练的基础模型，有可能融入对未来信息的感知，观测表达能力更强。学术界已有工作证明这一方向有效。此外，world model 在具身领域未来必然走向多模态集成，力觉等模态都将被纳入，最终有可能发展为多模态大模型的终极方案。

隋伟： 彭老师在 world model 方向深耕多年，您认为它对具身会有哪些帮助？

彭君然： 目前资本投入最大、落地最好的是大模型 Agent。以头部大模型训练代码能力为例，他们早已超越 SFT 阶段，同时起 5000 个 Docker 节点，每个节点做数百轮对话，在 post-training RL 阶段对是否报错、是否通过单元测试、显存和效率等分别给予 reward。类比到 world model：最前沿的方案就是把 world model 作为 reward 来源，在 post-training 阶段为 VLA 提供评估信号，思路与语言模型训练 code Agent 高度相似。

从这个角度出发，world model 最关键的作用是充当评估器和 reward 来源。涉及两件事：VLA 输入多模态信息、输出 action；world model 根据 action 预测未来的 observation，再对不同 observation 的好坏做出评价，将评价反馈回来。我比较认同的定义是：world model 就是从 action 到 observation 的预测，加上对 observation 给出评价的能力。

隋伟：从空间智能角度看，无论是 VA 还是 VLA，它们所依赖的视觉输入，目前是否本身就“先天不足”？比如，模型是否只看到了物体的“样子”（RGB），而看不到对物理交互至关重要的“材质”（摩擦力、反射率）和“功能”？

彭君然： 我认为确实需要更多信息，但不代表必须包含材质标注，材质其实可以从视觉中获取。我们为游戏公司做 AIGC 时发现，建模师给资产赋予材质完全靠视觉认知，《荒野大镖客》的高度逼真材质正是这样实现的。闭上一只眼睛看眼前的环境，你也能分辨混凝土、光滑木头和粗糙木头。因此摩擦力等信息，纯视觉是可以获取的。

但力觉依然关键。很多情况下不同力作用下的观测结果可能完全相同，只有到达临界点时视觉才会出现微小变化，一旦力再加大、观测产生显著变化，往往已经无法挽回。对安全性要求高或涉及特殊操作的场景，单靠视觉是不够的。

何泳澔： 单纯做 next frame 预测，能否让模型学到物理规律影响下的运动行为？我感觉有一派认为纯从视频就能搞定物理问题，但这套方式归根结底是统计学习，必然有处理不了的情况。

彭君然： 确实有局限性，毕竟不是数值解。但关键问题在于：在非数值解的条件下，是否足以为 VLA 提供合适的 reward？这是另一个层面的问题。

李元庆： 流形嵌入理论有一个核心观点：运动细节在采集的数据里根本没有被模拟到，大量视频只有杯子静置和碎裂两个状态，中间物理动态变化的过程完全缺失。我以前做 GPU 时，compute shader 基于物理引擎做图形拟合，效果看起来像那么一回事，但实际上不是。物理引擎如今应用相当广泛，为什么在视频生成里反而跑得更快？这里面还有些问题没有厘清。

何泳澔： 我有一个直觉：既然已有成熟的物理引擎，以数学公式的方式显式地纳入了物理规律，那么如何将它与 world model 结合，让模型在统一的物理规律下实现泛化？

隋伟： 物理引擎是规则化的方式，world model 还是希望通过 learning 来学习更复杂的物理规律。

何泳澔： 对，这正是两类 world model 的区别：一类执着于在像素空间完美还原；LeCun 的思路是认为这没有意义，直接在 latent space 预测，从而直达最关键的信息，其中也有可能包含物理规律。能否真正做到还需要观察，他们已有相关论文，结果看上去比较 promising。

数据之卡

隋伟：元庆老师，您把“数据极度稀缺”列为第二大痛点。但您也提到 Agent 能实现“反馈层：数据闭环优化”。能不能具体解释一下，一个设计良好的 Agent，是如何在真实物理交互的过程中，自动采集、筛选、并利用数据来优化自身，从而部分缓解“数据饥渴”的？

李元庆：OpenVLA 很典型，它把数据和操作流程做成了闭环并实现无限迭代。我们做 VLA 时用到过 HIL-SERL 算法：先由人工示教 20 到 30 条数据，基于 reward 构建 RL 缓冲区，再用 RLPD 策略训练。目前已有团队将这一思路作为重点方向，真机可靠性也有了显著提升，但目前数据量肯定还是不够的。

此前业界猜测具身基础模型约在 14B 左右，需要百万小时量级的视频数据。但我现在感觉，如果能找到与自身高度匹配的开放数据集，合理构建数据配比，解决策略比以前便宜很多了。

自闭环、OpenVLA 架构、RLPD，这三种方式或许能在这个阶段更新很多模型公司的数据获取方式。

隋伟： 那真机强化学习在实际场景中具有可行性吗？

李元庆： 以前觉得让 VLA 插 USB 极其困难，但 SERL 做到了，这是工程事实。不过从黑盒角度看，强化学习这条路的上限相对有限。我当年走 MPC，一直卡在 reward 难以收敛的问题上。但大模型具备世界常识，如果能让 reward 基于世界常识定义并快速迭代，以前很多走不通的路或许能再走一走。

隋伟： 用 world model 给 reward，是提供量化数据来指导训练吗？

李元庆： 以前的 reward 就是定义一套固定的 constraints 和 rules，不停地往里 overfit。如果能引入 world model，reward 就可以在训练过程中持续迭代优化，把 overfit 到具体指标的问题转变为趋势性引导，很多以前丢失精度的地方也许可以再提回来。

隋伟：何博，您提出“轨迹数据标准化”来降低模型训练震荡。这个思路很有意思，有点像给数据“消毒”。能不能透露一下，这个“标准化”处理，是会损失一些数据的多样性，还是能去芜存菁？

何泳澔： 背景是这样的：遥操作采集数据时，操作者控制主臂带动从臂，采集到的轨迹不可避免地含有噪声，比如停顿、无意义片段、手部抖动导致的不平滑轨迹。

不同操作者习惯不同，轨迹差异更大。VLA 和 VA 的策略预测大多基于扩散模型或 flow matching，强行拟合含噪数据，模型也会把噪声学进去。我们的思路是：对所有采集轨迹进行处理，使其干净且流畅度一致，让后续策略学习更简单高效。

第一阶段目标是在末端轨迹层面，让运动学与动力学特征高度一致。具体做法是构造相关项建立 cost function 优化轨迹，剔除质量较差的点，只保留优质轨迹点训练，本质是一个采样过程。相比均匀采样，这种方式在我们的实验中精度提升了 20 个百分点。这是数据预处理流程，不修改模型本身，训练前先过一遍算法再训练。结果非常正向，接下来会在更复杂情况下推进。

这么多年做机器学习，我一直认为保证数据质量是第一位的，模型反而是第二位的。

隋伟：彭老师，您的研究涉及“生成”路径。未来有没有可能，我们不再需要辛苦采集真实数据，而是像 Sora 生成视频那样，直接“生成”一个机器人完成装配任务的完整轨迹数据，而且自带物理标注？

彭君然： 大概率是这个方向。从 scalability 角度看，训练语言模型的数据量比具身多出 5 到 6 个数量级，现有数据量远远不够。目前数据来源主要有三种：实采、仿真引擎生成或三维重建导入仿真、从视频或世界模型中获取。即便雇 400 人不间断地实采，泛化性依然有限，因为无法在不侵犯隐私的前提下进入真实家庭采集，业界普遍认为 scale up 还是要靠视频生成模型或世界模型。但生成数据是否需要物理标注是个难点，世界模型是用纯视频训练的，很难获取力学标注，而真实操作场景中力的反馈至关重要。

我们的探索方向是：不把力的绝对大小作为标注，而是把力的梯度，即力发生阶跃时的变化量，作为物理标注。力发生临界性剧变时，视觉上也会有显著变化，两者可以互相映射。

隋伟： 生成式数据与真实数据之间的 gap 能弥补吗？

彭君然： 三种方式各有局限：UE/PCG 生成存在 sim-to-real gap；重建方式物理交互真实性难以保证；生成模型是最有希望的路线。即便存在偏差，就像近似解把级数展开的小项丢掉，当数据量足够大时主成分被保留，误差被摊薄，整体效果依然可期。

隋伟： 从空间智能角度看，最重要的数据因子是什么？

彭君然： 取决于具体任务，穿针引线、拆箱、擦拭等必须依赖力觉，有些任务则不需要，但视觉加力觉基本就够了。

隋伟：既然数据这么贵、这么难，那有没有一种可能：我们先不追求“数据驱动”，而是用“模型驱动”，把物理规律、常识知识先编码进模型，让它更“聪明”地学习，从而大幅降低数据需求？这条路可行吗？

何泳澔： 目前看来没有成熟方案，我认为最终还是会回归数据驱动。

李元庆： 我认为这件事其实已经在用了，FSD 就是典型，高精地图和车道线本质上就是把先验知识注入进去。算法层面：GAN 通过对抗降低数据需求；PPO 中 critic 和 actor 将 constraints 和 rule-based 内容注入其中。更典型的是 WBC 加 MPC，WBC 将物理约束通过 teacher policy 形式注入，大幅降低数据需求，加快模型收敛。这条路一定可行，因为已经有人做出了结果。

隋伟： 也就是说，learning 方法负责突破上限，规则和先验知识负责兜底。

李元庆： 数学建模和数值分析的积累不应被抛弃。模型具备数学能力，一个重要原因是代码中以数学模型的方式内嵌了大量物理规律和常识，这些东西一直在以这种方式被灌入。

隋伟： 如果规则足够明确，就可以优先利用，没必要训一个有随机性的模型来回答 1+1=2。

彭君然： 模型要做出决策，必须先把观测空间变成可计算的空间，这个转换本身就存在大量简化。很多场景可以抽象为矢量空间，物理规律和常识在其中非常容易 apply。但像插 U 盘这类精细操作，难以抽象出足够好的矢量空间，物理知识也就无法直接机械套用。这不是可不可行的问题，而是需求、方案与任务难度之间整体匹配的问题。

物理交互之卡

隋伟：彭老师，您演讲题目是“空间智能初探：重建与生成的双路径实践”。您能给大家简单介绍一下“重建”和“生成”这两种技术路线的差别吗？

彭君然： 我的报告涵盖重建、生成和世界模型三条路线，视角偏工业导向，核心是什么事能给工业界带来价值。从需求出发：重建的目标在我的视角下并不是为了训练。许多 ToB 场景需要做 POC，但工厂产线不能停，可能只有深夜两个小时可以进场，效率极低。如果能用数字孪生方式对场景进行 1:1 重建，团队就可以在任何时间、任何地点并发地完成 90% 的 POC 工作，大幅提升效率。

生成的价值则在于：重建是对现实的复刻，若需要对场景进行编辑或产生多样化变化，就需要生成出成千上万的测试场景来验证方法的鲁棒性。我们还有另一类生成方案，用大语言模型驱动 UE 或 Blender 生成海量场景，这些引擎的物理仿真和 URDF 导入做得相当好。

第三条路线世界模型，才是追求 scale up 的终极目标。走过大模型这条路，我们始终担心押注前两条路而错过第三条路的决定性突破，所以三条路线都在同步布局。

隋伟： 复刻现有场景，生成能产生多样化内容，世界模型能生成更丰富的信息吗？

彭君然： 对。前两种方式无法借力大语言模型或视频生成模型的成功，只有第三种可以，所以第三种前景更大。

隋伟：何博，在您的工业操作实践中，您觉得当前机器人对物理世界最“无知”的地方是什么？是不知道东西有多重（动力学），还是不知道表面有多滑（摩擦系数），还是不知道一碰就倒（稳定性）？

何泳澔： 这几类信息都缺，没有哪个是最缺的。从工程实践来看，力觉在工业落地中是必须存在的模态，可以分成不同层级：粗粒度只关注关节力矩，更高精度则加装六维力传感，进一步细化则在末端加装触觉传感，目前已有分辨率相当高的方案可用。

我们的做法是按这个步骤逐步引入更复杂的力觉模态，但每种模态的数据形式和结构各不相同，直接影响数据采集的方式和难度。

隋伟： 也就是引入更多模态，代价是采集效率降低、成本提高。

何泳澔： 对，但核心问题是：必须用新的模态来突破现有方案成功率的天花板。单一视觉模态已有明显瓶颈，必须引入力觉才能突破。

隋伟： 不过视觉的上限可能比想象中高得多，FSD 纯视觉的上限能接近视觉加激光雷达的水平。算法和数据能力足够强，纯视觉也是可行路。

何泳澔： 纯视觉之所以可行，是因为如果能通过纯视觉还原场景所有细节，就相当于拥有了上帝视角。但难度极高，所以才需要引入更多模态来代偿。

隋伟：一个能实际用于 Agent 决策的 World Model，和学术界追求的“完美预测下一个画面”的世界模型，最大的不同在哪里？工业场景需要的 World Model，到底应该“模”什么？

何泳澔： 先有鸡还是先有蛋的问题：你希望 world model 能预测出好的未来，前提是已经在这个场景用大量数据训练过它。既然已经能获取那么多数据，为什么不直接用来训练原本的任务？

李元庆： 我的感受是：有了更好的刀，才能有更好的尺；有了更好的尺，又能磨出更好的刀。两者不相悖，而是螺旋上升的关系。

彭君然：VLA 训练需要带 action 标注的机器人数据，量相对有限；world model 的训练来源是 web 视频，量要大得多，两者用的不是同一个数据集。前提假设是 web 视频或视觉信息足以提供有效的 reward 信号，方案是基于这个前提设计的。

系统落地之卡

隋伟：元庆老师，从您的经验看，现在想用具身智能改造产线的企业，他们最容易低估的“隐形成本” 是什么？是部署调试时算法工程师的大量驻场时间，还是为了让环境适应机器人而做的改造费用，或者是后期数据维护和模型迭代的持续投入？

李元庆： 你提到的那几项都是显性成本，更值得关注的是企业主的决策成本。因为信息不准确或不全面做出错误决策，后续一连串投入全部变成巨额成本。而且每一个决策都会成为人力、资本和代码开发的杠杆，杠杆一旦形成，费用极其高昂。

大家看到的具身智能似乎已经很稳定，但真正落地时会发现还有很多问题没解决，而能讲实话、做出准确评估的人很难找到。决策成本的根源正是信息不对称、不全面和不准确，最前期就已经在产生非常高昂的成本了。

隋伟：要评估成本，就得衡量机器人进入场景能带来多大价值。具身技术在工业场景下能做到什么程度？相对于传统工业自动化的优势在哪里？

何泳澔： 在绝大多数场景下，具身方案目前比不过工业自动化；在部分高价值、高难度的场景，两者都做不了，仍然需要人工。中间存在一个 gap，高度定制化的工业自动化能覆盖，但成本很高；具身也有可能覆盖，优势在于能将某些环节沉淀为通用能力，在通用性与定制化之间找到平衡点，这是具身可能发挥价值的地方。但现阶段不应该一股脑上具身，很多具身公司在做的事情，明显有更低成本的自动化替代方案。

隋伟： 也就是说具身的价值在于解决传统自动化做不了的柔性或长程任务，最适合的技术才是最好的。

何泳澔： 具身具备边际成本递减的能力，完全定制的工业自动化在这方面比较难。

隋伟：彭老师，您在学校里培养学生，如果目标是去产业界解决这些“工程炼狱”问题，您会重点教他们什么？学校教育和产业需求之间的“最后一公里”卡在哪？

彭君然： 最需要解决的不是最后一公里，是第一公里，甚至是第一米。在 AI 日益普及的今天，最关键的能力是尽早学会认知价值、预判未来、做出合理决策，其他一切在这件事面前都是徒劳。

展望未来

隋伟：何博，对于正在做机器人操作算法的工程师，您最想建议他们“不要在什么地方浪费时间”？

何泳澔： 不要把技能栈锁定在某一个点上，建议全栈了解：从控制机械臂，到 VA/VLA 模型训练、部署，再到整体方案设计。这些东西没有想象中那么难，把经典代码实操一遍基本就能掌握。全栈了解能建立全局视角，之后再形成自己的价值判断，深入最有前景的方向，最好还能参与一个实际的工业项目。

隋伟：元庆老师，未来 2-3 年，在 Agent 架构层面，您认为最有可能取得突破、从而打通一个关键卡点的技术方向是什么？

李元庆：Perception 落地趋势越来越明显，多模态对齐和 reasoning 的标注策略也越来越清晰。但 action 仍是最核心的卡点——Mobility（navigation 和 locomotion）和 manipulation，我们对真实物理世界物体交互的探索还有很多未完全探知之处。

隋伟：对于正在选择研究方向的研究生，未来五年，具身智能领域最值得深耕的学术方向是什么？

彭君然： 这个粒度太难预测了，而且也不一定非是具身智能。随着年纪增长，我越来越觉得要跟着国家政策走，多看看下一个五年计划，还是能发现新机遇的。

隋伟：请每位嘉宾用一句话预测：具身智能在工业场景的“iPhone 时刻”（即规模化复制的引爆点），最有可能因为什么事件或技术突破而到来？

何泳澔： 如果一台具身机器人能在某个工位上持续完成任务一个月，它就真正具备了长期商业落地的价值。

李元庆： 我觉得 teleoperation 是真实可行的方向，机器人足够鲁棒、硬件足够便宜、时延问题基本解决，就可以让不同时区的工人承担三班倒的工作。teleoperation 落地，就意味着商业闭环和数据闭环同步实现，就像 L2 无人驾驶一样。

彭君然：ToB 业务的本质是经济账，iPhone 时刻其实并不恰当。补贴退去之后，如果经济账仍然输给工业自动化，那就需要重新思考了。

何泳澔： 那就是诺基亚时刻了。

主持人：

隋伟博士 / 地瓜机器人算法副总裁

2011 年，他于北京航空航天大学探测制导与控制技术专业毕业，之后进入中科院自动化研究所深造，并取得博士学位，其研究方向为模式识别与智能系统。2016 年 7 月博士毕业后，担任模式识别国家重点实验室助理研究员，负责 3D 视觉感知方向的研发工作。

2019 年 1 月隋伟博士加入地平线，任高级算法工程师，主要负责机器人和自动驾驶场景下，基于旭日和征程系列芯片的 2.5D 及 3D 视觉算法研发。2020 年 12 月 - 2023 年 12 月，任研发总监，带领团队（30 人）成功开发了地平线高阶自动驾驶 BEV 感知方案，并且搭建了国内首套最为完备且先进的 4D Label 标注系统。目前旭日系列芯片出货量已达数百万片，BEV 感知方案也已在多个车型上定点量产，为自动驾驶领域的发展做出了重要贡献。隋伟博士在 ICRA、IROS、CVPR、TIP、TVCG 等国内外知名期刊和会议上先后发表学术论文 20 余篇，拥有专利 40 多项。此外，他长期担任 ICRA、IROS 等机器人会议的审稿人，同时担任《智能驾驶和机器视觉》《智能驾驶与多维重建》等自动驾驶相关著作的主编。

2023 年 11 月至今任地瓜机器人算法 VP ，负责面向消费机器人和具身智能的软件算法方案研发。

嘉宾：

何泳澔博士 / 地瓜机器人具身智能负责人

何泳澔，中国科学院自动化研究所模式识别与人工智能专业博士。现任地瓜机器人具身智能负责人，长期深耕计算机视觉、多模态学习，自动驾驶，具身智能前沿领域。

曾任中科院自动化所助理研究员。在产业化方面，作为银河水滴科技技术联合创始人及中科慧远首席 AI 科学家，主导了步态识别、工业表面缺陷检测等多项核心技术的算法研发与商业化落地。在机器人领域，曾负责地平线自动驾驶 BEV 感知架构设计，现聚焦于端侧 AI 芯片配套算法及具身智能感知决策系统的研发。学术影响力方面，在相关领域发表学术论文近 20 篇，获授权专利 10 余项。其开源算法在 GitHub 获得约 2000 Stars，并运营有万粉级 AI 技术自媒体。兼具扎实的学术研究基础与丰富的工业界大规模落地经验。

李元庆乐享科技 / CTO

现任乐享科技 CTO。前华为云，具身智能具身规划负责人、ROBO_AGENT 负责人、2024 具身智能 KEYNOTE 技术负责人，负责盘古大模型具身智能规划、Multi AGENT 执行系统、多模态大模型会战、多模态具身规划大模型等。

彭君然博士 / 北京科技大学副教授

本科毕业于清华自动化系，博士毕业于中科院自动化所，长期围绕空间理解与构建开展研究，在该领域发表论文 30 余篇，其中作为一作和通讯作者在 IEEE T-PAMI、IJCV、CVPR、NeurIPS、ICLR、ECCV 等顶级期刊和会议发表论文 20 余篇，主导代表性工作包括 CityGaussian，SceneX，GAIA 等。研究成果在面向国家公共安全需求的智慧城市建设和面向经济民生需求的具身智能领域若干场景落地，包括华为、腾讯、航天科工等，对智慧城市建设和具身无人系统构建具有重要意义。

会议推荐

OpenClaw 出圈，“养虾”潮狂热，开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下，自托管 Agent 形态迅速普及：多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。

针对这一系列挑战，在 4 月 16-18 日即将举办的 QCon 北京站上，我们特别策划了「OpenClaw 生态实践」专题，将聚焦一线实践与踩坑复盘，分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系，最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。

AI资讯

浏览 (5)