前华为自动驾驶CTO、旷视科技联创:技术未收敛,是具身智能最大机会
文 |周小燕
编辑 |郑可君
“2015年,我们投优必选机器人的时候,市场上几乎没有投资人关注机器人。”
7月28日,WAIC 2025大会启明创投·创业与投资论坛上,启明创投主管合伙人周志峰回顾了自己2015年投出优必选时的“孤独”选择。
周志峰透露,早在2015年这一阶段,几乎没有投资人关注机器人领域,如今不过短短数年,具身智能创业公司已在中国超过百家,热度之高令人咂舌。然而热闹背后,是技术是否收敛、路径是否清晰的理性追问。
论坛上,周志峰与它石智航创始人兼首席执行官陈亦伦,原力灵机联合创始人兼首席执行官、 旷视科技联合创始人唐文斌 ,围绕“具身智能的奇点时刻”主题,就具身智能行业变化、创业难度、商业化等问题展开了一场圆桌对话。
核心观点:
当前具身智能的核心方向正在形成共识——以端到端、多模态和物理世界对齐为代表的技术路径逐步明朗,但模型结构、记忆机制等关键问题仍处于探索阶段。
自动驾驶积累的工程体系正在向具身智能迁移,尤其是在时空建模、异常闭环处理与系统架构层面,具备高度复用价值。
制造业与物流场景由于刚需明确、容错度高和具备规模化基础,被认为是最有可能实现机器人率先落地的方向。

(图:从左到右依次,启明创投主管合伙人周志峰,它石智航创始人兼首席执行官陈亦伦,原力灵机联合创始人兼首席执行官、 旷视科技联合创始人唐文斌)
以下为本场论坛实录,经腾讯科技整理编辑:
周志峰:2015年我们启明创投投资优必选机器人的时候,市场上几乎没有投资人关注机器人。后来过了一年,宇树出来,也还是不温不火。我记得当时很长一段时间,机器人创业者就那么几十个极客,在一个创始人群里。
但突然在过去两年间,一夜之间中国出现了一百多家做具身智能和人形机器人的公司。我们统计下来,从创业公司数量来看,这个细分领域的热度是无可匹敌的。
所以我觉得今天这个话题大家肯定非常关注。能不能请两位先简单介绍一下自己和各自的公司?
陈奕伦:各位来宾好,我叫陈奕伦,是它石智航的创始人。在过去十年,我和团队有幸参与了很多领先的自动驾驶核心技术的研发,具身智能也正是其中的一个子命题。我们经历了从实验室原理样机到今天很多人日常生活中能体验到我们的产品的完整过程,产品也在持续改善大家的出行体验。
未来十年,我们希望能够打造更加通用的机器人形态和更强大的物理世界 AI,使这些技术更快、更大规模地融入生产和生活中。我们也希望具身智能技术能成为未来十年产业升级的重要引擎。
唐文斌:大家好,我叫唐文斌,我的上一家公司是旷视科技。今天我代表的是原力灵机,这是一家比较新的公司,专注于具身智能。其实我们做机器人已经很久了。
从旷视创立的第一天起,我们就希望先给机器人装上一双“眼睛”,让它能“看见世界”。其实我们也一直想做真正意义上的机器人,最早从物流机器人这个场景开始做了一些尝试。
现在我们也跟一轮师兄一样,看到了许多关键技术变量的出现,让机器人有可能从专用走向通用。我们希望真正能用大模型与机器人的能力,为物理世界带来终极形态的 AI,这就是我们目前努力的方向。
过去一年,具身智能行业的变化
周志峰:你们作为行业里的领军人物,怎么看具身智能、通用人形机器人在过去一年的变化?有没有什么关键进展?今天说句真心话——你们是比以前更有信心了,还是其实也有点虚了?
陈奕伦:我个人一直对这个领域非常有信心。其实大家从每年的人工智能大会上也可以看到,过去两年里,整个具身智能或机器人技术的进步速度,已经超过了之前若干年的累积总和,这是非常令人振奋的。
作为从业者,我们判断接下来的发展速度还会更快。比如说一年前 WAIC 上的机器人展还多以静态展示为主,现在机器人在全程控制、locomotion 和balance control上,技术已经接近收敛。
第二个关键变化是端到端。一两年前学术界对端到端充满信心,但工业界还存疑。如今,至少在最大的机器人移动场景——自动驾驶上,端到端已经实现了充分的产品化,用户可以日常体验其能力。在机器人操作领域,实验室级别的样机也已经展示出巨大的能力跃升。
第三个是多模态大模型的进展,不同于单一语言模态,多模态模型(如视觉+语言)的能力还在显著提升,而且 scaling law 还没有见底,仍有巨大潜力。
综合这几点,我认为具身智能正处于“越跑越快”的阶段,同时硬件技术也在加速成熟,比如灵巧手等高自由度终端形态已经接近量产。这些进展都非常鼓舞人心。
唐文斌:从信心角度来说,最关键的两个支撑是:大模型在 COT(Chain-of-Thought)和 agent 能力上的进步。
我们一直认为,要让机器人真正走向通用,有两个必要条件:第一是对物理世界的精准感知能力,这其实也是旷视过去多年一直在做的事情。从小模型到大模型,我们看到多模态感知的能力在不断增强,现在已经可以做到非常好。
第二是复杂的规划与推理能力。只有这两个能力结合起来,机器人才可能迈向通用智能。而现在 COT 和 agent 的快速发展,已经给我们带来非常多的惊喜。
所以从技术演进的角度来看,我们认为这个方向正以极快的速度向可行性靠近。
周志峰:我记得我们在2014、2015年投资旷视的时候,内部其实有一套自己的投资逻辑。
当时我们认为,2012年的 ImageNet 是深度学习的转折点,也可以说是一个技术的基点。自那之后,基本上大家都开始沿着连接主义的路线发展,全行业最优秀的人才都围绕这个方向在奋斗。
所以我们判断可以去布局像旷视这样的公司。后来在2022年,我们开始投资智谱唐杰老师的项目,再到投资阶跃星辰,其实也是因为我们认为 2020 年的 GPT-3 是另一个技术基点。之后的技术发展逐渐收敛,整个方向开始趋同,自然也就能看到更好的结果。
但说实话,我们在投你们两家公司的时候,内部一直有很多争论。
问题在于,具身智能的技术到底有没有收敛?还是仍处在百花齐放的阶段?
因为如果是百花齐放,对我们投资人来说风险是非常大的。今天押注这两家、或者另外两三家公司,也许他们团队都很优秀,但三年后如果技术路线收敛到了另一条路径上,那对我们来说就是很大的不确定性。
所以我想请两位聊聊:具身智能的技术路线有没有收敛的趋势?此外,今年这个领域有没有遇到什么大的技术瓶颈,阻碍它更快发展?文斌你先来。
唐文斌:我认为技术还远没有收敛。无论是算法框架、数据来源、硬件形态与稳定性,还是场景落地的先后顺序,这些问题目前都还是开放性的。
比如现在大家逐渐达成共识,认为应该走端到端、纯数据驱动的路线,用类似 VLA 的技术框架。这种共识正在形成,比如说单靠视觉很难引导机器人动作,现在大家都在强调多模态——不仅是视觉,还包括力觉、触觉等。
比如我们能不能像自动驾驶那样获取多视角、带深度的信息,并将其输入到 VLA 中。这类多模态数据如何进入大模型体系,这方面的共识在逐步建立。
但模型架构具体长什么样,其实现在并没有定论,我们还在持续探索。例如,目前很多 VLA 模型是单帧模型,我们经常开玩笑说:让 VLA 去炒菜,放三勺盐,它可能只放得下一勺,因为它放完第一勺之后就不记得自己有没有放过盐了。从视觉角度看,放过和没放过盐的状态是一样的,而现在模型缺乏记忆机制。我们当然可以用外部规则去补救,但怎么让模型本身具有原生的记忆能力,这是一个非常关键的问题。
另外一个我们正在研究的问题是大小脑模型。现在很多公司,从 Figure 开始,都在提这个模型,但我不认为大小脑模型是终极形态。所谓大小脑,其实是人为根据频率做的切分——大脑负责思考,小脑负责执行,因为输出频率不同。这样切分是为了工程实现方便,但它不是真正的“智能”。
人类做事的方式是“我想一下”,做完之后再“我再想一下”,这个过程是动态和柔性的。所以未来是不是可以实现一个基于单模型、具有动态频率调节能力的柔性系统?这还是个开放性问题。
总结来说,我认为目前的模型框架远远没有收敛,仍有很多基础问题待解。但也正因为如此,这个领域才让人充满激情和想象力。
具身智能创业,就像“跳崖组装飞机”?
周志峰:文斌你来之前,印奇在分享时提到一个观点,我想问你这个老搭档认不认同。他说当年2011年创业做旷视的时候,内部的口号是“先跳下悬崖,在坠落过程中组装飞机”。但现在他觉得,如果没有先想清楚一个闭环逻辑,这种创业模式注定是要失败的。
那我就想问,既然现在还有这么多的不确定性,技术也没有完全收敛,你今天做具身智能机器人创业,是不是又在“跳崖组装飞机”?
唐文斌:我觉得这其实是技术信仰和价值务实之间的一个辩证统一。
比如我们当年做深度学习或今天做大模型,所有这些技术在 Day One 都不可能有确定性。如果已经确定了,战斗也就结束了,创业公司也没机会了。 正是因为技术存在不确定性,才给创业公司留出了机会。所以团队内部有没有信心这件事,非常重要。
但信仰之外,也要有路径。我们不能盲目蛮干,要能在登山的路上找到“营地”,获得补给,阶段性地实现商业化,逐步产生成果。所以我既同意印奇的观点,也觉得这事儿需要辩证看待——信仰很重要,但必须务实推进。
陈奕伦: 我基本上赞同文斌的观点,但我也可以从另一个角度补充一下。
我的观点是,在具身智能这个领域的宏观层面或者长线方向上,行业已经取得了高度共识。但在“怎么做”这个微观层面上,各家公司依然存在多样化的思考。
我之所以强调宏观共识的重要性,是因为我曾经历过自动驾驶的完整十年周期。在那十年里,行业在宏观层面上是高度“非共识”的,比如:小决策和规划模块要不要用 AI、是否要与感知模块分离、是否依赖地图……这些问题大家争论了很久。
相比之下,现在在具身智能这个领域,大家在宏观路径上基本达成一致:我们都认为数据非常关键;我们认为最终的部署形态大概率是端到端的结构,且是多模态输入;语言、视觉、其他传感器都有重要作用;
我们也普遍认为光靠模仿学习不够,还需要强化学习,甚至世界模型的引入。但在实现路径上差异就很大了。比如对数据的理解,有人主张部署大量机器人收集操作数据,有人偏向仿真生成数据,也有人强调必须获取高质量的真机数据。
就像刚才提到的 VLA,我也很认同,它其实是视觉(V)、语言(L)、动作(A)三种模态的组合,定义了输入输出任务边界。但中间的网络结构怎么设计?是从头到尾一张大网,还是需要引入中间变量层?用不用强化学习?强化学习选哪种算法?要不要加入世界模型?这些问题都还在探索中。
再比如硬件层面,现在主流形态大致是双足和轮式两类,反映了不同场景的需求差异。即便是双足,也有直驱、跖屈关节、或复杂传动结构等多种技术路线。
所以我认为,宏观路径的一致性提供了产业发展的基础方向,而微观的多样性则带来了技术探索的活力。这其实是一个健康的状态:在基本确定的方向下,快速试错、互相借鉴,有助于整个行业加速繁荣和进化。
从智能驾驶到具身智能的能力迁移
周志峰:还想提一个认知层面的问题。亦伦,你过去主导了华为智能驾驶第一代完全从零起步的技术与资源体系,也帮助塑造了今天华为智能驾驶在国内外的地位。那你觉得有哪些认知是可以从智能驾驶迁移到你现在在踏实创业、从事具身智能机器人领域中来的?哪些是可以共享的?
陈亦伦:这是个非常好的问题,我也特别喜欢回答。
首先,从技术渊源看,自动驾驶技术和机器人技术本来就是同宗同源的。今天我们所看到的自动驾驶系统,在很长时间里主要起源于美国两个顶尖的机器人实验室:
一个是斯坦福的 Sebastian Thrun,他是《Probabilistic Robotics》这本教材的作者;另一个是卡内基梅隆的 Red Whittaker,他干了一辈子登月机器人。
可以说,自动驾驶技术最初就是从这两个实验室出来的技术融合体,逐步发展出现在的主流技术体系。2018年后,自动驾驶开始经历全面的 AI 化过程。最开始是模块级别的 AI 应用,之后进入“分层端到端”,再到今天的“端到端一体化”架构,也就是用一个模型从头到尾完成整个系统的闭环。这就是现在端到端自动驾驶系统的发展脉络。
因此从方法论上看,自动驾驶和机器人在技术路径上是同一流派的延伸。这个背景决定了自动驾驶从业经验对机器人是高度可迁移的。我大概从三个方面理解这种迁移:
第一是技术的直接复用。机器人和汽车一样,本质上都是具身平台,都需要移动能力。而移动能力在很多机器人应用中是至关重要的。目前很多商用机器人还在用类似扫地机器人的技术:SLAM、电图、导航。但如果我们把自动驾驶中先进的端到端能力迁移过来,不论技术层面还是商业价值,都将是一次质的跃升。
第二是认知层面的迁移。自动驾驶这些年的一个核心经验是:所有的 AI 都必须被定义在“时空”里,而不是二维图片中。自动驾驶领域有个非常核心的概念叫 BEV(Bird’s Eye View),本质上就是用统一的时空坐标对齐所有输入输出模态。
这是极其重要的认知,因为具身智能也是“物理世界 AI”。就像药物挖掘是“化学/生物世界 AI”,具身智能则天然嵌入在时间、空间、力等物理变量中,必须基于物理规律来建模和优化。
第三是工程体系的迁移。今天的机器人硬件系统在结构和工程实现上,与自动驾驶极为相似。从芯片、底层软件、通信中间件,到传感器系统,乃至像文斌刚提到的“快慢双系统”架构,这些都高度趋同。
我也非常认同文斌的观点: “快慢系统”并非终局,只是在当前算力紧张和资源受限的背景下,一种务实的阶段性设计选择。
此外还有两个关键工程能力也可以迁移过来:一个是数据管道,另一个是训练基础设施,这些在自动驾驶里已经很成熟了,也能直接赋能具身智能领域。
周志峰:我也把这个问题抛给文斌,你过去在旷视推动了物流机器人的大规模落地,从那段经历中,有哪些东西你认为是可以迁移到你们现在想做的新一代机器人的?
唐文斌:我们当年做物流机器人,其实坦白说,也不是因为我们多热爱物流。更多的是在技术可达性与市场需求之间,去寻找一个好的结合点。
旷视成立那天起,我们的目标就是做机器人。但我们先从“眼睛”入手,希望未来有“手”和“腿”,真正影响物理世界。我们看了很多场景,最终选了物流,是因为它有几个优势:
第一,标准化程度高。比如集装箱是物流史上最伟大的发明,它将物品封装标准化。而在仓库里,对应的就是托盘、箱子、商品单元等模块化载体。这种标准化让自动化和机器人更容易介入。
第二,市场规模大。全球有几千万人在仓库中工作,劳动密集度极高,机器人在其中的替代与协作空间非常大。也正因为标准化程度高,技术实现的可能性也更高。
第三,工程层面的认知迁移。
我们做物流机器人时付出了很多“学费”,也学到了一些关键点:最重要的一点是异常处理闭环。数字世界的异常你可以靠重启、恢复来解决,但在物理世界中不行。
比如机器人正抓着一个物品,程序出错了,不能简单靠 try-catch 就解决。你必须设计好所有“异常链路”,让系统在出错时能自动恢复到可控状态,否则会卡住整个作业流程。
这个异常闭环的构建,代价远比我们最初预期的大。这是从 POC 到大规模落地过程中最大的技术鸿沟之一。
第四,是对“稳态系统”的认识。我们买过很多外部机器人来测试,发现很多机器人 MTBF(平均无故障时间)都没法满足长期使用要求。如果产品不够稳定,你就只能靠服务去补,但服务对团队的消耗极大,大量技术人员和算法工程师都要被派去现场做运维。这种“工程救火”模式会极大限制规模化能力。
所以我们后来有一个总结:“快不一定是快,稳才是快。”
当机器人真正落地到场景里,这些稳定性和工程完备性,才是决定它能否跑得久、跑得远的关键。
具身智能走向商业化,还差哪些步骤?
周志峰:我抛两个问题,你们可以挑一个回答,也可以都回答,不过得控制一下时间。第一个问题:这次 WAIC 展示了 150 台机器人,看起来很热闹,但其实很多只是五台以内的静态展示。站在你们这样的从业者角度,真正第一批会落地的场景会是什么?
第二个问题:从产业角度看,具身智能机器人接下来要走向真正商业化,还缺什么核心要素?这个行业下一步最需要解决的最重要的事是什么?
陈亦伦:那我先来挑第一个问题,聊聊落地场景。我们在选择场景时,其实有一套方法论:第一,高价值;第二,有规模;第三,有难度。这三者是相互自洽的。
高价值意味着用户有明确刚需,痛点清晰,市场空间大,这样才能聚集优秀人才来解决问题。
有规模说明这个场景能撑起产业化。
有难度则意味着上一代机器人解决不了的问题,才是我们这代机器人的机会。现在整个机器人行业,从早期炫技向“使用价值”转变,我觉得这是一种健康的趋势。
所以每个能实现规模化落地的领域都是好领域。
就我的判断,第一批最有可能实现落地的还是制造业,因为那里早就已经部署了大量机器人,痛点也非常明确。
唐文斌:我们选场景也有几个标准:
第一,技术路线上的**“正梯度”发展**。这点可能不太好理解。就是说我们认为今天不应该太早固化技术形态,也不应该过早陷入单一垂直场景。
如果我们现在就把不成熟的技术强行落地到某个场景,其实是在牺牲未来的泛化性。这不是我们希望的路径。
第二,技术可达性。就像印奇说的,“跳下悬崖再组装飞机”,但有些飞机能组装出来,有些真组装不出来。
具身智能如果完全用端到端的方式从 0 到 100%,今天是很难做到的,我们更可能是逐步从 90% 到 95%,再到 100%。
因此,选场景时要找那些容错率高、对操作精度要求没那么极致的场景。
第三,市场规模和经济模型。就像亦伦师兄说的,规模大、刚需强的场景才是值得做的。
最终机器人能不能“跑起来”,核心看两点: 一是能不能真正解决问题;二是经济模型是否成立。
这两点都决定了我们还是应该从工业、物流这些更靠“后端”的场景入手,然后逐步走向商用,再到民用。