万字解析资本追捧的“人形机器人”,背后有哪些难以跨越的“坎”?|具身之路01期
生成式AI正在重塑机器人交互,让具身智能从“硬件机器”走向“智慧伙伴”,应用拓展、商业化落地也迎来全新机遇与挑战。腾讯科技联合行业伙伴,邀请学者、高管与投资人,发起《具身之路》系列直播,解读具身智能技术演进、场景应用与行业争议。本期直播,分享人形机器人从应用到落地的挑战。
腾讯科技《AI未来指北》特约作者 小燕 陌通
编辑 郑可君
当OpenAI引发全球对通用人工智能(AGI)的激烈讨论时,Meta首席AI科学家Yann LeCun提出了独到见解:真正的AGI需通过与物理世界的交互实现,人形机器人领域的突破性进展正在验证这一观点。例如,宇树科技H1在春晚完成高精度“转手绢”动作,Figure公司推出结合视觉-语言-动作(VLA)的Helix模型,展示出生成式AI与具身智能融合的潜力。这种技术整合正推动人形机器人向工业、医疗、家庭服务等多元场景渗透。
那么,人形机器人是实现具身智能的最好方式吗?目前人形机器人已经处于什么样的发展阶段?它所面临的核心卡点在哪里?
近期,腾讯科技发起“具身之路”系列直播,第一期重点探讨《人形机器人:从科幻到现实的「破壁」之路》,邀请九合创投创始人王啸,自变量机器人创始人兼CEO王潜,哈尔滨工业大学教授、国家级人才李治军,从同从技术水平、硬件路径、应用落地等多个角度,一起走近人形机器人行业,共同讨论大语言模型对人形机器人带来的系统性变革。
核心观点:
人形机器人当前的发展方向主要集中在两个方面:一是外观更接近人类,二是提升其操作和思考能力。而关于类人形机器人,我认为双足行走和仿人外形是技术上可行的,但是否是最优路径仍值得探讨。
当前人形机器人面临“只能展示,难以应用”的困境:目前人形机器人的出货量极低。因为它们还不能完成真正有价值的任务,更多停留在“演示品”阶段。这导致它无法支撑其承载的产业预期。
人形机器人的两种技术路线中,专家模型更适用于垂类任务,但统一模型则具有更高的潜力:如果依靠系统化的方式进行列举和枚举,一旦涉及的情况变多,规则之间就会产生相互干涉,导致难以运作但如果要实现通用能力;只有选择通用模型这条困难但正确的道路,才有可能实现真正的突破。
相较于大模型可能带来的风险,具身智能的风险仍然较为可控:在具身智能的问题上,不能因噎废食。我们能做的是在这个过程中积极作为。只有当我们真正掌握这项技术,才能意识到其潜在的危害,并主动去遏制这些风险。
以下是本期直播全部精华内容总结,在不改变原意的情况下有删减和调整。
01 科幻照进现实:“人形”是否是最优解?
李治军:如何看待人形机器人在科幻与现实之间的差距?未来的发展趋势又会是什么样?
王啸:人形机器人不仅可以实现仿人步态,在面部表情等多个技术方向上也正逐步接近现实。比如美剧《西部世界》中虽然有很多科幻元素,但部分设想正逐渐成为现实——外观逼真、具备思考与操作能力,能够执行多样化任务。
我认为这些已不再是遥远的幻想,而是在快速推进的现实。未来五年,我们或许将看到外观几可乱真、具备情感陪伴与家务处理能力的人形机器人。随着大模型的发展,机器人的综合能力也在不断提升。我们所投资的企业正朝着这个方向努力,这一切已经非常接近现实。
王潜:人形机器人当前的发展方向主要集中在两个方面:一是外观更像人类,包括走路姿态、皮肤、面部等;二是提升其操作和思考能力更接近人类水平,更加有用。
目前我们更关注后者。自变量已能完成像拉拉链、整理柔性物体、叠衣服等复杂操作,集合Google、PI目前的模型表现,具身智能与2019年年初GPT-2发布时的自然语言所处的阶段相当。当前正处于类似于从GPT-2过渡到GPT-3的阶段,尽管硬件、传感器和模型仍有限制,但技术突破的潜力十分明确。
在运动能力方面,如步态控制和平衡性,机器人已达甚至超越人类水平。至于皮肤、表情等外观方面,技术本身并没有理论性障碍,只需通过工程积累逐步推进。
操作能力方面,我们也在提升机器人对复杂任务的思考能力。自变量构建的多模态“思维链”已能支持机器人进行长序列的复杂推理。
我相信未来五年,机器人将在能力上取得惊人进展。正如2019年无人预料到2022年底会出现像ChatGPT那样的产品,我们对机器人的发展也充满信心。具身智能的真正落地将出现在可预见的时间内,甚至可能超出目前大众的想象。
李治军:人形机器人逐步进入家庭,已成为整个行业的共同目标。我个人也有一些思考,作为哈工大的教授,我见证了许多学生在该领域的工作。尽管技术进展迅速,当前依然存在一定挑战。
从操作系统的角度看,机器人尚未真正进入生态化阶段。正如手机、汽车、PC 的成功依赖于丰富的应用程序,机器人也需要数字化的行为库和完善的行业生态,目前这方面仍然相对薄弱。
未来,机器人不仅需要具备自主能力,更需依靠整个产业链的协同发展。因此,在技术突破的同时,生态建设尤为关键。但总体来看,从科幻到现实的转化过程依然令人充满信心。
接下来我们可以进一步探讨技术路径问题。例如,人形机器人是否是唯一的技术路线?我们已看到很多特种机器人并非人形,有些更像车或支架结构。那么,人形是否会成为未来的标准?它是技术发展的必然结果吗?
王潜:关于类人形机器人,我认为双足行走和仿人外形是技术上可行的,但是否是最优路径仍值得探讨。
您提到生态建设的重要性,实际上生态是可以做到超越人的事情。自变量正在做的尝试之一是让所有人将自己的技能手艺变成微调模型,让机器人像下载APP一样获取特定技能。这种方式能突破人类传统技能无法复制、难以流通的问题。
比如,一个厨艺高超的厨师每天最多做100道菜,但将其手艺转化为app后,每个家庭中的机器人便可下载这一APP,在无数家庭中复制这份能力,这其实是实现了远远超越人的能力边界。生态的能力可以驱使只训练一次机器人,所有机器人便有相同的能力,
从这个角度看,人工智能、机器人的终极目标不仅是模仿达到人类水平,更是实质意义上超越人类水平。
虽然人形机器人在情感价值层面具有不可替代的作用(因为人类天然对相对比较可爱,外形像人产生情感链接),但从长期看,可能会出现效率更高、功能更强的非人形形态。就像人类并未通过模仿鸟类飞行,而是发明了飞机,机器人未来的形态也不一定局限于仿人路径。
李治军:感谢潜总的分析。 请问一下啸总,假设现在有一家公司推出类人形机器人,您会投资吗?您认为未来这一行业是否最终会发展出完全仿人的1:1克隆机器人?如果会,原因是什么?
王啸:我们在投资时主要关注机器人能解决哪些问题,适用于哪些场景。机器人是一个多样化概念,例如工厂中的机械臂和叉车也属于机器人范畴。人形机器人只是其中一种形态,也包括双足、轮足等多种形式。我认为,是否采用人形,取决于具体问题和场景需求。
例如,在家庭中,可能无需双足行走的机器人,轮足设计可能更高效,能解决更多问题。因此,机器人是否采用人形,更应依据其在特定场景下的实际应用,而非单纯追求模仿人类。
李治军:我的观点可能和两位稍微有些差别,我认为人形机器人是一个值得推动的方向。因为非人形机器人在人机交互方面有很多需要解决的适配的复杂问题。当然我也赞同两位的观点,但我个人觉得未来人形机器人会成为一个真正的标配。
这里还有一个有趣的话题:人类是否始终怀有“造人”的冲动?造出一个与人类形态几乎一致的个体,甚至批量复制,这样的设想究竟只是玩笑,还是隐藏着某种潜在的哲学渴望?
王潜:这实际上涉及“人形”定义的问题。是必须具有双足可以行走、形似人类,还是说只要具备某些人类功能,比如能够以轮式移动、有双臂完成交互,就可以?
我认为可从狭义和广义两个层面理解“人形”,从广义角度看,我完全同意您所说的“人形将成为一种标准化产品”。但“人形”是否必须拥有双腿,或轮式形态,或其他特定形态,我认为并没有定论。重要的是,它应是一个完全通用的标品,人类也更希望机器人具备“通用性”,并能够与人类建立情感连接,实现实质性的交互。
比如电影《机器人总动员》中的主角WALL-E,是一个在某些方面很像人的机器人,并其形态并不完全copy人。如果机器人完全形似人,有些时候会造成恐怖谷效应,
所以我认为,“通用”是一个关键词,“超越”是另一个关键词。从哲学意义上来看,人类可能希望在自身基础上进行某种抽象层面的复制与增强,而非精准意义上的复制。
王啸:我认为目前人形机器人更多源于一种“工具性诉求”。我们希望它们能帮助人类完成家务等日常任务,这是推动人形机器人发展的最主要动力。
当然,人类是否有更深层的“自我复制”或“精神延续”的诉求,我认为是存在的。这就像人们为什么要生育孩子,不仅是基因的延续,也是记忆、思想与情感的延续。同样的,人形机器人也可能成为这些精神内容的一个承载体。人类天性中就有“留下什么”的愿望,而人形机器人或许正提供了一种比互联网更具象、更情感化的载体。这是我的一些理解。
02 应用落地的挑战:从展览样机到家用助手
李治军:啸总,您认为如何打破当前这种“只能展示,难以应用”的困境?在工厂和家庭中,如何推动人形机器人实现更广泛应用?应该以什么节奏进行推进?
王啸:目前在工厂中大量使用的机器人,虽然并非人形,但已相当普遍,例如机械臂、流水线自动化设备等。在商业闭环场景中,如酒店、餐厅、清洁等领域,服务型机器人也已被广泛应用。如果将“机器人”概念适度泛化,我们可以说它们已经在生产生活中实现了一定的渗透。
但从现在到未来,要实现“具备人类思考与操作能力”的人形机器人,仍有较长的路要走。核心挑战并不完全在硬件上,而是“智能性”。能像人类一样理解任务、完成复杂动作才算是“机器人”。目前虽然走路技术已大幅突破,但思考、操作仍未完全实现。
这也是为何现在人形机器人的出货量极低。因为它们还不能完成真正有价值的任务,更多停留在“演示品”阶段。一旦其智能能力实现突破,我认为出货量会大幅提升。
当前的大语言模型可用于理解指令、传递知识,但不能直接解决机器人在物理世界中的操作问题。我们需要的是一个端到端的系统,将语言理解与动作执行结合起来。这才是机器人真正的“突破点”。
这要求团队同时具备硬件、大模型、数据与系统工程能力——这正是目前机器人研发最难的部分。一旦在这个关键节点实现突破,机器人产业将迎来爆发。本体制造可以由众多公司完成,真正的核心在于“智能系统的通用性”,就如同安卓系统之于手机。
王潜:我也认为,尽管波士顿动力、ASIMO等公司在“走路”这一方向研究了很多年,取得了很大进展,但在“手部操作”与“思考”层面,仍存在很多不足。过去常见的fancy的机器人操作演示(demo)大多基于预设轨迹。比如可以重复地写毛笔字,每一笔都一模一样,看起来很精美,比人类写得更好,但其实每一笔都是在不停重复预设好的轨迹,并不是机器人自主完成的。
甚至一些机器人能完成更精细的操作,也比人类实现得更好。典型的有手术机器人可以剥开玉米粒的表皮再进行缝合,这一操作已经超过绝大多数人手的能力,但其实也依赖于背后的人手遥控,脱离了遥控、预先编程轨迹,以及简单的AI能力赋予,机器人便什么都做不了。
事实上,直到2018至2020年之间,机器人才真正意义上第一次在“自主抓取”任务上实现了相对完整的突破。之前市场做了几十年机器人硬件,比人手的执行能力要强很多,但唯独机器人不能自主操作。
总结来说,机器人“走路”更偏向硬件问题,而“操作”和“思考”则更多是AI问题,如今大模型带来了全新方法论,能够突破长久以来(机器人无法自主操作)的问题。但也的确无法直接应用语言模型。语言模型可以解决规划、推理、长序列认知,但并不能直接与物理世界交互,因此仍需直接能控制机器人、实现物理交互的模型系统,无论是端到端模型,还是其他实现形式。
当然,机器人还具有情绪价值、展示价值。但若要具备“实用性”,核心仍在于自主操作能力和与思考能力,以及二者结合。
李治军:我们知道产业目标是走向C端,资本在其中的信心和布局策略是怎样的?请啸总从投融资和资本的角度谈谈。如果让您掌握一个大型资本盘,甚至涉及国家层面的布局,您会怎么考虑?
王啸:从整体来看,人形机器人产业链相当长,涵盖了芯片、关节、控制系统,以及像X Square这样的“大脑”模块,还需要不同场景的深度配合。资本只有在形成共识、并集中投入一个方向时,产业才有机会快速成熟。从目前来看,大家对人形机器人具备通用能力的想象空间,是建立共识的基础。
随着大模型的发展,机器人逐渐具备思考能力和操作能力,通用性显著增强。这是当前热度升高的重要原因。同时,硬件层面,如双足步行与灵巧操作手的逐步成熟,也提供了基础。
中国在工业基础、工程师资源方面具备优势,我认为中国有潜力成为机器人产业的主要出货国。长期来看,这会成为继手机、汽车之后,与人关系最紧密的第三大硬件品类。现在资本已经在相关领域进行了大量布局,下一步更需要的是“耐心”。因为产业链成熟需要多个关键节点共同突破,这不是任何一家公司能独立完成的任务,而是多个主体在多个方向上的协同努力。
商业化真正落地,还需3至5年时间,才能形成性价比高、消费者可接受、功能实用的产品形态。因此,社会和资本都应给予行业足够的耐心。
李治军:感谢分享。潜总也在具身智能方面深耕多年,对上下游供应链和用户对成本的接受度都非常了解。请您谈谈,要实现真正的产业化,是价格便宜才能推进,还是需要这个产业具备一定的议价空间?目前产业链中还缺少哪些关键环节?
王潜:价格是一个极度关键的问题,它涉及产品的投入产出比及PMF(产品与市场匹配)点,而PMF点的设计是商业化中最重要的环节。
人们对于一件物品的期待与其价格有非常强的关联性,例如,消费者购买一台几百元、几千元的扫地机器人,并不期望其执行复杂任务,只需把地扫干净即可。这就是一个清晰的PMF点。但如果我们希望机器人能完成所有人类能做的事情,甚至超越人类的某些能力,那么愿意为其支付更高的价格。问题在于,我们是否能在两者之间找到一个合适的商业化落点,让产品既具备实用性满足大家需求,又能被大规模接受。这是产业化的重要课题。
当一个东西的出货量达到1000台时,成本有一次快速下降;当达到100万台时,成本在几十万到100万的出货区间内会再次下降,核心在于企业要度过早期商业化相对比较艰难的阶段。
另一个制约因素是产业成熟度。例如,灵巧手尽管已经做了很多年,但目前仍处于行业早期,目前市场上自由度高、可靠性强的灵巧手价格仍偏高,这也是收到产量和前期研发投入等的制约。但从长期看,其成本一定会降到一个合理区间。
此外,目前行业在关键技术上尚未达成共识,例如灵巧手的技术路线、如触觉反馈等还没有收敛,关键子系统仍处在技术探索阶段,因此更需要时间和耐心。
未来随着产业自然成熟的发展、AI能力的持续提升,我们有望找到符合市场需求的PMF点,从而实现出货量的提升和成本的大幅下降。我个人认为,未来一个可替代人类完成家务的机器人,其价格应该可以降到一万美元以下,才算是合理的商业化区间。
李治军:感谢二位的分享。从成本与供应链的角度,我也补充一点。我们刚刚在上海成立了一家以软件为核心的新公司,目前遇到的一个现实问题是,在国内软件很难卖上价。但在人形机器人中,软件是智能的核心,是整个系统凝聚智慧的部分。希望社会能更重视软件价值的体现,这对于行业发展至关重要。
03 智能核心与硬件支持:技术路径的多元探索
李治军:当前有两种不同的技术路径,有人倾向将所有功能通过大模型端到端实现;有人更支持系统工程化,通过多个小模型或传统算法组合实现复杂功能。潜总您怎么看?
王潜:目前技术路线存在实质的分歧。一类路径是构建多个专家模型,形成功能集或“技能库”;另一类则是自变量正在做的——在一个统一的模型中实现所有功能,即通用模型,通才模型。我认为专家模型更适用于垂类任务;但如果要实现通用能力,需要通过一个完全统一模型。这正是当前推进大语言模型和多模态模型的根本原因。
专家模型的能力存在天花板,而统一模型具备更高的潜力突破现有边界。当然选择哪种路径也取决于最终应用方向。过去几十年,大量的系统工程策略确实取得了一些成果,但与人们的期望仍存在巨大差距。因此,我认为应把更多精力投向通用模型方向——这是更有可能突破技术上限的方向。
李治军:这确实是两条不同的路径,但最终能否真正走入千家万户,可能涉及更深层次的认知问题。虽然许多常识性理解已经形成,但仍然需要系统性的工程支持。我们的团队,在手机操作系统等领域积累了较多经验。以手机为例,即便将一个大模型完整地塞入手机,也并不能完全满足所有智能化需求。要完全实现一个全能的智能手机助手,依然困难重重,这背后需要大量的技术支撑。
如果关注iOS 18的发布会就能看到,Siri的升级不仅是一次重大突破,系统还引入了知识存储、记忆功能以及一系列原子化能力。然而,即便如此,依然有很多工作要做。我个人认为,最终的形态很可能是由大模型驱动,甚至是大小模型结合的混合系统。至于具体形式如何,我们仍需探索。
啸总作为投资人,应该接触过许多核心技术路线。您认为,这一方向是已经明确,还是仍需继续摸索,才能找到最终可行的路径?
王啸:本质上,我们希望机器人具备泛化能力,能够处理各种不常见的问题。如果依靠系统化的方式进行列举和枚举,一旦涉及的情况变多,规则之间就会产生相互干涉,导致难以运作。虽然在有限的情境下可以实现部分功能,但系统规模扩大时就会难以维持。因此,我认为这种技术路线短期或许可以尝试,但长期来看并不可行,不会成为最终方案。
我倾向于采用大模型进行端到端解决方案。因为只要人为介入设计,就可能存在漏洞,任何额外的算法调整都可能带来新的问题。
统一模型的技术难点在于模型的构建、数据处理和算法优化,同时还要考虑与现实场景的适配。这些挑战极为严峻,但也正因如此,只有选择这条困难但正确的道路,才有可能实现真正的突破。相较之下,试图采用简单方案的尝试基本上是行不通的。如果可行,早就有人实现了。
目前,大模型确实提供了一种可能的解决方案,但并不意味着它已经能够完全胜任。当准确率提升至99%甚至更高时,才会迎来真正的突破。毕竟人类自身也会犯错,机器偶尔打碎一个杯子也是可以接受的。因此,突破的方向已经明确,但关键在于数据规模、算法优化以及时间节点,仍处于探索阶段。
我觉得现在还在探索期,在不远的未来,我们会见证让人惊艳的技术突破。然而从突破到实际应用,仍然需要较长时间。就像当年GPT刚问世时,人们惊叹于其能力,但要实现全面普及,依然需要数年时间。
李治军:感谢啸总的分享。无论如何,大模型已经对各行各业带来深远影响,尤其在机器人领域,人形机器人话题也随之推上了新高度。大模型的涌现能力确实令人惊叹,但最终技术路线如何发展,仍有待观察。很可能是大小模型结合的混合系统,不同企业可能会采用不同设计,最终哪种方案能胜出,还需时间检验。
刚才啸总提到数据问题,无论如何,人工智能的发展离不开数据支撑。即使采用小模型,也必须有足够的数据积累。而理想状态下,端到端的解决方案能够做到“见到什么,就知道该怎么做”,这无疑是最优选择。但即便无法实现完全端到端,至少应该通过语义理解构建合理的流程。因此,数据问题无可回避。
谈到数据,我也想请潜总分享一下,在产业化过程中,你们的数据训练来源于哪里?在不涉及商业机密的前提下,能否分享一些关键挑战及应对方案?
王潜:数据问题长期以来一直是机器人研究,特别是手部操作任务即manipulation中的最核心的难点。
例如我自己,从大约2015、2016年开始从事机器人研究。当时所能使用的数据集可能只有几百条、几千条,能达到上万条已经是非常了不起的成就。而同期从事视觉或语言研究的领域,其数据量通常在百万甚至千万级别。因此,机器人领域中数据的获取成本和总量一直极大地限制了研究进展和可行性。
直到2018年前后,研究者仍在尝试从真实世界中获取数据。后来大家逐渐意识到,强化学习有一些糟糕的特性,随着任务难度的提升,由于Data Space空间的大小会呈指数级增长,从而导致对数据量的需求也呈指数级上升。
于是,当时大家开始重视仿真数据、合成数据和模拟器中的数据。然而,这一思路在手部操作遇到了严重障碍。尽管在其他任务中,仿真效果已经非常好,比如依靠仿真数据,可以实现机器人直立行走、回旋踢、跳跃、跳舞、空翻等动作,自动驾驶中也大量依赖仿真数据来提供真实世界难以实现的任务,但唯独在手部操作方面仿真数据仍然面临极大挑战。
技术细节在此不做展开,核心问题在于手部操作涉及极其复杂的物理交互,导致Sim-to-Real gap极高。因此,我同意刚才的观点,模拟器数据可以作为部分补充,但更多还是需要依赖真实场景的数据。
学术界也经历了一个类似的过程。从2018年前后开始的几年中,大家都希望实现所谓的“Sim-to-Real”,即模拟到真实世界的迁移。但后来逐渐认识到,这条路径存在本质问题,与其他AI领域不同,这是独属于具身智能或manipulation的特殊难题。因此,虽然可以借助互联网数据、模拟数据等“取巧”的方式,但最终还是绕不开从真实世界中采集数据。当然其中仍有很多tricky(棘手的)问题,但目前较为明确的结论是:具身智能的数据仍需依赖真实场景的积累。
李治军:在这样的背景下,我想请教两位,现在已有一些公司在做机器人数据的资产化运营,甚至开始将数据作为核心资产来专门管理和运营。两位如何看待这种趋势?是应该走数据开源的路线,还是商业化运营,亦或是转向生成式数据?
王啸:我认为目前问题的本质并不在数据本身,而在于机器人是否真正实现了可操作和实用性,数据只是支撑这一目标的关键。由于这类数据获取难度大、成本高,因此与互联网数据不同,不能简单通过清洗后直接开源。
互联网数据本身就是由他人生成的,而我们这些数据通常是由企业自主采集和构建的。若投入了数亿元构建一套数据集,不太可能选择开源,这在逻辑上也说不通。与大模型依赖的互联网数据不同,后者只是基于抓取和分类的再处理。在这种情形下,数据集开源的逻辑尚不成立。
此外,目前的一些模型虽然已开源,是为了降低使用成本,但我认为机器人相关模型尚未发展到这一阶段。现在仍处于技术突破过程中,距离讨论数据开源的问题还较远。
李治军:那您是否主张不应开源数据,而应作为公司资产进行商业化运营,特别是在机器人数据方面?
王啸:是的,我认为这个问题应优先解决的是“能否跑通”这个技术路线。当前即使开源,也可能无人使用,因为技术尚未验证是否可行,即使数据开放,大家也未必会使用,因为无法确认其质量和有效性。当前阶段还处于“问题能否解决”的探索中,尚未涉及是否开源的问题。
李治军:我们也做了大量数据采集工作。例如脚部操作的研究也在进行,同时我们也训练了一些模仿学习模型。尽管取得了一些进展,模型在特定场景下表现尚可,并具备一定泛化能力,但泛化本身仍非常困难。当模型被用于新场景时,可能还需额外训练,这一过程依然具有挑战性。标准的变化也会带来问题,如何适应新的标准仍待解决。
王啸:是否因为数据集仍不够大?
李治军:是的,但问题是怎么收集大规模的数据集。从高校或我们自身的经验来看,收集大量数据需要大量资金,而收集量不足又无法覆盖所有情况,泛化结果也不可预期,这可能是我们目前面临的核心难题。因此,持续的增量更新是必须的,这是系统的必然需求。
我认为“训练–推理一体化”可能是未来发展的路径。即通过训练模型完成初步任务部署,在现实场景中达到90%的效果后,剩下的10%通过现场反馈进行修正,从而提升系统整体性能。
如果能建立一套在线收集、分析、反馈与再训练的系统,将有望突破当前的技术瓶颈。在线系统可收集关键失败样本,并通过操作系统或其他方式生成监督信号,从而指导模型进行局部更新,而非完全重训,形成一个迭代优化的闭环过程。因此,我个人认为“自我成长”才是未来机器人系统的应有形态。这一过程需要数据、推理与训练三者的闭环协同。
李治军:目前大家不断在提出新的模型架构,例如最近较为热门的Figure的Helix。潜总从事端到端任务的研究,对π0架构应该也相当熟悉。请您从技术角度谈谈它的优缺点。
王潜:自变量的模型架构与π0整体方向相似,均为端到端、完全统一模型。虽然过去较长一段时间内,端到端路线并不被认可。但由于机器人手部操作有其特殊性,许多操作任务如果不采用端到端模式,根本无法完成。只要操作难度超出简单抓取的范畴,传统分层模型就很难胜任。目前“完全端到端、一体化、通用模型”是具身智能的一个大的发展方向。自变量研究团队也正走在这条路上。
同时,自变量的模型也与π0存在一些区别,比如在high-level的思考、规划、推理方面,PI通常采用另外的独立模型实现。由于π0的架构本身较少涉及以上几个方面,虽然有现成的VRM模型作为基础的backbone,但在进行动作的训练之后,其语言与视觉能力会有所退化,因此需要额外的模型承担高层架构。自变量的模型则包含了完整的能力体系:思考、推理、以及low-level的动作控制等全部集成。
我们的做法在本质上更优,因为随着任务复杂度提升,非端到端模型都会面临一个根本性问题——模块之间如何结合。一旦前序处理中出现错误,后续环节将受到严重影响。例如,如果重建一个三维物体,再在此基础上寻找抓取点、生成动作轨迹,然后执行抓取动作,这一过程看似符合人类直觉,但如果在重建过程中出现小毛刺,在操作任务中就可能对整个后续动作造成不可逆的、致命的影响。因此是机器人操作这一问题的本质驱使自变量选择端到端大模型的路径,
在较早期阶段,技术上并不成熟,和目前相距甚远,当时人们认为端到端是黑盒,完全不可解释,无法落地时,我们就确定了端到端的技术路线,如今这一技术已经逐步发展至相对成熟的水平。回到刚才提到的问题,无论是使用仿真还是是否采用端到端方法,实际上都源于操作任务本身的特点。我们认为尽可能减少人为干预是一个长期趋势,其实人类自身也难以明确解释自己的认知过程。
这正是一个典型例子:长期以来,人们普遍认为应先重建物体。但实际上,人类的行为模式并非如此。几十年来,三维重建的做法也始终未能有效解决问题。如今大模型方法的兴起,正是方法论上的一次重大创新。
无论是π0 模型还是自变量的模型,我认为都走在正确的道路上。即使未来出现新的技术突破,也仍会在当前(端到端的)框架之下,不太可能回归过去的分层架构,或回到“专家模型”(一个或几个任务做一个模型)的旧范式,。如今的方法论已发生本质变化。
自变量目前训练的自研模型WALL-A是目前世界上最大参数规模的具身VLA模型,在任务难度、高级别的语义泛化、动作泛化、模态对齐等方面的表现实质上超越π0。
李治军:目前机器人尚无专属算力平台,至少我们未看到主流应用。我了解到目前国内机器人仍主要依赖英伟达。想请啸总谈谈,从算力角度来看,是否有必要开发专门针对机器人的硬件?这一方向是否具有投资价值,在产业上是否具有重要意义?
王啸:从本质上来说,机器人的核心仍然是计算,并且需要支持人工智能的运作。因此,GPU是主导计算结构,做GPU的公司也可以为机器人的“大脑”提供芯片,包括CPU。专门针对机器人算力的硬件当然会有一些,但整体来说,依然与现有的大厂密切相关。例如,英特尔最早专注于PC,随后进入移动互联网领域,再到人工智能时代的GPU领域,我认为这些都是逐步延伸的结果。
因此,过去的CPU和GPU厂商依然是机器人的计算能力核心供应商,但也会有一些新的小型厂商进入这一领域并进行专属开发。虽然我们已经开始布局并投资于机器人领域的芯片,但整体来说,发展仍在初期阶段。
李治军:从产业化的角度来看,我们大概使用的是哪些硬件?贵公司有没有涉及硬件,特别是算力方面的项目?
王潜:从我们目前的角度来看,车载芯片非常好地满足了机器人端侧推理的算力需求,尽管这些芯片最初是为自动驾驶设计的,但自动驾驶在算力方面与具身智能的需求有部分重叠。
自然,其间也有一些差异。与自动驾驶芯片相比,机器人芯片在物理层面上要求不那么严格。例如,机器人所需芯片不需要像自动驾驶芯片那样承受极端的高温或低温,因此成本相对较低。但从计算角度来看,现有的GPU和端侧推理芯片已经能够很好地满足具身智能的需求。
随着具身智能算力需求不断提升,显存的需求逐步增加,对芯片的要求基本上和现有自动驾驶的端侧芯片发展处于同一路线上,未来,自动驾驶模型可能不需要像人形机器人那样庞大的算力,但随着机器人算力需求的增加,具身智能将需要更强大的芯片来支持。
04 人形机器人的未来:AGI时代下的差异化竞争
李治军:希望两位可以简要谈一谈DeepSeek对我们的影响,特别是潜总。DeepSeek推出后,我们都在做大模型。您怎么看待这个变化?是采取拥抱的态度,还是有其他策略?
王潜:我直言不讳地说,DeepSeek与我们没有太大关系。虽然都是做大模型,但DeepSeek主要关注的是语言模型和推理模型,而自变量专注于具身智能模型。两者在问题性质上的差异很大。许多人可能会认为,既然都是大模型,可能会非常相似,但其实各个领域的特性会导致技术路线及具体选择产生极大区别。举个例子,自动驾驶与机器人在很多方面并不相同。机器人操作所面临的问题几乎都是自动驾驶不会遇到的;而自动驾驶面临的安全性等,是具身智能领域不会遇到的,所以两者的技术路线也完全不同,几乎没有复用的可能性。
我们和DeepSeek相比也类似,如DeepSeek-R1更多地关注长程推理和长思维链,自变量也会做思维链,但更多是多模态的思维链,比如预测某个动作的状态,或者动作质量的高低等,且不需要特别长的思维。DeepSeek的长思维链和强化学习更多适配它的领域,但对自变量来说,这些并没有直接的技术影响。当然,DeepSeek也在推进多模态模型,这对于我们来说是一个参考,包括其中一些强化学习算法,但总体来说,DeepSeek所做的与具身智能分属AI的两个大方向。
然而,我们仍然要感谢DeepSeek,它在大环境中产生了深远的影响。之前很多人不相信中国能够推出世界一流的模型和AI,甚至认为原创性工作更多来源于出现在美国。DeepSeek极大程度上地改变了人们的这一成见,尤其是在海外,大家开始意识到中国在AI领域的强大实力。它不仅改变了人们对中国的看法,也推动了全社会对这一问题的认知。因此,对于我们这类从0到1进行前沿探索的中国公司来说,DeepSeek无疑提供了良好示范。
从大环境层面来说,所有人都应感谢DeepSeek,尤其是那些在中国致力于创造伟大事业的人。至于具体的技术层面,虽然DeepSeek与具身智能并不完全契合,但它的成果也为我们提供了有价值的参考。
李治军:啸总怎么看DeepSeek对机器人领域的影响?它是否会对机器人产业产生爆发性影响?或者说,影响有限?
王啸:其实,DeepSeek首先做了一件事,就是证明中国能够创造出与美国不相上下,甚至更优的模型。两三年前,我就曾说过,中国的模型不会比美国差,凭借中国工程师的数学能力和勤奋程度,我们的模型完全可以做到不逊色于美国。然而,彼时很少有人相信,大家普遍认为我们只会做一些基础模型,不会有大的突破。
DeepSeek证明了这一点,并且也让我们更加自信。简单来说,DeepSeek像是开源的安卓系统,降低了应用开发的成本和门槛。开发者不再需要依赖收费API,而是可以直接使用开源模型,这使得应用开发变得更加低成本和灵活。如果X Square能够成功推出机器人领域的相关大模型,整个行业有可能会迎来一次爆发,就像应用层的爆发一样。通过降低成本,机器人行业的应用层将迎来真正的拐点。
李治军:总的来说,尽管技术层面存在差异,DeepSeek对中国人工智能行业的发展无疑具有重要价值。我们团队也正在与DeepSeek进行合作,特别是在机器人领域,操作系统层面已经与DeepSeek进行了深度对接。实际上,在实际执行场景中,机器人经常会遇到各种错误,比如任务执行失败、物品掉落等。
这时,我们通过语义标识将现场情况传输给DeepSeek,然后进行问题分析。再通过DeepSeek通过深度搜索技术,帮助我们分析并找出问题的根源。例如,当机器人没有正确完成某个任务时,可能是因为姿势不对,通过调整姿势后,效果会得到改善。
总的来说,DeepSeek在训练、推理和部署时具有低成本、低内存消耗的优势,其完整的思维链条也提供了很大价值。更重要的是,它使得AI技术在中国得以平民化,为许多在这一基础上开展工作的企业提供了巨大的机会。
最后我们简单谈谈伦理问题。实际上很多人、尤其是普通民众往往会认为未来机器人将无处不在,同时也会产生担忧:机器人是否会失控?未来人类是否会失业?机器人是否会变得反人类?潜总在产业化方面有多年的经验,是否也遇到过类似的声音?
王潜:关于伦理问题,也有人提出机器人是否会毁灭人类,但我个人持相对技术乐观的态度,机器人技术在某种意义上仍然可以被人类控制。尽管具身智能可能增加了额外一重风险,即机器人是否会在物理世界中对人类造成伤害。但相较于大模型可能带来的风险,具身智能的风险仍然较为可控。
当然,我认为不能因噎废食。如果某种事情注定会发生,那它就会发生。我们能做的,是在这个过程中积极作为。只有当我们真正掌握这项技术,才能意识到其潜在的危害,并有主动权去遏制这些风险。这是我想强调的。
如果总是担心风险、因此选择不做,风险反而可能在不可控的地方悄然出现。只有正视并直面风险,始终将其置于可视范围之内,才可能实现有效控制。因此,讳疾忌医或逃避并非正确路径。我们应当共同努力,通过如开源、监管等方式来推动这一进程,这才是合理做法。
我们目前所处的时间节点与OpenAI在2019年初的阶段非常相似。无论是从当前所见到的技术进展、从过去到现在到未来的发展轨迹,还是正在推进的工作场景,以及自变量对具身智能的整体认知,都呈现出高度相似性。回顾2019年,当时也有很多人质疑OpenAI的路线是否正确,或者对这家公司本身提出各种看法,例如认为它规模过小或过大、过于专注于某个方向,或者显得过于固执等。但时间最终回应了这些质疑。
当然,时间无法倒流,我们也不可能回到2019年去加入他们。现在仍有机会去推动一些同样伟大,甚至可能更为重要的事业——在现实世界、在每个人的日常生活中,让AI和通用机器人实际上真正服务于人类。这也是自变量的使命和口号——“解放人类的双手”。这正是当前社会所面临的重要议题之一。
李治军:今天我们讨论的主题是人形机器人,大家已经形成了一个共识,即人形机器人极有可能成为下一个现象级产品。我坚信,这是一个意义重大、具有历史性的时刻。人形机器人将会走入千家万户,进入各类应用场景,替代人类从事繁重的劳动,这具有非常重要的社会价值。
当然,这其中也存在许多挑战,从机器人本体、操作系统,到具身智能与具体应用场景,涉及众多复杂问题,甚至是一些核心的科学问题。据我了解,很多高校已经将“具身智能”作为重点研究方向,设立了专门的学院与研究院。这是一个典型的由“卡脖子”技术驱动的创新过程。
同时,这一领域也具备明确的产业化路径。仅仅停留在理论研究或想法阶段是远远不够的。机器人作为实实在在的实体,唯有通过真正落地、规模化应用,才能真正改变世界。因此,这是一个技术创新与产业落地紧密结合的过程。
我认为,这需要整个行业乃至全社会的共同推动和支持。无论是学生、科研机构、产业界还是投资方,上下游各环节以及实际应用场景都应给予人形机器人更多的关注与宽容。