具身智能的“ChatGPT时刻”将分场景涌现 真正落地需要5-10年

圆桌对话:具身智能,通往AGI之路?|未来人工智能先锋论坛
3月29日,2025 中关村论坛的圆桌讨论中, 上海交通大学教授卢策吾、清华大学教授陈建宇、银河通用机器人CEO王鹤、乐聚机器人创始人冷晓琨、智源研究院副院长王仲远围绕“具身智能是否是通往AGI的必由之路”的话题,从技术路径、数据需求、泛化挑战、商业化前景展开讨论。
在这场论坛中,他们重点讨论了以下问题:
1、为什么具身智能是通往AGI的必由之路?
● 卢策吾认为,实体世界包含的模态远超语言与图像,具身智能可直接接触实体世界,获取更全面的信息。
● 冷晓琨则认为,具身智能可以进行开放式的探索和交互,持续获取新的信息来源,适应复杂环境,符合通用智能的发展方向。
● 王鹤从多模态主动探索带来的学习效率提升角度看,具身智能像婴儿一样通过多模态(触觉、视觉、行为等)主动探索世界,是高效学习的关键,远超当前以语言为主的大模型训练方式。
2、具身智能如何实现泛化?在实现泛化的道路上,如何解决具身智能领域数据瓶颈问题?
● 卢策吾表示,不同模态数据都有价值,应关注信息量与噪声的平衡,综合利用互联网、仿真与真机数据,找到合理配比和高效采集方式是关键。
● 王鹤与卢策吾表达了一致的观点,他认为真实数据与仿真数据各有优劣,应以大量仿真数据进行预训练,真实数据用于精调。
● 冷晓琨认为,数据模态不全限制模型能力,尤其在现场应用中,缺乏高质量触觉等数据,且现有模型能力尚不确定,采集策略需谨慎。
● 王仲远表示,当前具身智能主要模态仍集中在视觉和文本,触觉、力反馈、温度、空间与时间感知等模态尚未被有效利用。
3、如何在家庭或工业场景中大规模验证机器人稳健性?
● 陈建宇建议,建立分层次、系统化的质量测试体系,构建场景测试库,涵盖仿真测试与实机测试,设定明确的性能指标,通过大量场景覆盖来保障系统鲁棒性。
● 冷晓琨认为需要通过在实际使用中不断“用起来”,逐步暴露并解决硬件和智能系统问题,是推动机器人产业化的有效路径。
此外,针对具身智能的“ChatGPT时刻”何时到来,现场嘉宾认为,具身智能的“ChatGPT时刻”不会像语言模型那样瞬时爆发,更可能以场景为单位逐步突破,软硬件协同演进,在1到2年内实现垂直场景落地,5到10年间逐步渗透日常生活。
以下为现场对话实录,经腾讯科技编辑整理:
1、为什么说具身智能是通往AGI的必由之路,具身智能的优势是什么?
上海交通大学教授卢策吾
卢策吾:我觉得有两点:第一相对来说,这种静态的,首先是模态完备,因为是一个实体世界的,包括图片、语言只是一个实体世界的投影,所以自己触及到实体,信息会更加全面;第二可以动态探索,是一个开放可以探索的过程和交互的过程,所以会得到更多的信息源和信息更新。从这个角度来讲,它是通用人工智能的终极形式,或者是通往终极智能的必由之路。
清华大学教授陈建宇
陈建宇:我觉得这个问题可以从我们人类自身获得这样一个答案,因为我们每个人都是一个活生生的AGI,但是我们人类绝对不是仅仅活在抽象的语言世界和虚拟的图像世界中。我们是在意我们非常丰富的感官,除了语言和视觉,还有我们的触觉,还有我们自身各种各样的体感,以非常全的模态形式在现实的物理世界里面交互。同时,由于在每时每刻不断地经过这样一个感知、认知、决策、控制、环境反馈这样一个闭环,在这个闭环中我们去迭代我们的认知,迭代我们的行为决策效率和成功度,同时增强主观能动性。所以说我觉得刚才所说到的更全的模态感知,并且感知行为和决策与环境交互的闭环是通向AGI非常重要的一环。
银河通用机器人CEO王鹤
王鹤:我从数据和学习的效率两个角度来谈,我觉得目前大模型走向通用智能的过程中,数据的来源主要是互联网上的文字和图片的数据。实际上我们会看到,哪怕是一个婴儿,他在成长的过程中,比如成长到9岁的过程中,他的整个视觉输入时间的长度,包括他能够趴在地上爬的时候看到的一些角落,这些数据其实在互联网上并不是充分的。同时,从模态上讲,当婴儿去触摸一个东西的时候,试图碰触它,来看这样一个交互行为的时候,他以非常多的模态在共同理解着这个世界,而不仅仅简单是有人用语言告诉他这是什么,或者用视觉告诉他长什么样子。所以我们能看到,人类的婴儿到达一定年龄以后,他的学习能力就已经达到了现在大模型所谓的举一反三。等到八九岁以后,他的运动能力,这种学习的效率也远超我们现在能看到的,包括VLA的一些大模型,这就是我们讲的多模态的探索,主动式的探索和交互式的理解,能够让一个智能体迅速地成熟,这个是我看到的具身对AGI的重要贡献。
乐聚机器人创始人冷晓琨
冷晓琨:其实我觉得具身智能这次出现的一个核心就是让智能体或者大模型具备了和物理世界开始真实交互的能力,在我们控制里面,强化学习的成功,其实本质上也是因为它可以和环境进行交互,因为我们现实环节当中的细节性太多了。比如假设今天的玻璃起雾了,甚至是热胀冷缩,这一系列的细节信息,只有当AI智能体具备了探索和学习真实世界能力的时候,它才能够逐渐地把现实世界的细节学习到,才会不断地提高AI的能力,逐渐达到人甚至是超过人。
乐聚主要是做人形机器人的,在具身智能出现之前,谁也讲不圆满人形机器人的商业逻辑。只有当具身智能大模型这次出现之后,它需要一个介入物理世界的载体,并且因为这是一个通用的概念,需要介入的场景方方面面。这个时候,其实从学术或者应用角度来说,人形机器人在当前阶段是适配智能体一个特别理想的载体。所以我认为,具身智能的出现和人形机器人,或者说和多种机器人的适配会逐渐地推动智能性不断地提升,不断地达到一个通用的路线。
智源研究院副院长王仲远
王仲远:其实非常有意思,去年在智源大会上我们也问过很多专家学者关于什么是AGI,包括过去这一年我也跟很多学者、企业创始人交流,发现大家对于AGI其实都没有共识,没有一个明确的定义。如果仅从文字层面来看,现在的大语言模型已经可以非常逼近人类的理解、推理能力,它可以看作是某种程度上文字层面的AGI已经到来。但是这个世界不仅仅有文字,实际上包含了大量我们讲的多模态信息,比如图像、声音、视频、时间、空间等等。这些模态实际上是我们人真正在日常生活中都已经习以为常的,但是对于大模型,对于人工智能来讲依然处在非常早期。所以如果从多模态的AGI来讲,现在还远没有实现。如果从具身智能能够跟环境交互感知的AGI,更是处在非常的早期,甚至处于婴儿期。
2、什么样模态的数据对具身智能的发展最为重要?收集这些多模态数据中的瓶颈在哪里?
王仲远:其实这个世界确实存在着非常多的模态,就我们目前所看到的在具身智能方面,大部分依然还主要在使用的是视觉、文本等等一些模态,因此我们也会经常听到VLA模型或者VLM模型,但是实际上很多模态信息被忽略,比如触觉、力反馈、温度感知,以及对于空间、时间的感知等等,这些模态信息显然还没有被有效地利用。我们也认为,这些都是未来具身智能需要逐步去突破和解决的。
冷晓琨:因为最近我们在上海的训练场,包括我们自己开始建的训练场也都遇到了这个问题,也在讨论,到底要做具身智能,人形机器人,在现场场景中需要采集的数据有哪些。甚至我们讨论到一个最深层次的问题,就是现有的这些模型假设我们把采集的数据标准能够涵盖大部分的模型,是不是现有的模型已经有足够的能力来完成现有的任务挑战?因为现在大家的模型还都没有实战到实际场景当中去应用,会不会以后再出现一个更好的模型?我们现在采集的数据模态数量不够。刚刚仲远院长说到的,包括视觉信息、图像信息、触觉信息。其实现在大部分硬件采集的时候触觉信息都很少,因为大部分还是在味控或者是顶多加到力控,触觉都很少,甚至很多时候,都把五指灵巧手当两指夹爪在用的时候。这些模型没有完全确定的时候,其实会对数据的采集产生很大的挑战,很担心投入精力之后最终采集的数据被废了,我担心现在是这个问题。
王鹤:我觉得具身的数据其实是现在具身智能发展的一大瓶颈。其实这也是学术界这一两年激烈讨论的,基本上可以分为真实数据和仿真合成数据两个大的类别。真实数据里面又分为无动作标签的,比如说互联网上的一些视频,人干活的这些数据和真实世界真的我们用遥操装置去遥控机器人采集的数据。应该说,前者真实世界的视频数据在Youtube上,在我们中国的视频网站上是大量存在的,但是很多学者对它的观点,包括最近的一些工作,虽然它很有用,但是不足够。
今天其实有一个采访的内容,也提到了对视频数据的看法。我经常举的一个例子,跟他也刚好碰巧一样,你看别人游泳真的学得会吗?其实这些运动能力,除非你的预训练模型已经做出来了,你看别人只是一个模仿他的步骤。否则的话,如果你基本的运动机能不存在,你看别人用这些运动机能,你又怎么能学会?
除了视频以外,就是真实世界采集,特斯拉做得很多,国内也在建各种遥操站。我的看法,真机遥操数据会很宝贵也有价值的数据,但是它的获得成本目前看是很高的。银河通用的一个核心观点,就是我们要用大量的合成数据去做预训练,用真机数据做后训练。今天我们对各种模态,不管是视觉2D还是三维的这种深度的,还是力觉、触觉,包括柔性物体、关节类物体,各种仿真都在不断推进,国际范围内,英伟达也非常认同这种用仿真数据来合成仿真驱动具身智能的发展。
所以我个人的看法,就是在我们的人形机器人的存量还不像自驾车一样百万台级别的时候,合成数据是我们现阶段最宝贵的数据资产,我们用它作为99%,甚至99.9%来推动具身智能的发展,用真实数据走完最后一公里,这是现阶段最可行的一种方法。
陈建宇:我觉得确实在这个模态的数据里面,唯一最重要的是视觉,如果打个分,我觉得视觉占80%以上的重要性,视觉包含的信息最多,而且它也非常容易获取,各种互联网上或者咱们仿真当中生成都比较容易获取。台下我觉得最重要的是一个触觉,如果做灵巧操作的,我觉得可能会很有感知。或者是大家如果体验过不带逆反馈的遥操作的话,一定有比较深刻的感知,因为真的是非常麻烦,且难以操作的,所以触觉对我们人类做比较灵巧的操作是很重要的。
接下来还有一个很重要的,我想提一下声音,现在特别是具身模型,基本上还是纯文本的形式。可以通过声音做语音识别,转成文本,基本上是这样一个方式,但是并不是直接的声音作为输入。这样会造成一个问题,会造成现在大部分的AI都是一问一答的形式,缺乏实时的反馈决策。同时,声音除了转成文本,其他在物理世界当中很多声音也对操作有帮助,比如倒水的时候听流水声,可能会帮助你判断怎么样进行更好的操作。
卢策吾:这个当然是更多数据的方法论和路线,讨论和争论很多。我觉得这个阶段其实也不用太去争论,因为我觉得每种数据都有它的价值,提供它的信息量,其实就是怎么样用好这个比例,这个不是我们在这里讨论谁更重要,而是实践中,我相信随着实践的发展,像配方一样会收敛到一个比较合适的比例。从角度来讲,我们其实要看的是数据背后的信息量都有它的价值,都有它的噪声,怎么去克服?以及困难,我们现在可以分成几种:一是互联网数据,它的优势很明显,量广大,问题是任何视觉估计都是有问题的。为什么有问题?因为其实是鸡生蛋、蛋生鸡的问题,我们需要这个视觉的操作数据而不是标签,互联网上的数据恰恰没有这样一个操作的知识数据,所以估计起来肯定有问题。但是它也有作用,能够让一个海底捞针的问题变成瓮中捉鳖,就是你至少知道它是什么物体,还是有一定的线索。仿真的数据也是量很大,但是需要解决的,除了Thing to real的Gap之外,有些连续复杂接触的时候可能会出现问题,还有就是数据资产的问题,也需要我们去解决,如何规模化数据资产?不能手搓很多东西,手搓一万个瓶子,手搓一万个桌子其实很累的。但是真机数据也有问题。如果没带力反馈的话,其实有很多噪声。带了力反馈之后也有一些问题,就是很贵。我们现在也能看到做一些伴随式的操作,这些操作会跟机器人的数据结构等比例,但是能戴在人身上,能够让人在各种场合做,成本会降下去。所以在采真机的时候,关键是成本问题。复盘下来,每一种都有它的问题,关键是用信息量克服噪声,相生相克才是一个完整的系统,更应该很宏观地考虑这个问题。
3、如何定义具身机器人的泛化问题?随着当前的任务种类、任务量的增多,如何跨本体、跨场景以及跨任务中实现更好的泛化?
王仲远:我觉得泛化这个问题其实恰恰是现在具身机器人和具身智能所面临最大的一个挑战。我想大家肯定在互联网上也看到过非常多关于机器人非常酷炫的视频。很坦诚地讲,真正敢现场做展示的这样一些公司还是极少数,当然银河通用是少数之一,能够敢于真机展示,我觉得这都非常棒,非常重要。关键就是怎么去解决这个泛化性?
我分享一个真实的例子。我们家女儿现在不到两岁,我看她的学习过程,我突然发现,在春节期间,她学会了拆糖果,学会了拆饼干,我非常确定没有任何人教过她。当然后来我们就在研究她到底怎么学会的,包括她自己又学会了用牙签串蓝莓。最后我们发现,她还是看手机的,看了大量的短视频,非常喜欢看主播拆糖果吃,她也做了一些尝试,在失败的过程当中反复练习,练习完之后成功了就有糖果,这就是Reword,最后会发现,依然是一个PreChain加上一个Post-Training,这个Post-Training可能用的是Reinforce Learning,用了这样一些范式来学习。人类大脑的这种能力,我想至少比现在的具身智能,具身模型远超。这也恰恰是我们这些科研机构,这些创业公司,这些模型公司要去努力的一个方向。所以特别期待,有一天我们的机器人自己能够自主地学习,学习完之后,把这些技能就记住了。
王鹤:我非常认同仲远博士对于人类学习过程的观察。实际上我想仲远博士的女儿在观察别人拆糖果的时候已经拥有了一个很好的大模型,多模大模型,并且这个大模型提供了奖励函数,帮助到了她的强化学习。很可惜,这些目前在具身里面我们还都处在一个探索阶段,所以我们在谈任务通用,我们在谈能力泛化,我们在谈跨本体,甚至我们要跨越本体,人是无法跨本体的,实话实说。我们人如果生病了,卧床一个月,我们的肌肉就会萎缩,这时候你站也站不起来,你可以认为前后是两个人,因为肌肉变化了,这时候你需要一段时间的康复训练才能驾驭肌肉萎缩以后的身体,所以其实跨本体甚至超越了人类的能力。
在这个过程当中,我觉得我们必须认识到物理世界的智能必须遵循一个过程,它可能要先在一个维度去研发泛化,然后再沿着技能的宽度去进展,最后再沿着本体的维度去跨越。所以我个人的看法,这个可能是我既在学术界又在产业界的一个视角,就是我们先沿着能够产生生产力价值的维度去探索它的泛化,我们会认为抓取、放置,包括在场景中移动,这几个能力看似很简单,但是你说各个工厂、超市、零售环境里面不就是拿、放、走,来来回回就是这几个组合在一起吗?如果这几个技能都能够通过合成大数据和少量的真机数据让它做到泛化,那么人形机器人就有了生产力的价值。然后我们再看,那个时候我们就能卖100万台人形机器人,给各个坐、拿、放、移动的场景,我们再去研究它在更多的维度,比如家里面的各种任务,比如工厂里面的各种任务,去跨越这些技能。最后我想才是跨本体,因为跨本体意味着每一个本体都要有足够的数据,这一点也跟很多学者是相反的。很多学者认为,每一个本体都有一点点数据,最终训练出的模型能够跨本体。这一点我观察无人驾驶,我是不认同的。无人驾驶里面不存在A品牌的汽车有1千条数据,B品牌的汽车有1千条数据,最后大家把几十个品牌的车的数据汇聚到一起,训出了一个所有车都能开的,敢上路的自驾模型。实际上今天大家都是怼着自己的一款车拼命采数据,所以这一点我认为是最后一步。
4、在家庭或者工业实际场景中,如何大规模地验证机器人的稳健性?
陈建宇:我觉得要保障真正的应用里面的鲁棒性,非常重要的是我们必须建立非常健全的不管是机器人还是具身智能机器人,它的质量测试体系。这样分几个层级,一是你首先要保证它的硬件本体不会出错,或者你得对硬件本体的出错概率或者老化的时间非常的清楚,这里面也分很多,因为我们自己也正在做,包括最底层的零件级,电池、减速器的寿命耗尽。还有部件,比如说手、关节,多长时间会老化,多长时间性能会出问题,一致性怎么样,再到整机做各种各样的动作串起来之后,能跑多长时间、能走多长时间,等等。这是一层。
保证完之后我们需要看它对场景这一层的测试,这块可以比较多的去借鉴自动驾驶。因为自动驾驶是有非常丰富的场景测试库,它的自动驾驶软件每发一个新的版本都要经过这样的场景测试库,里面有仿真的,有真机的,我们先仿真,有大量的仿真测试,然后确定每一项的性能目标,可能有成百上千种性能指标的测试,然后再到真机上面车队的测试,逐步的去完善。因为真的把机器人推向真实的工业或者家庭的应用是非常严肃的问题,所以经过这样严格的测试体系。
冷晓琨:因为我们乐聚从2016年到现在马上10年了,一直都在做双足人形机器人的产业化,尤其从2022年之后大人形的这一波爆发,我们的核心观点就是找到场景先用起来,在磨合过程中你会暴露出你的硬件、智能一系列的问题。就跟王鹤总刚刚说的,一点点扩张它的智能性,然后不断去磨合的过程。
今年元旦,我们刚刚完成了100台的产业化交付,这种交付就包括了科研、展厅,以及车厂、工厂的交付,这个过程中就会暴露出大量的问题。其实解决这些问题,就是在解决在工厂以及家庭使用过程中的鲁棒性。
第一个,大家都解决的就是基本的硬件稳定性。因为整个行业起来没多少年。今天下午同时在进行的就是人形机器人行业标准的事,现在讨论人形机器人进工厂最核心的参数没有,就是它到底要无故障工作多少小时?我们自己内部自己定的目标是连续工作1500个小时,100天左右,一天十几个小时。你至少要达到这个目标才敢说机器人能够用起来,先不讨论ROI的问题,这是第一个。
第二个,从技术角度来说要保证鲁棒性,就像刚刚陈建宇说的三个,场景的状态数据、机器人的状态数据,再加上模型,这三者最终决定了机器人最终执行任务的鲁棒性或者成功率。所以说现在场景数据以及机器人状态数据的采集,成了一个必要的条件。所以说我们现在在工厂里面都在做简单轻泛化的事情,比如说箱子之间或者包裹之间是简单泛化,完成这个过程,先让它完成这样的任务。但是更多精细性任务的完成,我认为还得先进训练场。有点像人进职业技能学校一样,先进人形机器人的职业技能学校,把工厂以及生活生产过程中的场景抽象出来,采集场景和机器人状态数据,去挑选好用的模型,把人形机器人的技能先在训练场训练出来,把在工厂用的ROI标准,至少先在训练场达到这个标准,才能够放心的最终让它不断地有复杂的任务,进入到我们的生活生产当中来。
5、机器人灵巧手的重要性有多大?对不同场景的传感器的要求有哪些区别?
卢策吾:我们自己实验室也做灵巧手。我觉得这是个非常好的科研问题,我们现在其实都是在工业场景做二指的,二指是没有灵巧性的。灵巧手能够补充灵巧性。大家从学术角度肯定很有必要去研究,产业角度会决定于两个要素,一个是它的稳定性和它的价格,以及它的必要性。所谓必要性,也就是说如果一件事情二指能解决,为什么要用五指?我相信有些场景是需要五指的,但是你盘下来二指的比例很多,很多二指能解决的,就不需要上五指。所以这种情况下,我觉得如果从商业化的角度来考量三个问题,成本、稳定、必要性,其实必要性也是成本,除非你做的比二指还便宜,但是不太可能。这是从商业的角度来讲,你需要关注的。
从学术的角度来讲,我经常跟我的学生讲,你要做灵巧手一定要做二指不能做的东西。所以你看现在很多五指的研究。二指都是做抓取,其实抓取很多都是二指能解决的,或者是准二指。所谓准二指就是连成一片的,其实也是一种二指。
为什么灵巧手很重要?有的时候比如说我们拿个锤子或者拿个筷子,你不准的话,手上可以做调整,这个东西就对工具的使用能力很高。所以在手的工具的调整,对于灵巧手是需求很高的。所以我的学生做研究的时候都会说一点,凡是二指能做到的任务你千万别做,你不要拿着一个泛二指能做的事情用灵巧手模型demo,大家是觉得很酷,这种学术上的意义就会小很多。
6、构建具身大脑如何实现大脑和小脑的协同控制,如何解决不同机器人本体和具身大脑兼容的问题?
王仲远:首先具身智能到底是一个分模块的实现方式,还是一个端到端的实现方式,我想现在在学术界和产业界都还没有完全达成共识。但是如果参考之前自动驾驶的实现路线就可以发现,也许端到端会是终极的形态,但是它需要海量的数据。因此分模块的方式有可能更加容易。我们看到现在有很多的机器人公司在不断地采集数据,去训练一些各种各样的技能。如果通过跨本体的大脑就能够充分地让这些技能,各个本体公司已经训练出来的这些技能能够被使用起来,所以这有可能是一种让它更加快速落地的一个方式,进而去采集更多的数据,最终实现真正的具身智能的终极形态。这个可能是我们的一些技术路线上的预判。
当然,行业里面也有非常多关于到底应该怎么实现的不同的争论,有从互联网学数据的,有从模拟的合成数据来进行训练的,当然也有坚定的相信只有真机采集数据。但是智源研究院我们是从大模型起家,我们开始做大语言模型的技术路线,我们也在做原生的多模态的技术路线。去年10月份也发布了我们的统一原生多模态大模型Emu3。因此我们还是很希望能够利用这样的多模态的预训练模型,来帮助我们的具身机器人更快的拥有一个智能化,当然我们依然需要合成数据,依然需要真机采集的数据。但就像我刚才描述的故事一样,有可能它是用来做一些微调或后训练,使得它具备一定的泛化的能力。
冷晓琨:首先,我的观点和王仲远院长很像,我也比较倾向于分层的方式。因为纯端到端的方式看起来是一个快捷的方式,但是它背后带来一定是算力资源的浪费。其实从我们人来说本质上也是一种分层,我们小脑要控制的一些肢体运动不会用大脑的皮层运动来控制这件事情,也会造成资源能量的浪费。但是现在在顾虑的不是分层这种方式,而是顾虑的不合适、不恰当的分层导致资源算力的浪费,比如说大脑、小脑之间的耦合方式,现在都没有完全彻底的融合到一块去。所以造成了这种情况。所以为什么我们跟王仲远院长一起在磨合大脑、小脑这个部分。
第二,从产业端来看,现在有一个问题。每家都有自己侧重的,比如说有的侧重于具身智能模型,像我们侧重于小脑和本体部分。这个时候很难两个团队融合在一起把这个事情完成,因为一旦通用这个概念出来的时候,它造成的就是耦合的资源浪费。但是这个时候到底是具身智能把接口给硬件,硬件自己来用。还是我把硬件给具身智能公司,具身智能公司来做。这个有信任的过程、有主导的过程。单独的大脑和小脑,我认为接下来发展的过程会很快,难是难在怎么把好的大脑、好的小脑,这两个团队快速的融合在一起,我认为会是很难的,这不是一个技术问题,是一个行业或者产业问题了。
冷晓琨:刚刚说到数据的问题。现在我们大脑主要采集的还是图像以及图片信息,小脑核心在采集力控信息、轨迹信息,但是我觉得随着模型不断增加,数量不断增加的时候,可能大脑、小脑需要的数据模态可能会逐渐的统一起来。而这个时候会加速大脑和小脑之间的耦合。比如说大脑可能需要用到一些力控信息,然后通过这些学习的技能,最终放到小脑的肌肉记忆里面。而小脑,比如说推机器人要让它摔倒的时候,它自己保持平衡这种小脑记忆,本质上也可以通过大脑的上层控制对它做一些收敛。我感觉如果说这种耦合逐渐出现的时候,加速了人形机器人智能体整个的耦合,会极大的加速它在真实世界中探索数据、探索整个世界的能力,会更快地提高它的智能性。
基于现在的大语言模型和多模态大模型,我们是否能够构建具备物理性质预测能力的世界模型来增强具身智能?
王鹤:我觉得很有意思,这个问题问我。因为我是不太支持世界模型的,包括Sora是全球最早说自己是世界的模拟器。但实际上,我们知道它背后不是物理的,而且它里头甚至感觉不到支持交互的本体是什么,它本质只是一个视角、视点,在环境里面去运动,或者第三视角看别人怎么做。所以其实这个过程,我们看到用视频学出来的一些合成的手段,不能够去讲它里面有充分的物理,它也没有机器人本体的概念,也没有本体关节或者是限位到底是多少,力到底是多少的概念,都没有。它是完全的视觉或者视频合成器。
我把我们银河通用机器人放在货架前拍了一个照片,交给一个国内和国际上都是顶尖水平的视频生成大模型,说请我抓一下货架上的物体。这个时候很有意思,它很真,它让我们的人形机器人立马动了起来,但是它的胳膊就像人的胳膊一样的柔、一样的顺。这个手我们本身是个二指假爪,提起来到货架上瞬间就变成了五指,把这个东西像人的手一样拿了下来。我们也看到了今天的视频大模型在生成内容上,确实已经有一些以假乱真,但是任何看了这个视频生成的人都会觉得你这个基本不是机器人,你这是穿着机器人衣服的人。
这样的世界模型对机器人有没有用呢?因为我们机器人从模型执行器到身体关节限位都跟人还有一定的区别。所以现在人的数据训练出来的视频模型,它跟我们机器人干活的模式和真正的动作空间,和接触的方式全都不一样。而且它背后的物理还是假的。如果我们想用世界模型去推动人形机器人的快速发展,我们就需要有人形机器人在世界里干活的大量的数据,用这样大量的数据去训练视频生成大模型,才有希望能够让这个视频生成大模型服从人形机器人的动作空间和交互方式。但可惜它是个鸡生蛋、蛋生鸡的问题,我们现在还没有那么多的人形机器人在世界当中真的工作。如果它真的工作的话,我连它的动作数据都有,我又不需要限制在视频生成的这个维度,直接生成动作不就完事了。
所以说我个人对今天所谓的世界模型也好,所谓的视频生成大模型也好,对人形机器人发展可能会提供一些侧面的推动,但是主要的推动恐怕很困难,我个人的观点。
陈建宇:我是世界模型的一个拥护者,我认为它一定能够起到比较重要的作用。还是像我最开始说的,咱们把人作为AGI的一个标杆对标一下,其实我们人并不是一个纯条件反射式的行为,我们人类大家可以想一想,每时每刻你都在预测未来,你看到的这个杯子在我们的桌子旁边,你会预测担心它会不会掉下去,我们开车的时候,随时会担心,会有预测,这个自行车会不会突然冲出来,你时刻在预测未来。这样一个能力其实是非常多地帮助了我们进行决策的,而这个能力是目前我们大部分的具身模型和AI模型所不具备的。大部分的AI模型都是通过模仿学习,就是我们有输入、输出、感知输出、动作输出,这才是一个纯条件反射式的,但是人类具备更多的能力,而这个能力是帮助我们更好地去泛化到未来,做出更精准的决策和行为。刚才提到了,这个能力展现出来的这样一个样子,就是说我们能预测未来。
虽然我也同意,非常认可王老师的观点,现在视频生成的能力还不是特别够,刚才有老师提到我们这个领域在不断地发展,变得越来越可控,但是这个预测的能力也是非常重要的。另一点我想说的是,我们这个世界模型最重要的是融入进来帮助我们做决策,对于这个观点来讲,我们对世界模型预测的精度可能不一定要求那么高,我们还是因为人的原因。其实你去想象一个未来的物理现象或者这个人,或者这个车未来会怎么走,你的预测其实是非常模糊的。我们其实想象不出来非常精准的画面,你的预测也是模糊的,但是它可以帮助我们做出更好、更泛化的决策和更快的学习。我们在一系列工作里面,我们的具身大模型里面也融入了世界模型这样一种预测性的方式,确实我们也有一些定量性的Bench Mark,发现它确实有所帮助,所以我认为这条路是非常值得持续探索的。
7、具身智能领域的ChatGPT时刻会什么时候到来?以及未来5到10年和现在相比还会有哪些新的机会?
卢策吾:大家很多人都问我,我觉得每个人的观点不一样。可能大家都期望一下子一个智能上来了,但是因为各种算力、算法都是准备得很好,这个时间点去突破。但是我更倾向于具身智能的ChatGPT时刻会是一批场景一批场景。当然你会看到,一批场景突然间就突破了,突然间就Work了,背后可能是某个技术的突破,是因为一批场景的数据、模型、Knowhow的时间点差不多了,是一浪一浪上去的。你会发现,身边会越来越多的场景被解决,综合到最后,会出现Everywhere都是Robot,我更倾向于这样一个阶梯性,最后在一个大冲击的时间点。
如果问我年份,其实很不好说,我觉得一两年内应该会有这样一个第一波,我的判断两年一个周期会有一波,因为这么多人才、资金在这里,这么多场景都在拥抱,我觉得确定性相对比较高。
卢策吾:怎么说呢?这个事情每一家都有不同的看法。从我们公司的角度,我们看到就像物流PMP,抓取、放置,跟王鹤老师是一致的,这个我觉得会比较快,可能各家都比较一致。另外我们自己在一线做的时候,发现食品加工可能会快,因为它对于物体相对来讲,这些物体内部有Variation,各种刀工能做到的时候,食品加工可能会有。简单的这样一个环境,我觉得也会是一个不错的点,后面听各位老师的看法。
陈建宇:我觉得看怎么定义机器人的ChatGPT时刻,如果标准比较高的话,可能时间就会长一些。如果类比语言模型的ChatGPT时刻的话,实际上它是说这个Agent真的能开放给每个人用,每个人任意地问它任何问题,基本上都能答得不错,给你带来惊喜。如果达到这样的标准,对于机器人来说,随便放到每一个家庭,随便一个场景,你告诉它干一个什么活,随便开脑洞,让它干简单复杂的活,你发现它基本上都能做出很正确的推理和回答,并且能够把这些复杂的问题基本上完成,这个时候可能就是类似于ChatGPT时刻。如果这个标准的话,我觉得还是很高的,可能是三年以上的时间。但是我觉得不会妨碍它在我们一到两年内的时候继续应用,因为我们不需要等到真的ChatGPT时刻他才能用,可能我们GPT1.0或者2.0的时候,已经可以在一些垂类的场景进行一些规模化的应用了。
王鹤:我的看法是,我觉得今天人形机器人的整个呼声很高,但是实际上我们还要往前再看不短的路线,在这个过程中会出现智能和硬件相互促进,在每个时间点相互轮流成为瓶颈,再轮流被突破的一个过程。今天我们的机器人用轮式,能折叠的腿,在外面有一个小关咖啡,也欢迎大家去体验,我们银河通用的机器人给大家从货架上拿食品,拿咖啡给大家喝。像这种场景,实际上我们没有用到腿,因为我们认为轮式机器人在这种场景很合适,又便宜又可靠,续航时间还长,成本还低。现在制约我们这样的机器人,能直接去做,跟7-11这样的特别密集,特别真的货架本质是智能。我们认为,这种货架级别的智能我们在2025年、2026年会迎来全面的突破。这个突破了以后,所有货架的东西你都能拿了,你能出产10万以上的轮式人形机器,算不算ChatGPT时刻?如果必须每个人都用上的话就不算。如果从有没有价值来看,有价值,对行业来说,很多24小时值守的店,很多非常耗体力的活现在它都能干了。这个时候我们就会发现,我们可能需要腿,我们需要有一些非常复杂的地形,腿能够穿越,轮不行了。这个时候,腿式人形机器人在那个时候有没有达到非常稳定、成本很低、噪音小,而且续航还高?这个时候他就会相互地要求对方进一步地成长。直到进家,我们想要的一些机器人可能是能把老人从病床上扶起来,今天我们的机械臂都是钢的,外面有一个壳,硌着老人,肯定不希望这样的人形机器人去扶家里的老人。走向那一天我觉得还有一段里程,需要大家一起努力。
冷晓琨:其实GPT和具身智能有一个很大的区别,就是刚刚王鹤说的是硬件进来了,硬件和软件是一块耦合的,GPT可以直接一个Demo出来,一个软件出来之后可以迎来一个爆发。但是机器人涉及到硬件产业,一个硬件产业的规律基本上都跨不过去,从实验室产品到产业化产品,我认为至少要趟三到五年的时间才能真正进入产业化阶段,这个时候我们还要耦合进来,具身智能软件部分的发展规律最终合起来才会迎来真正的爆发。我觉得可能不会有一种忽然眼前一亮的时刻出现,我之前看过一个数据,我们一直觉得工业机器人整个社会的体量特别大,但是实际占到我们GDP不到2%,核心就是因为专用性。但是具身智能和人形机器人出现,合在一块是通用性,从而整个社会面可以逐渐用起来。用的过程中,随着刚刚说到的产业化不断成熟,智能性不断成熟,不断地进入到我们场景的过程。进的这个过程当中,不会一下子进到养老或者进到家庭,一点点进入,可能在五年或者十年之后的某一天,你回头看,会发现到处都是了,但是不会出现某一个节点跟GPT似得忽然爆发,我认为会这样。
王仲远:其实回答这个问题也一样,关于ChatGPT时刻怎么定义的问题,我们可以看整个深度学习,我们人工智能第三次浪潮的发展脉络可以推测一下具身智能。其实整个深度学习最早是2006年辛顿教授在《科学》杂志上发表的关于深度学习的论文作为起点,但是真正进入到产业界的关注和爆发是2012年,中间间隔了6年。2012年的时候辛顿带领他的两个学生,在Imagine比赛上获得了冠军,大幅地降低了错误率,这是在视觉上取得了突破。之后在语音识别、TTS上又接连突破,开始证明了深度学习的重要性。再到2017年Transformer提出,2018年BERT爆火之后,BERT的模型才真正在自然语言处理上让大家看到了突破的希望。再到后来2022年ChatGPT发布,从2012年到2022年小模型时代,或者说深度学习1.0时代也经过了10年的时间。在具身智能方面,显然我们现阶段还不仅仅受限于模型,还受限于硬件的发展速度。既有先有鸡还是先有蛋的问题,又有相互制约的问题,当然也有可能相互促进。所以具身智能比较可能的,依然会在受限的场景下先具备可用性,一定的智能,以及一定程度的泛化。这样的话,累积几年之后,有可能在五年或者更长的时间,因为现在整个大模型也在加速发展,具身智能现在也在加速发展,所以如果之前要用10年达到这种通用性的话,也许我们接下来5年,但是不会特别快。(腾讯科技特约作者 YangZhao)