未尽研究
发布于

对机器人的兴趣,正从炫技转向实用 | 周志峰对谈陈亦伦、唐文斌


上海世界人工智能大会WAIC),到北京的世界机器人大会,具身智能场面最为火爆。在WAIC上,150具各种形态的机器人模仿出千姿百态的动作,让大会展览一票难求。这些机器人来自中国100多家具身智能和通用人形机器人企业,其中多数为初创公司。

有两家具身智能机器人企业,“含着金钥匙”出生,其中一家创出具身智能天使轮投资的融资金额记录,这两家公司暂未推出本体产品,甚至连产品演示视频都没有公开过,创始人出现在大会上就吸引了众多关注。

它石智航(TARS)正式成立于202525日,创始人陈亦伦博士曾供职大疆,担任华为自动驾驶首席技术官和首席科学家。它石智航以物理世界 AI 和通用机器人技术为核心,构建可信赖的超级具身智能系统,立志成为全球具身智能领域的领军企业。

原力灵机成立于20253月,创始人班底来自旷视科技的当年的清华“姚班”高材生。原力灵机CEO唐文斌是旷视科技的联合创始人,领导着国内最早的AI创业团队之一。与当下走红的机器人初创企业相比,原力灵机具备了行业内少有的实现大模型技术与机器人场景深度融合的能力,致力于实现通用人工智能 (AGI) 在物理世界的落地应用。

WAIC启明创投创业与投资论坛上,领投这两家企业的启明创投主管合伙人周志峰,与陈亦伦和唐文斌,展开了一场深入的对话,探讨“具身智能的奇点时刻”。干货如下:

--

具身智能的发展在加速

周志峰:作为这个行业中的领军人物,您二位看到具身智能、人形机器人、通用机器人在过去一年有哪些大的变化、大的进展?可以和大家分享一下,对这个领域的发展更有信心了吗?

陈亦伦:我个人对这个领域一直非常有信心,我觉得大家可以在WAIC上看到,过去两年整个具身智能或者机器人技术的前进速度,已经超过了此前累积下来的前进速度,这还是非常振奋人心的,我们预判之后它的发展速度会越来越快。

一年前在WAIC上的机器人展都以静态展示为主,现在在机器人的全身域控制,locomotion(机器人运动控制)和WBC(全身控制),这个领域我认为已经接近于收敛的形态了。就AI来说,端到端可能在一两年前学术界有比较强的信心,但工业界还是有疑虑的,但现在说起端到端,至少在机器人的移动领域、在它最大的场景自动驾驶领域已经充分产品化了,而且大家可以在日常生活中体验它的能力。在操作领域来说,其实大家在实验室级别的产品样机上已经看到巨大的飞升潜力。

我觉得非常重要的是多模态的大模型,基础能力一直在显著提升,而且不同于纯语言模态的大模型,多模态数据的Scaling law(扩展法则)还是没有见顶,有巨大的提升空间。这几个因素综合下来,我觉得具身智能这几年会越跑越快。

同时硬件技术也在高速成熟,比如说我们看到一些非常高自由度的终端形态,比如灵巧手,我们看到一些接近于量产形态的方案已经开始出现,这些飞速发展都是比较振奋人心的。

唐文斌:我觉得从本质而言,最大的信心其实是来自于大模型上CoT(思维链)和Agent(智能体)的能力达到了一定的临界值。我认为机器人真正走向通用有两个必要条件:

第一个是对物理世界的精确的感知能力,这其实也是旷视科技在过去很多年一直在做的事情,我们也看到不管是小模型还是大模型,整个多模态的感知能力是在不断加强的,而且现在已经可以做得非常好了;第二个是复杂的规划和推理能力。

只有这两件结合起来,机器人才能够走向通用的状态,非常快速地朝着可行的方向发展。

技术探索并没有收敛

周志峰:我记得2014年投资旷视科技的时候,启明创投有自己投资的思考和逻辑。当时我们认为2012AlexNet其实是深度学习的一个转折点或者是一个技术的突破点,因为那之后基本上技术开始收敛,全行业最优秀、最出色的人都向着一个大方向去奋斗,所以我们认为可以布局旷视科技这样的深度学习技术驱动的企业。

我们在2022年投资智谱AI,后来投资阶跃星辰,也是认为2020年的GPT-3是大模型技术的突破点,那之后技术相对收敛,大家都朝着共同的方向努力,肯定能够看到很好的结果。

在投资它石智航和原力灵机的时候,我们内部一直有很多争论,具身智能的技术到底有没有收敛?还是依然在百花齐放?如果百花齐放的话,投资人的风险是很大的,今天投资的公司,有可能团队很优秀,但是三年后技术没有收敛到这家公司所在的方向上,那是不是一个很大的风险?咱们聊聊,到底具身智能技术有没有收敛?以前大模型技术发展受限于数据、算力,现在具身智能这个领域,有没有一些大的瓶颈阻碍技术更快速往前走?

唐文斌:我的判断是技术并没有收敛,因为今天不管是从算法的框架上,还是从数据的来源上,还是从硬件的形态和稳定性上,以及最后场景落地的先后顺序,每一个问题仍是开放问题。

目前大家普遍认为技术逐渐收敛,应该走端到端、纯数据驱动这条路线,用类似于VLA(感知-语言-行动)的技术框架,这是逐渐形成的共识,在这个共识上,并且我觉得大家对于未来的技术发展也有一些共识。

比方说多模态,大家今天都会觉得光靠视觉引导很难走向智能,因为人在物理世界的时候,不仅通过眼睛去感知物理世界,还有触觉,看不见的东西还会通过脑袋探一探,比如说能不能学习自动驾驶,如何能够直接把有深度的信息用在VLA里面,这一系列的多模态数据如何灌入大模型里?我觉得在逐渐形成共识。

但这个模型架构长什么样子?其实现在并不知道。

我们现在其实还在探索的一些技术方向,包括今天的VLA大部分是单帧模型,所以内部经常开玩笑说,如果用VLA去驱动机器人去炒菜,让它放三勺盐,它其实放不了三勺盐,因为它放完第一勺盐以后很快就不记得自己有没有放过盐了,因为从视觉的角度来讲,放过盐和没放过盐的状态是一样的,因为这个模型现在并没有记忆的机制。当然我们也可以在外部做一个规则引导的机制,但是如何让模型具备原生的记忆机制?我认为也是一个非常重要的问题。

今天很多公司,比如从Figure开始,大家都在提大小脑模型,我们内部也在研究,但我认为大小脑模型并不是一个终极的状态。

大小脑模型其实是人为按照频率把模型做了切分,因为大脑区在思考,小脑区做执行,它们输出的频率不一样,所以我们人为切成两个模型。

但这样的人为切分是一个好的方式吗?它智能吗?其实不智能,因为人会去做一个操作的时候会说我想一想,然后再做,做完了之后这个状态发生改变了,我再想一想。所以机器人怎么才能像人一样形成一个动态的、柔性的思考和决策链?它其实可能还是基于一个模型,然后变成一种动态频率和柔性频率对模型的输出,这可能又是一个开放性的问题。

那么回答刚才的问题,我认为今天的模型框架远没有收敛,有非常多的问题等待我们解决,但正是因为有很多开放性的问题,我认为这件事情才让我们对未来是充满着激情和想象力。

具身智能,具体怎么做还是非共识

周志峰:印奇(编者注:千里科技董事长)说, 2011年创立旷视科技的时候是学生创业,当时正值大学生创业的热潮,讲得最多的一句话是“先跳下悬崖,然后在坠落过程中组装飞机式的创业”。但今天的总结是,如果没有先想清楚一个完整的技术和商业闭环,这种创业可能是很难成功的。

这个问题比较挑战,您刚才说确实现在还有这么多的不确定性,技术也没有完全收敛,那您今天选择具身智能机器人创业会不会是跳下悬崖、组装飞机的过程?

唐文斌:我认为这是一个“技术信仰、价值务实”辩证统一的问题。因为当我们做这个大模型也好,或者最早做深度学习的时候也好,如果没有技术信仰,没有任何一个技术可以在诞生的第一天就给你一个确定性,如果它已经有一个非常明确的确定性,那这件事情也已经结束了,没有创业公司的任何机会。

所以我认为正是这种不确定性和技术信仰才使得创业公司有机会。因此我认为在团队内部大家真正信这件事情,对技术抱有真正的热情和信仰,极其地重要。

第二,这个过程中不只有信仰,要能够沿着真正的登山之路,在中间找到营地获得补给,有阶段性的商业化,能够形成成果。所以我觉得对于这个问题,我既同意也不同意,这是一个辩证统一的过程。

周志峰:请亦伦也聊聊这个话题。

陈亦伦:我基本赞成文斌的说法,但是可以从另外的角度诠释一下,我的观点是目前具身智能在宏观的层面上,或者是长线的层面上,我认为大家是取得了高度的共识。但是在具体怎么做的层面上,每一家都会有自己的多元化思考,我可以分享一下为什么我觉得这件事情在宏观层面上取得高度共识是非常重要的。

之前我走过十年的自动驾驶周期,大家在宏观的层面上很长时间都是高度的非共识,比如说机器人的模块需要决策跟规划,是否应该用AI?是否应该跟感知分别处理?大家是否应该用地图?这其实都是非共识,而且争论了很久,这是宏观层面上。

现在说具身智能,其实在宏观长线上大家的认知是非常统一的,比如说我们都认为数据是非常重要的,我们都认为这个模型最终部署的形态大概率一定是端到端的形态,它是一个多模态的,不同的模态语言包括视觉和其他的传感器都占据非常重要的作用,可能一个模仿学习是不够的,还需要强化学习,甚至需要一些世界模型的加持,对于这些,大家有共同点。

但在具体实践中,其实区别很大。比如数据,有人认为可能需要部署很多台机器人,有很多要操作的数据,有的认为可能需要通过仿真生成很多数据,有的认为真机数据更重要,应该多“快好省”地收集真机数据。再具体来说,比如刚才提到了VLA,我也非常同意,我认为VLA是三种模态的代表,它是代表感知V,语言L,到A的动作输出,其实VLA确定了这个网络的任务输入和输出,所以网络中间需要用什么样的架构来设计,是不是需要一张网络直接从头穿到尾?还是中间有一些隐变量层?是否是模仿学习就足够了?是否要采用强化学习?用什么样的强化学习?是否需要世界模型的加持?这些是大家不断探索的。

其实不仅是这些在算法层面上,硬件层面上也是一样的,是在宏观共识、微观非共识的层面操作。

比如现在通用机器人的形态,基本上是两类,一类是双足,一类是轮式,代表大家在不一样的应用领域上的局部趋势,但即使对于双足机器人来说,它有直驱关节的,也有用一些更加复杂的传动机构,能够实现电机和它的传动机构更加均衡的设计,这些都会有。

但我觉得一个宏观的共识,加上微观的多元化,其实对于这个行业是比较健康的,意味着大家在一个基本确定的方向上可以迅速迭代,彼此界定自己的认知,这样会让行业走得比较快。

改变物理世界的AI

周志峰:您以前主导了华为的智能驾驶第一代完全从零开始的技术自研体系,也塑造了今天华为智能驾驶在全球的地位,您提到了认知,有什么认知是能够在智能驾驶领域和今天具身智能领域共享的?

陈亦伦:我觉得这是特别好的问题。首先自动驾驶技术和机器人技术一开始就是同宗同源的,事实上很长一段时间内,自动驾驶的主体技术主要来源于美国两个机器人实验室,斯坦福的 Sebastian Thrun (《概率机器人》的作者)的实验室,和卡耐基梅隆的 Red Whittaker(探月机器人) 的实验室,这两个实验室通过 DARPA 挑战赛,汇聚成了Waymo 的主体方案,一直延续到了今天。2018 年之后,自动驾驶技术开始大规模AI化,把传统的机器人算法栈从逐个模块的 AI 化,到分层端到端,到彻底的端到端 AI 化,使得自动驾驶成为具身智能首个大规模应用的商业系统。

我觉得在自动驾驶的从业经验,包括技术经验,对于在机器人领域的复用,我是从这三方面理解的:

第一个,技术的直接复用,因为机器人和汽车一样,也是自动驾驶非常好的一个具身平台,本身也需要移动能力,而且它的移动能力对整个机器人的应用至关重要。考虑到现在日常能够见到的一些商用机器人系统,里面的一些移动技术更多类似于家用扫地机器人的技术,我认为从这些技术直接升级到更现代的一些端到端的技术来说,对于它的应用价值、技术价值都是一件非常重要的事情。

第二个,自动驾驶这么多年,整个行业的投入非常大,其实有一点是“交了学费”的,在自动驾驶所有AI一定要被定义在时间和空间里,而不是定义在二维的图片里,这点其实非常重要。

在自动驾驶里有个名词是BEV,其实本质上来说就是一个时空概念,定义在时空概念有很多好处,不管任意一个模态的输入和输出,都是在时间和空间这些非常本质的物理量上对齐。

从这个角度来说,我们团队更喜欢把具身智能叫做物理世界AI,因为我觉得具身智能天生是在物理世界里存在的AI,处理的基本变量就是时间、空间、作用力,我们觉得具身智能能够往前快速推进非常关键的一点可能是认知。

另外自动驾驶是作为第一个大规模应用落地的具身智能系统,中间经历过海量数据的冲刷,所以对于每种方法的能力边界,比如说模仿学习的能力边界、强化学习的能力边界,可能会有一些更清晰的认知。

第三个,工程能力的直接迁移,其实我们看机器人的硬件系统和自动驾驶的很多硬件系统基本上是完全类似的设计,或者说一些基础软件系统,比如从芯片、底层软件到通讯中间件,基本上高度趋同。以及刚才文斌提到的快慢双系统,我个人非常同意文斌的观点,快慢双系统不是终局,但它是在现有芯片存在内存墙的情况下的一个务实考虑,所以快慢双系统的异步部署,包括对于AI企业最重要的两件事情,一个是数据的管道,另外是训练的一些基础设施,这些都是可以高度复用的。

周志峰:这个问题也请文斌回答一下,您在旷视科技搭建了物流机器人的大规模落地,当时的经验对比今天研发的新一代机器人,您觉得有什么是可以转移过来的?

唐文斌:我们当年研发物流机器人的时候,坦白讲更多还是在市场需求和技术可达性之间,寻求找到一个交点。而物流行业是一个非常典型的场景,一方面能够承载和验证我们的技术,另一方面有足够的规模和明确的需求。

刚刚讲到旷视科技成立的时候我们就想做机器人,创业之初我们先从眼睛开始,希望未来能够有手和腿能够真正去影响物理世界。我们其实也看了很多场景,发现物流的场景有几个好处,在一定程度上被标准化的,例如集装箱是物流史上最伟大的发明,因为它把很多东西封装了,标准化了,而这个标准化使得自动化和机器人变得可行。

物流其实是机器人能够发挥作用的极佳场景,它有非常大的市场需求,全球有大几千万人在仓库里干活,所以它的需求非常大,同时因为它的标准化使得技术可达,所以我觉得这是物流场景第一个非常吸引人的点。

其次,我们做物流机器人的过程中其实也交了很多学费,或者说也学到了很多。一个是做机器人的时候,我们发现很多流程环节都是嵌入型的,在物理空间上它其实是有前道工序和后道工序的,在这样的流程环节里面非常重要的一点是异常闭环。比如在数字世界里,一个虚拟Agent或者一款App,当你发现它遇到了一个异常,可以靠重启App再来一次,但物理世界里是做不了这件事的,拿了一款货品出来,机器人在运输这款商品时,我们的程序出故障了,这时如何恢复状态?它的异常不能通过程序员截获来解决,所以我们必须要为整个流程去设计它所有的异常闭环,当你遇到这个问题之后,如何能够处理,使得生产环节一定能够顺畅地,完整地进行下去,这件事情实际上所付出的代价,可能比我们想象中的要大得多,这是一个从POC到实际应用的巨大鸿沟,这是我们在物流机器人上面学到的第一点。

大家今天看到很多机器人的构型,内部其实也在做硬件的形态。我觉得也在物流机器人上面还学到一点——快不一定是“快”,稳可能才是真的“快”。我们购买了很多机器人,但它们的MTBF(平均无故障工作时间)可能还没有达到在场景中真正长期稳定运行的要求。

而在这种情况下的大规模部署,可能会导致运维灾难,技术的不成熟靠服务去补,这样的服务是非常“消耗”团队的,大量的技术人员和算法工程师需要全部前往现场去做一系列的运维,这件事情我们经历过一次。

最后回到机器人,落地到场景中,这些问题其实同样需要认真对待,因此我也很感谢这一段物流机器人的相关经历。

机器人从舞台展示到后面干活

周志峰:非常好。大家肯定很关心,WAIC这次集合了150台机器人,看似很热闹,但其实大部分停留在舞台展示的状态,从行业领军者的角度看,第一批或者第一个落地的真实场景会是什么?

陈亦伦:其实我觉得很多机器人场景都是好场景,我分享一下它石智航挑选场景的方法论,基本上就是三句话:

1.高价值。

2.有规模。

3.有难度。

高价值,就是用户的刚需,痛点明确,我们希望存在一个更大的产品空间,这样我们才能聚合一些优秀的人一起来做事情。而有难度是基本逻辑闭环的事情,大概率高价值、有规模,如果上一代机器人还能解决,可能这一代机器人也没有机会,我们重点也是在解决上一代机器人解决不好的技术难题。站在应用空间的角度,现在机器人的从业者和使用方对于机器人的兴趣,已经从炫技转向对使用价值的深度思考,我认为这是一件非常好的事情。

能够有规模化落地的都是好领域,都能触发市场的“奇点”。

周志峰:能具体给一个落地的领域吗?可以透露吗?

陈亦伦:从我的角度来说,第一个有刚需且明显能够落地的一定是制造业,因为在该行业已经存在了大量的机器人,而且它的痛点非常明确。

唐文斌:我们对场景选择也有一些思考,有几个标准:

第一个是在技术发展的路线上梯度为正。今天到底要不要特别深入到一个垂直场景中去?我们内部认为不要,一定要走在技术发展的正确路线上,因为今天的技术上很多方面没有收敛,如果太早固化技术的形态,让它固化到一个场景中去,某种程度上是牺牲了泛化性,这并不是我们想要做的事情,所以我们非常坚持用一个模型在技术发展的正向梯度上推进。

第二个,我们同时考虑技术的可达性,就像印奇说的,在跳悬崖的过程中组装飞机,有些飞机是组装得出来,有些飞机今天其实不见得能组装出来,具身智能用端到端纯数据驱动的方式,一步到100%是很难的,所以我们大概率会逐渐从90%95%,再到100%,所以如何寻找到一些容错率相对较高、容忍操作时间的场景,我们认为是非常重要的。

第三个,就像亦伦师兄说的,它得是个规模大、需求强的场景,我们觉得这三点是决定了我们所选的场景。

所以我们也觉得会是更靠后端的这些场景,例如工业、物流, 因为它更大规模、更密集、劳动力更多,所以它所产生的价值更大。最终机器人能不能用得起来其实核心看两点,能用、好用是第一点,因为要真正能解决问题;第二点是它的经济模型得成立,这两点大概率还是会从后端先开始,再走向一些偏商用,最后走向民用的状态。




浏览 (8)
点赞
收藏
1条评论
探小金-AI探金官方🆔
评论探小金:嘿,小伙伴们,大家好!今天我们要聊聊的是【对机器人的兴趣,正从炫技转向实用】这篇报道,简直是萌萌哒!两位大佬——陈亦伦博士和唐文斌CEO,他们的对话揭示了具身智能领域的激动人心变化哦!想象一下,机器人不再只是展览会上的炫目明星,而是实实在在走向了实用场景,真让人期待! 陈亦伦博士说,过去两年里,机器人技术的进步真的飞快,从静态展示到全身域控制,AI技术的结合让自动驾驶变得更接地气儿。唐文斌CEO则强调了大模型和物理世界感知的重要性,他们在探索如何让机器人真正通用。 现在,启明创投的周志峰大佬质疑技术是否收敛,但两位创始人表示,虽然技术仍有挑战,但共识是多模态和端到端的发展方向。他们都在用自己的"信仰"和"务实"推动着这个行业的前行。 最后,他们一致认为,机器人落地的最佳场景将会是那些有需求、有规模、有难度的地方,比如制造业。看来,机器人不再只是舞台上的表演者,而是要真正走进生产线,开始干活啦! 小伙伴们,你们期待机器人如何改变我们的日常生活呢?
点赞
评论