腾讯科技
发布于

智元具身业务部总裁姚卯青:用算法数据等构成的“飞轮”挑战数据荒漠

文|奕萱

编辑|吴彬

在通用人工智能的浪潮中,具身智能(Embodied AI)正从科幻构想走向现实。它不再局限于虚拟世界,而是试图将AI的智慧赋予物理实体,让机器人像人类一样感知、思考、行动。

2025世界机器人大会上,智元机器人合伙人兼具身业务部总裁姚卯青深度剖析了智元具身智能从技术探索到商业落地的全过程,描绘出“机器人+AI”的实践路径。

智元机器人将具身智能的突破,形象地比喻为一个由“本体、数据、算法、应用”构成的“飞轮”。姚卯青不仅分享了他们如何克服具身智能“数据荒漠”的挑战,更深入揭示了其研发的具身智能底座模型GO One和世界模型Genie发明家的架构精髓。这些创新不仅在模型性能上取得了显著突破,更验证了“一脑多行”的跨本体迁移能力,预示着通用机器人时代的到来。

以下为姚卯青演讲实录:

智能设备目前热度很高,但它究竟何时能在哪些场景实现真正的应用?并且是能够产生高价值、在经济和社会成效上带来积极影响力的应用?我们将围绕这些问题,分享智元过去的一些工作。

首先,我简单介绍一下智元机器人。智元成立于2023年2月,是一家相对年轻的公司。公司的定位是打造人工智能+机器人融合款,以此为依托,打造通用具身机器人产品与生态。我们通过多智能机器人本体,融合作业、交互、运动等多种智能,使我们的全系列产品能够快速实现应用。

公司成立2年半以来,取得了一些成果,我们不仅发布了全系列的多款机器人,还围绕这些产品建立了相对完整的生产线。为了提升机器人的标准化能力,我们建设了行业内首个大规模机器人训练场和数据采集中心。依托海量数据,我们在具身智能相关模型(如VLA模型、世界模型、强化学习算法等)方面进行了创新与突破,并从今年开始在实际应用场景中进行了积极探索。

很多朋友可能会关心,智元机器人作为一家年轻公司,在行业内部布局如此广泛有必要吗?我们的答案是,在某些时候,全栈布局是必要的。作为一家机器人企业,如果你让软硬件产品深入行业并实现有效落地,其营收是相当高的。许多同行都知道,比如在一些工业中的场景,客户对你的期望是达到与人类相当水平的成本、节拍和稳定性。因此,要真正实现可落地的效果,就必须围绕本体、数据、算法和应用进行紧密耦合和持续迭代。

首先,你需要一个优秀的机器人本体,就像人类需要强健的体魄才能完成多种多样的任务。有了机器人好的本体,才能生产出稳定、一致性强且高质量的数据。对于人工智能大模型,无论是语言模型还是物理智能,数据质量决定了模型的上限。我们经常讲“garbage in,garbage out”,只有高质量的数据才能有优秀的智能体。脏数据对模型训练是有害的。

有了海量、优质的数据之后,这些算法也必须围绕实际应用场景进行落地试错,而不是凭空想象。我们常说“人工智能通用”是一个美好的愿景,但不能脱离实际去思考,必须结合场景。最终,在场景中的摸爬滚打(更多时候可能是惨痛的教训),会为本体设计、数据采集方法论以及大模型架构思考带来新的指引,让这个“飞轮”进入新的迭代。

这就是我们今天演讲的主题:智元的“本体、数据、算法、应用”飞轮。

在进入这个飞轮时,我们面临的第一个挑战是数据。我曾在其他场合开玩笑说,我们很羡慕做大语言模型的朋友们,他们坐在办公室里、电脑前就能完成大部分工作。而我们做机器人的人很辛苦,需要调试硬件,而且在早期很多硬件还存在一些问题。我们还需要将模型部署到算力有限、且对实时性和稳定性要求极高的工业级系统中,在真实场景中进行测试,再补充数据,重新训练模型。这是一个与物理世界强交互的过程。

说到数据,我们遇到的第一个难题是,大模型领域的数据不断迭代,将许多纸质数据和私域数据进行格式化和数字化,但对于机器人而言,几十年来互联网上积累的数据是远远不够的。机器人最终训练的目标不是简单的说话或认知,而是要根据指令主动探索物理世界、理解物理规律,并与环境交互、改变世界。这种主动探索、规划而改变世界的过程,需要动作类数据,尤其是偏长程、带规划的动作类数据。这类数据在现有网络上并不大量存在。

所以,面对具身智能的“数据荒漠”,作为行业从业者,我们别无选择,只能在沙漠里“种树”。智元希望种下第一棵树,并有更多的朋友加入,最终形成一片森林,一个“数据的海洋”。我们近期也确实在这方面看到了一些令人欣喜的成果。

首先,介绍一下我们在2024年底向全球开源的一个数据集,名为AGIBOT World。当时创建的初衷是发现,无论是工业界还是学术界,都缺乏一个高质量的数据集,能够以此作为支撑来训练和评估模型表现。

过去一些数据集的质量还没有达到工业标准,这使得基于这些数据的模型结论缺乏足够的基础,也难以判断出算法设计或数据本身的问题。AGIBOT World秉持这一宗旨,为大家提供了一个工业级质量、百万条轨迹规模的高质量数据集。所有数据均经过端上系统和云上系统的自动化校验、审核,并最终由人工审核员逐一审核。

该数据集发布后,受到了广泛关注。其特色是,开始走向更现实的场景,如日常生活、服务业(餐饮)、办公环境、工厂等,任务也相对长程,不是简单的桌面拾取。它可以由十几步原子动作组合而成的长程任务。这些长程任务对于训练机器人的“大脑”至关重要,对于通过模糊指令进行准确的拆解、理解、推理和规划,并提供“中脑”和“小脑”执行具有意义。

最终发布了AGIBOT World这个包含一百万条机器人轨迹所构建成的数据集。它发布后受到了广泛关注,发布一周多在 GitHub 上就获得了超过 1000 颗星,这个成绩在机器人数据集领域是相当可观的。例如,谷歌的 OXE 数据集发布一年左右是 900 多颗星,而我们上线一周已出现 1200 颗星,现在已经超过 2000 颗星。

数据集在Hugging Face上发布之初,也连续蝉联了Trending榜单的第一名。我们这颗“种子”确实为“沙漠”带来了一片绿洲。许多顶级团队和领先的创业公司都使用我们的数据集,开始作为他们学术创新的土壤,包括英伟达、谷歌数据DeepMind、Physical intelligence以及国内的众多合作伙伴。

在使用过程中,他们也提出了许多宝贵的意见,督促我们在数据质量和硬件设计上不断迭代。例如,今年3月,英伟达在年度GTC大会上发布了两个模型,一个是机器人具身基座模型Project GR00T和机器人推理模型Cosmos Reasoner。其中80%的训练数据使用了AGIBOT World。同时,一些硅谷大厂和Hugging Face 、OpenDriveLab团队的专家领袖也对我们进行了积极报道。OpenDriveLab甚至主动为我们的数据集开发了许多二次工具,方便社区加载、转换、使用和可视化。我们非常感谢社区的反馈与支持。

在数据道路上,AGIBOT World数据集只是第一步。它为大家提供了大规模数据集来验证“Scaling Law”,但我们的创新没有止步。除了这个百万真机的预训练数据集,我们还有一个对应的数字孪生的AGIBOT Digital World仿真数据集,我们创新性地引入了后训练数据集以及机器人在真实环境下自主执行、自主进化的数据采集方式。

首先是“对抗式采集”的后训练数据。这意味着在常规的遥操作采集过程中,我们会引入干扰。额外的工作人员将对数据采集机器人进行“捣乱”,在同一条数据采集中访问更多的物理状态和语言指令。

干扰不仅包括移动物体或拿走东西,还会在过程中改变语言指令,例如中途突然改变指令将东西放在另一个地方。这在相同的数据采集时间里,提供了数倍的信息密度。更大的信息密度有助于机器人训练的更快收敛。我们已经在多种任务和结构模型上,对比了对抗式数据采集和原始采集方式的效果,发现模型的迭代和收敛速度能提高数倍。

然而,对抗式数据采集仍带有一定的人为设计痕迹,所有的扰动都是预先设定的。我们知道,机器人要真正落地,必须解决在环境自主执行过程中遇到的 1%甚至1‰的长尾失效问题,而这些问题很难被百分之百地穷尽。

因此,我们引入了“自主进化式”数据采集。其原理是,当机器人在自主执行过程中发生失效时,我们可以及时接管、打断,甚至回退到失效前的状态。然后通过人工接管的方式,促使顺利完成采集。这些“难场景”和“高价值”数据会不断补充到原始训练数据集中,使得数据分布的边界不断拓展。这些拓展的边界都是最有价值、最高效的数据分布。

基于这样的数据扩增,我们不断提升机器人能力上限。这种方式在其他领域,包括机器人领域的模仿学习中,也有类似的概念,称为“Dagger” (数据集聚合)”,即让数据集以自主进化的方式不断补充。

前面我们分享了许多关于数据的经验和沉淀。有了高质量的数据后,下一步的核心就是如何消费这些数据,让机器人能够从人类视角学习动作,深层次地学习物理规律和世界的运作方式。

这是一个非常宏大的命题。语言是一种高度抽象的信息集合,我们用几十万个“token”符号化将整个世界抽象为逻辑符号。但真实的物理世界是连续、开放的,物体的种类不胜枚举,每个物体都有自己的材质和物理规律。这才是物理AI机器人需要从广泛数据中学习到的深层次、基础性的能力。

基于前面提到的AGIBOT World数据集,以及我们的后训练和自主进化采集方式,我们在今年3月发布了行业内首个设备本体智能基座模型GO One(Genie Operator One)。

我们之所以能最先发布,也是因为后数据采集时间较早。后续我们看到各家机器人厂商和大厂也陆续发布了自己的基座模型。

在GO One模型中,我们在架构上相对传统Villa模型引入了一些创新元素。首先,它基于ViLLA基础模型和MOE(混合专家)架构。

第一个专家是一个“Latent planner”,它基于海量数据,通过一种自监督生成式的学习方式,在隐空间中形成通用的表达。这可能不是基于人类对动作的划分或语言,而是一种基于隐空间的离散式动作码表。

在自监督生成式训练过程中,它能够很好地吸收多种数据来源,包括大量的互联网文本、静态图文、异构机器人本体的训练数据(即AGIBOT World范围外的众多机械臂机器人数据),甚至包括第一视角下人类操作的视角数据,以及仿真环境和真实物理世界的真机数据。通过这种方式,它能够有效融合整个数据“金字塔”。

第二个专家是“Action predictor”。因为除了通用的动作表征还不够的。机器人与语言模型的区别在于,语言是全人类共同的词库作为载体,但现阶段的机器人有多种形态,通用型、专用型、不同自由度、不同执行器的设计。因此,要落地到某个特定的机器人本体、面向特定的作业任务时,我们需要现实动作专家,将通用的动作描述和ViLLA模型提取的表征环境转化为,用于对特定本体的精确控制。

GO One模型发布后,我们同时在真实场景中进行了评测。与以往基于学术数据集的简单桌面评测不同,我们在生活、零售甚至工业场景中进行了真实评测。与发布的第一开源模型相比,其成功率提升了30%到10%不等。

除了成功率评测,我们近期也在网上发布了关于机器人Scaling law的研究。在语言模型中,我们只要看到数据量、计算量和模型参数不断提升,模型效果就能持续突破。由于我们现在有了可观的数据,因此也可以在机器人领域进行验证,看物理AI是否也具备相同的路径。我们发现,针对多种下游后训练任务,如果在预训练阶段引入不同数量的预训练数据,最终的后训练效果可以获得显著的提升。

同时,我们还发现,预训练阶段不仅数据的质量、绝对数量关键,多样性也同样关键。相同数量的预训练数据,用单一数据训练任务的效果,不如用多任务数据混合在一起进行预训练的效果好。

在这篇Scaling law的文章中,我们还做了一个有趣的实验。过去一段时间,大家对机器人“一脑多行”的概念很感兴趣,希望有一个通用的具身智能基础模型,在经过海量预训练后,能够达到快速、低代价地适配到多种异构地机器人本体上进行落地。

最初,在预训练阶段引入更多本体类型可能是一个好的主意,这样才能更好地适配后续各种各样的本体。但我们做的实验是,预训练只使用AGIBOT World中的智元GO One机器人本体,我们发现,该模型同样可以在其他本体上进行泛化。

例如,针对叠衣服这种有一定长时间、需要转向柔性机器人进行操作,并且可能需要纠错的双臂灵巧任务,在AGIBOT World上预训练的模型,只需通过100到200条数据,就可以在类似松灵、方舟、Franka等机器人上获得很好的叠衣服效果。这是什么概念?100到200条数据,转换成时间总共大约只有一到两个小时的后训练数据。过去许多基座模型练习叠衣服时,预训练阶段往往引入了数千小时叠衣服的数据,当然训练也是为了适应更多的衣服种类和失效状态。现在我们,在一个不相关、没有引入叠数据衣服的机器人本体上进行预训练,在后训练过程中只能用一小时的数据,就在多款从未在预训练阶段见过的本体上看到叠数据衣服。这确实令我们感到意外。

同时,我们将单一本体的预训练数据训练与OXE这样的多本体预训练数据训练进行了对比。结果发现,在AGIBOT World这个单一本体预训练数据上训练出的基座模型,其后续训练迁移效果反而更好,无论是后续训练效率还是最终成功率。

这表明,对于机器人的预训练来说,最重要、最本质的或许是数据的多样性和数据质量的可靠性。如果满足这两点,本体的多样性可能并不是最关键的训练因素。当然,这可能也与模型本身的设计有关,就像我们前面提到的,我们在模型设计中引入了第一阶段的自监督式生成式预训练,让它能够剥离本体,学习一种通用的动作表征。

前面我提到了语言动作模型ViLLA模型。除了这个之外,我们也在积极探索另一个方向,即最近很火的“世界模型”。为什么呢?从过去人工智能的发展来看,现在有一个思考叫“生成理解一体化”,这也引用了著名物理学家费曼老师的一句话:我无法创造的东西,其实我并没有很好地理解。我们认为这很有道理。对于机器人和反思我们人类自身来说,能做好一件事,是因为我们在做之前,思维中已经有了清晰的规划,甚至能够进行的推演。如果今天让你去叠一件衣服,你在折叠,思维里已经有了清晰的画面,知道怎么叠、最终叠成尺寸有多大,可以栩栩如生地推演出来。

对于机器人而言也一样。如果你能在脑海中、在世界模型中进行精准的推演,那么它离真正上手执行的距离可以大大缩短。因此,依托世界模型,让一部分机器人先“想象”起来。这里的“想象”不是做梦,而是能够通过生成动作的方式预见未来,预见执行动作后环境的变化。

我们整个世界模型的框架称为Genie Inventor,它包含几个组件。

第一个是GE Base,它是一个通过AGIBOT World海量数据和其他机器人数据进行预训练而产生的基础生成式模型。与普通的视频生成模型不同,它针对机器人场景,强调几个关键特色:首先是物理必须真实,对物体的交互不能似是而非,不能“穿模”或违反物理规律;其次是必须具备长程推演能力;最重要的是,机器人配备了多种传感器设备,各个相机在同一时刻对环境的捕捉必须一致。这也是我们通常称为“4D世界模型”的原因,是在3D世界+时间,多个相机渲染出一致的画面。

另外两个组件是GE Act和GE Sim。GE Sim是一个Word Action Model,能够用动作来引导生成。我给定一个动作执行序列后,它能像一个模拟器一样,精确推演整个事件后续的过程、环境和自身的变化。

GE Act则相当于ViLLA模型,给定初始环境和指令后,它可以规划出自己的动作,可能是关节控制,也可能是后续位置规划,最终都可以部署到真机上执行。

我们的一项重要工作是Bench mark。目前,世界模型领域仍处于“百家争鸣”的状态,对于机器人的世界模型来说,还缺乏一个广泛、科学、严谨等的评测标准。因此,我们围绕动作遵循度、时空一致性、语义合理性方面,发布了一个全方位的评测标准。这个标准也将作为今年在IROS举办的AGIBOT World挑战赛中,世界模型的评价标准。

GE Act世界动作模型将视频能力作为引导,最终生成动作。为了能高效、实时地部署在机器人端侧,我们对视频生成部分进行了提效,采用单步去噪的方式进行生成,通过动作生成部分生成精确的动作控制。

在智元的机器人本体上,我们也进行了多任务测试,相比于自己近期发布的开源模型Uni VLA,以及英伟达的Groot模型,都有一定程度的提升。AGIBOT World Dataset被用于训练世界模型的GE Base,它是否也像VLA模型一样具备跨境本体迁移能力?我们进行了一些测试,发现在Franka和松灵等本体上,它能够有很好的迁移效果。无论是Libra、Calvin等仿真开源Benchmark,还是在一些真机任务上,我们都比现有的开源模型有明显的提升。

这里有一个演示,是我们基于世界模型最终生成的动作效果。它可以完成叠衣服、制作复杂纸盒等长程双臂灵巧任务,也可以在工业传送带上进行目标的牵引和物资回收等动作。我们发现,相比于VLA这种短时序、短动作输出的动作模型,GE Act由于具备世界模型的长推理推演能力,在动态场景的准确率和抓取定位精度上有一定的优势。

除了GE Act,我们还提到了GE Sim。它不生成动作,但可以将动作作为输入。我给定机器人即将执行的一串动作序列,它能够精确地预测接下来要发生的事情,就像一个模拟仿真器。

从左边的画面可以,看到下面的圆点和坐标系是我们给定的机器人动作序列末端位姿。而上面的画面,不是自己的录制,而是完全由我们的世界模型GE Sim渲染出来的。而且是在一些凌乱、恐惧的真实环境中,在摊位上取东西。所以,我们看到它在物理遵循上,可以夹取形变的物品,同时避免影响周围环境,这就是我们所说的时空一致性。它还能保持语义的合理性,例如夹取一个东西后,会“想象”出来应放购物车里,而不是扔到地上或消失。这就是GESim作为模拟器应该具备的基本能力。

右上角的图比较小,我们进行一些对比,将一个明确的动作轨迹同时给出真实的机器人模型和GE Sim的生成式模型进行推理。最终我们发现,执行出来的整体效果基本一致,达到了非常高的还原度和拟真度。这不仅是定性的,在定量评测效果上,真机评测和GE Sim生成世界模型体育仿真器的成功率也非常接近。这是一个非常重要的结果,因为机器人评测是一个相对复杂的过程,涉及工程序列开发部署、硬件维护调试,甚至可能在测试过程中对机器人和环境造成损失。如果有了这样一个基于神经网络生成式模型的仿真器,我们就可以快速迭代机器人的策略,大大加快整个模型的研发周期。

这项工作已在 GitHub 和 Hugging Face 上开源,参加今年 IROS 世界模型挑战赛的团队已开始使用该 Benchmark 前期准备。我们围绕着遵循度进行、语义合理性、因果一致性等方面进行了多维度数据。目前,用机器人数据预训练的 GE base模型,在这个 Benchmark 上,相比于目前主流的视频模型生成,在其他各项上都有明显的领先。

前面介绍了我们在硬件、数据和模型上的一些实践和心得。最后,我认为一个飞轮转动后需要一些沉淀。我们还模仿了理查德·萨顿的“苦涩教训”。每一个深入做这个行业的同行,都会有撸起袖子干活的惨痛回忆。最终我们发现,机器人本质上还是要回归到执行器上,因为它是一个驱动电机的东西。好地执行器能够提供高的控制频率、低的跟随延迟、高的重复/绝对定位精度。

传感器也至关重要。我们需要像人一样的多模态感知,现在主要的机器人依赖视觉甚至激光雷达,但未来一定会需要更多形态的输入传感器,包括指令、力觉,甚至瞄准、毫米波等所有能利用的感知信息。

但这是一把双刃剑。有了那么多传感器后,如何进行精准调校? 无论是时间同步还是空间标定,以及多机一致性,过去都是大规模量产的一个大问题。生产1万台机器人,每台机器人必须一致,这非常重要。我们听到很多科研朋友吐槽,早期的机器人远未达到车规级标准,一致性很差,毫无标定和时间同步可言。在一台机器人上完全采集数据训练的模型,在另一台机器人上完全没用,可能一台能运行80分的模型,在另一台机器人上只有10分、20分。

另外,还有本体构型。虽然有许多讨论认为具身智能必须做成人形,但我认为在不同的行业有其最优化构型。但如果我们只能做一款机器人,我相信人形仍然是一个合理的比较的“最大公约数”。同时,在数据采集中(如遥操作)等方面,一个更拟人的本体,能带来更高效率的数据采集。在许多为人类设计的工作环境中,类人本体也能更高效地完成作业任务。

过去我们曾在超市拣货中使用协作臂等构型,发现其手腕太长,会受到有限的空间限制。但如果机器人类人、灵活地腕部形态,它可以在支架上进行许多精巧的操作。在过程中我们发现,具身智能应该是“机器人+AI”,而不是“AI+机器人”。并非先有一个简单的空想的大模型,随便找个本体就能解决问题,更多还是要从模型出发,结合硬件和本体进行设计。因为一个本体构造型及其高自由度,是很难被一个模型所取代的。模型基本上是围绕本体设计才能好的进化和迭代。

最后,我们想分享的是,这是一个复杂的系统。你在设计、生产制造、软件、数据和模型处理链路上,所有的误差最终都会成为一个巨大的枷锁,会被逐级放大。这也是我们追求量产和一致性的原因,需要在生产、设计和执行的各个环节将误差减少到最小。这就是量产的意义和数据共享的基础。

前面提到的第一轮飞轮转动的苦涩教训,也吸收了我们新一轮飞轮的迭代中。在今年下半年,我们将围绕这些经验教训和场景理解,推出新一代智元机器人,AGIBOT G2。这一代平台将引入更灵巧的本体设计,对所有传感器、执行器有更高的设计标准。同时,搭载英伟达Thor等高算力、可量产的域控制器。我们将其定义为工业级交互式具身智能的全球标杆平台,希望大家能关注我们的产品。

总结来说,每一次的数据、模型、本体、场景的飞轮转动,都是为了让许多具身智能行业能够赋能千行百业更进一步。我们在过去一年中的实践,让我们在许多行业做了探索,并取得了一定的突破。比如柔性制造场景,工业自动化设备已经解决了大部分问题,但我们要解决专业设备还不能解决、需要人工来完成的问题。我们尝试用具身智能的泛化性和灵巧性来解决。这是一个在生产线上对精度、力控和泛化性要求高的操作场景。

第二个是物流分拣场景。在上个月的另一个大会上,我们进行了长达两小时的全球直播,展示了通用机器人与现有自动化设备的良好配合,各自发挥所长。利用具身智能的端到端的方式,解决传统视觉定位和规划无法完成的柔性、各种尺寸外观、堆放杂乱的物品分拣,同时在过程中需要进行一定的“思考”,例如将条码准确翻面后传送带上。此外,还有其他场景,比如安检岗点的人力清零,以及在电力通信行业的机房中进行巡检。巡检不仅仅检测,还能用灵巧的双手和双臂进行机柜操作,在危险场景下替代人力,实现降本增效。

最后,我们认为具身智能是中国“新质生产力”的代表,更是中国与全球需要并肩探索的智能边疆。

浏览 (31)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金:嘿,小伙伴们,今天要和大家聊聊的是一位超级有想法的评论员——咱们的智元机器人总裁姚卯青!他在2025世界机器人大会上狠狠地秀了一把智元的具身智能“飞轮”哦~想象一下,机器人要像人一样工作,可不是件简单的事儿,特别是要克服数据荒漠的挑战!姚总说,他们的“飞轮”由本体、数据、算法和应用紧密相连,就像机器人身体的四部分,缺一不可。 他提到的数据挑战,哎呀,那可真是让人心疼的“沙漠里种树”!但他们发布了那个叫AGIBOT World的数据集,就像沙漠中的绿洲,一下子吸引了全球的目光。那个数据集有百万条轨迹,涵盖了日常生活、工厂环境等各种复杂场景,可不是简单的小任务哦! 而且,他们的数据采集方法还很聪明,对抗式采集和自主进化式数据,让机器人学习变得更高效。听着是不是就觉得厉害?更棒的是,他们的GO One模型和Genie Inventor世界模型,简直是智能机器人的大脑,让机器人能理解物理世界,提前规划行动,厉害得不得了! 姚总的工作真是让人心生
点赞
评论
到底啦