AIGC开放社区
发布于

清华、北大,上海交大等发布人机协同训练框架,让机器人零样本学会新技能

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

机器人学会了一个新动作,因为它刚刚看懂了人类是怎么做的。

清华、北大,上海交大、武汉大学等发布人机协同训练框架MotionTrans。

这个框架通过一个巧妙的翻译系统,让机器人能直接从普通VR设备记录的人类数据中学习并执行复杂的任务,甚至在从未见过相关机器人演示的情况下,零样本学会了全新的人类动作。

人类数据是机器人最好的老师

机器人模仿学习已经走了很远,但它始终面临一个核心困境:数据。

训练一个能干的机器人,需要海量的、高质量的真实机器人演示数据。收集这些数据是一个极其昂贵且耗时耗力的过程,它像一堵无形的墙,限制了机器人操作能力的飞跃。

想象一下,为了教会机器人拧瓶盖,你需要一遍遍地控制机械臂,从不同角度、用不同力度去完成这个动作,并记录下每一个细节。现在,把这个过程乘以成百上千个不同的任务,成本之高可想而知。

为了绕过这堵墙,研究者们开始寻找新出路。

互联网上的海量图片和文本,成了机器人理解世界的重要知识库。通过学习这些数据,机器人学会了识别物体(比如苹果和香蕉的区别),理解指令(比如把苹果递给我)。这解决了看和听的问题。

但机器人操作的核心,是动。

运动知识,也就是如何精确地控制自己的身体去与世界交互,这种知识在互联网上是稀缺的。图片和语言无法告诉你,拿起一个鸡蛋需要多大的力,擦桌子需要怎样的轨迹。

这时,人类数据展现出独特的价值。人类是天生的操作大师,我们的日常行为中蕴含着无穷无尽、复杂多样的运动智慧。如果能把这些智慧移植给机器人,无疑将极大加速它们的学习进程。

过去的一些尝试,像是给机器人戴上了有色眼镜。

它们通过分析人类演示,提取一些中间层的、抽象的表示,比如物体的可供性(一个杯子是可以被握住的)或者关键点的运动轨迹。

这些方法确实有帮助,但这个中间表示的过程,就像是在人类和机器人之间增加了一个翻译官。这个翻译官虽然能传达大概意思,却也过滤掉了许多精妙的细节,并且使得整个学习流程变得复杂,难以和当前主流的、更直接的端到端学习框架兼容。

技术的进步,尤其是VR(虚拟现实)等可穿戴设备的普及,为我们打开了一扇新的大门。

现在,我们可以非常方便地捕捉到人类精细的手部姿态数据。

于是,新的思路诞生了:能不能跳过翻译官,让机器人直接学习人类的母语——运动本身?

一些研究开始尝试将人类运动数据和机器人数据放在一起进行联合训练。

这些探索证明,人类数据确实能帮助机器人提高视觉定位能力、增强对环境变化的鲁棒性,并提升训练效率。

但一个最核心、最激动人心的问题始终悬而未决:机器人能否仅仅通过学习人类的演示,就直接掌握一项它从未做过的新动作?

这正是MotionTrans要回答的问题。它不满足于间接的辅助,它的目标是实现直接的、运动级别的技能转移。

核心在翻译:把人类数据变成机器人语言

MotionTrans的逻辑是:要想让机器人看懂人类数据,首先要把人类数据翻译成机器人能理解的格式。

一旦翻译完成,人类的演示就变成了机器人的补充教材,可以和机器人自己的数据无缝衔接,共同训练一个统一的策略模型。

这个策略模型因为在机器人的语言环境下学习,所以训练完成后,可以直接部署到真实的机器人上,去执行那些它从未执行过的任务。这就是从人到机器人的直接运动转移。

整个过程可以拆解为几个关键步骤。

首先是数据采集。为了实现人机协同训练,我们需要两套数据:人类的,和机器人的。

收集人类数据变得前所未有的简单。

研究人员使用一台便携的商用VR设备,比如Meta Quest 3,任何人、任何时间、任何地点,都可以成为数据的贡献者。

这套系统不仅记录了VR头显中佩戴者的手部关键点、手腕姿态,还通过一个固定在头显上的RGB摄像头,同步录制了第一人称视角的图像。

为了保证数据质量,系统在VR视图中提供了实时反馈。

一个框会提示你的手是否在摄像头的拍摄范围内,另一个指示器则会告诉你VR设备捕捉到的手部姿态是否与你的真实手部精确对齐。

你甚至可以用一个简单的手势,随时终止并放弃不满意的录制。这种高效、低成本的数据收集方式,为获取大规模、多样化的人类操作行为数据铺平了道路。

收集机器人数据则采用更传统的遥操作方式。操作员戴上VR设备,他们的手部和手腕动作被实时捕捉,并同步驱动一台机器人去复现这些动作。

通过这两个系统,团队构建了一个名为MotionTrans的数据集。

这个数据集包含了3,213个演示,涵盖了15个人类任务和15个机器人任务。

重要的是,这两组任务集是完全不重叠的。

比如,人类数据里有拔掉充电器、擦毛巾等动作,而机器人数据里则有把面包放到平台上、把胶带放到盒子里等。

数据集中的任务覆盖了拾取、放置、倾倒、擦拭、推动、按压、打开等一系列丰富的技能。

有了原始数据,接下来就是最关键的翻译环节。

从VR设备采集的人类数据,其坐标系、动作格式都与机器人数据截然不同。为了让它们能在同一个模型里训练,必须进行格式塔转换。

转换的核心是统一观察-动作空间。这个空间由三部分构成:图像观察、本体感受状态(你可以理解为机器人的身体知觉,比如关节角度、末端位置)和动作指令。

对于图像观察,人类和机器人都采用第一人称视角。这样,当执行相似任务时,看到的物体空间关系也相似,使得完成任务的动作得以对齐。

对于手腕姿态,统一使用相机坐标系。无论是人手还是机械臂,其位置都是相对于拍摄图像的那个相机来定义的,确保了空间定义的一致性。

最棘手的是手部关节状态的转换。

人手有20多个自由度,而机器人灵巧手的设计各不相同。这里,研究人员使用了一个名为dex-retargeting的开源库。

它像一个聪明的翻译,通过一个基于优化的逆运动学求解器,能够将捕捉到的人类手部关键点位置,实时地、高精度地映射成机器人灵巧手的关节角度。

经过这番转换,人类的演示数据就变得和机器人数据格式完全一样了。你可以直接在真实机器人上重放这些转换后的人类轨迹,就像播放一段为它量身定做的录像。

在重放过程中,研究人员发现了两个关键差异。

第一,人类的动作速度远快于机器人。

过快的速度对机器人来说可能是危险且不稳定的。解决方法很简单:插值。通过在姿态和关节状态之间插入更多的中间帧,将人类数据的速度减慢了2.25倍。

第二,人手和机械臂的舒适工作区存在差异。

即使在同一个相机坐标系下,人手习惯活动的位置分布,也和机械臂的最优工作范围不完全重合。为了弥合这个差距,团队采取了两个策略。

不使用绝对位置作为动作指令,而是使用基于动作块的相对姿态。举个例子,即使人手和机械臂的起始位置不同,但如果它们都向前移动10厘米,这个相对动作指令是完全相同的。这大大降低了对绝对位置的依赖。

鼓励数据采集者在录制时多变换视角,这增加了相机与目标物体的相对位置关系的多样性,迫使模型学会适应更广阔的工作空间。

最后一步,是如何将这些处理好的人类和机器人数据喂给模型。

MotionTrans探索了两种当前非常流行的端到端策略架构:Diffusion Policy (DP) 和视觉语言动作模型 π0-VLA。

DP模型像一个高斯噪声的画家,通过一步步去噪来生成未来的动作序列。而π0-VLA则更强大,它集成了大规模预训练的视觉语言模型,不仅能看懂图像,还能理解人类的自然语言指令。

训练中一个至关重要的细节是统一动作归一化。

在机器学习中,对输入数据进行归一化(比如Z-score归一化)是常规操作,可以提升训练稳定性。以往的人机协同训练,通常对人类数据和机器人数据采用各自独立的归一化标准。

MotionTrans坚持采用统一的归一化标准,跨越人类和机器人所有数据,确保了度量衡的统一。

考虑到人类和机器人数据集的大小可能不平衡,训练时还采用了一种加权策略。通过一个权重系数α,来平衡两部分数据在总损失函数中的贡献,确保模型对两边的知识雨露均沾,不会因为某一方数据量过大而产生偏见。

通过这一整套精心设计的数据采集、转换和训练流程,Motion-Trans为实现直接的、运动级别的技能转移奠定了坚实的基础。

机器人零样本学会了人类的动作

实验结果验证了MotionTrans的有效性。在零样本(Zero-shot)设定下,模型仅使用MotionTrans数据集进行训练,然后直接部署到真实机器人上,去完成那13个它从未见过机器人演示的人类任务。

结果令人振奋。

在13个任务中,有9个任务实现了有意义的成功率。

比如在把橙子放入桶中(Orange-Bucket)这个任务里,无论是橙子这个物体,还是桶这个目标容器,都从未在机器人训练数据中出现过。

但模型依然能够成功地拿起橙子,并将其放入桶中。这证明了模型不仅仅是学会了简单的拾取和放置,而是实现了任务级别的泛化。

其他成功的任务还涵盖了倾倒、拔出、提升、打开和关闭等多种动作。

即使在一些成功率不高的任务中,比如拔掉充电器,模型在失败的尝试中也始终表现出正确的运动趋势。

这就引出了第二个发现:即使任务失败,机器人也学会了有意义的运动。

为了更精细地评估这一点,研究人员引入了一个运动进展分数(Motion Progress Score)。

这个分数不只看结果,更关注过程。比如,一个机器人虽然没能成功拿起杯子,但它准确地伸出手臂到达了杯子旁边,那么它的得分就应该比一个一动不动的机器人要高。

实验结果显示,在所有13个任务上,模型的平均运动进展分数都达到了0.5左右(满分1.0)。

这意味着,对于所有任务,机器人至少都学会了完成任务的部分子流程。比如,在擦毛巾(Wipe Towel)任务中,机器人学会了向前推动毛巾;在按压订书机(Press Stapler)任务中,虽然机器人数据里没有订书机,但它依然表现出了接近订书机的行为。

这证明,通过学习人类数据,机器人获得了识别新物体并与之交互的意图。

少量样本即可引爆性能

零样本转移已经足够惊艳,但MotionTrans的价值不止于此。

在少样本(Few-shot)微调的场景下,它的优势被进一步放大。

所谓少样本微调,就是假设我们可以为那些人类任务,收集极少量的(比如5个或20个)机器人演示数据,然后在预训练好的模型基础上进行微调。

实验结果清晰地显示,使用MotionTrans完整数据集预训练过的模型,相比于从零开始训练的模型,在微调后的平均成功率上提升了约40%。无

论是在5个样本还是20个样本的设定下,这个巨大的优势都稳定存在。这说明,人机协同预训练为下游任务的微调提供了极其宝贵的运动先验知识。

为了探究这个优势的来源,研究人员还对比了只用机器人数据预训练和只用人类数据预训练的效果。

结果发现,人机协同预训练(MotionTrans)的效果最好。其次是只用机器人数据预训练,效果最差的是只用人类数据预训练。

这个排序很有启发性。在预训练阶段,机器人数据提供了与最终部署时完全一致的身体信息,即便任务不同;而人类数据则提供了与最终任务完全一致的任务信息,但身体不同。

实验结果表明,在预训练中,保持身体(embodiment)的一致性,比保持任务的精确匹配更重要。因为不同机器人任务之间的运动模式也存在共通性,这些共通性可以有效地迁移到新的任务上。

运动转移的秘密:插值与泛化

MotionTrans是如何实现这种神奇的运动转移的?

研究人员通过一个精巧的案例研究,揭示了其背后的机制。

他们选择了一个在零样本实验中成功率很高的任务把面包放入桶中(Bread-Bucket)作为研究对象。他们关注一个具体的动作维度:物体放置的高度。

在训练数据中,有三个与面包相关的任务:

1.  人类数据: 把面包放入桶中(H-bucket),放置高度约为15.3厘米。

2.  机器人数据: 把面包放到一个薄垫子上(R-pad),放置高度约为0.3厘米。

3.  机器人数据: 把面包放到一个高平台上(R-platform),放置高度约为20.7厘米。

实验结果非常清晰:

  • 如果只用人类数据(H-bucket)训练,成功率为0。

  • 如果加入低处放置的机器人数据(R-pad),模型会将面包放在桌面上,而不是桶里。

  • 如果加入高处放置的机器人数据(R-platform),模型会尝试把面包抬高,但高度不够,成功率只有30%。

  • 只有当同时加入低处(R-pad)和高处(R-platform)的机器人数据时,模型才能准确地将面包放入中等高度的桶中,成功率飙升至80%。

这个实验有力地支持了一个假设:运动转移是通过插值实现的。

模型通过学习机器人数据,掌握了自己身体的安全操作范围(比如,它可以把物体放在0.3厘米到20.7厘米之间的任意高度)。

然后,当它看到人类演示中把面包放入桶中这个任务时,它理解了任务的目标。

在执行时,它并没有盲目模仿人类的动作,而是在自己已知的、安全的动作空间内,通过插值,生成了一个全新的、既符合任务要求(放入桶中),又适合自己身体(高度在0.3到20.7之间)的动作。

人类数据教会了它做什么(任务感知),而机器人数据教会了它怎么做(身体感知)。两者的结合,才催生了这种强大的泛化能力。

视觉感知的转移也同样重要。

通过Grad-CAM等可视化工具分析模型的注意力,研究人员发现,无论是在处理人类数据还是在机器人上部署时,模型的注意力都高度集中在当前正在操作的物体上。

这表明,模型学会了跨越身体的差异,来识别和关注任务相关的物体,实现了视觉能力的有效迁移。

最后,随着训练数据量的增加,模型的零样本性能也稳步提升,这符合我们对机器学习的普遍认知:更多、更多样的数据,能带来更强的泛化能力。

MotionTrans框架及其背后的发现,为机器人操作策略的学习开辟了一条充满希望的新路径。

它证明了直接从人类数据中进行运动级别的学习是完全可行的,并为如何有效利用这些宝贵数据提供了清晰的框架和原则。

这项工作的所有数据、代码和模型都已开源。

参考资料:

https://arxiv.org/abs/2509.17759

https://motiontrans.github.io/

https://github.com/michaelyuancb/motiontrans

浏览 (17)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,AIGC开放社区的作者大大,探小金来啦!🎉 你们这篇《清华、北大,上海交大等发布人机协同训练框架,让机器人零样本学会新技能》的文章真的太棒了!😱 想象一下,机器人直接从人类动作中学习新技能,就像我们从小看别人做菜就会做饭一样神奇呢!🤖🍳 那探小金有个好奇,你们这个MotionTrans框架,除了机器人技能学习,还能在哪些领域大显身手呢?😉💡 一起聊聊吧!👭🎈
点赞
评论
到底啦