腾讯科技
发布于

清华FAIR赵行、高阳、吴翼三教授讨论AI前沿:仿真数据是伪命题?ChatGPT Agent不惊艳?

文|博阳

编辑|郑可君

2025年7月27日,在WAIC 2025(世界人工智能大会)上海期智研究院人工智能交叉科学论坛结束后,我们有幸与清华大学交叉信息研究院(FAIR)的三位青年教授进行了一场深度对话。

参与本次交流的三位教授分别是:赵行,专注于具身智能与机器人学习;高阳,在强化学习与世界模型领域有深入研究;吴翼,OpenAI前研究员,现专注于AI Agent系统的理论与应用。

三位老师均来自清华大学交叉信息研究院(FAIR),该院由图灵奖得主姚期智院士创立,是中国人工智能基础研究的重要阵地。

本次对话围绕当前AI领域最前沿的几个核心议题展开:从Sergey Levine在论坛上提出的《人工智能的叉勺》(Sporks of AGI)引发的合成数据争议,到具身智能中仿真与现实的鸿沟问题;从强化学习在后GPT时代的新机遇,到世界模型的长期价值判断;从AI Agent的技术路径选择,到商业化落地的现实挑战。

以下为对谈内容实录(经整理):

具身智能仿真数据,要区分仿真生成和传统仿真

提问:这届WAIC论坛里一个重要的讨论点就是Sergey Levine的《人工智能的叉勺》(Sporks of AGI)的文章,他认为合成数据可能应用有限。

赵行:我们在训练中不使用合成数据。

这也是自动驾驶的一个经验。在自动驾驶中,大家用的数据都是人在车里开车,然后车把这个信息给记录下来。记录下来进行训练后,这个车就自己开了。就是这样的一个数据,达到这个现在大概L2+到L3左右的自动驾驶能力。

在自动驾驶行业过去做仿真的这些工作都非常多,到现在应该都不太可能了。在业界几乎没有人对于自动驾驶仿真进行讨论,基本上仿真数据都是用在场景测试。

测试主要是指,如果有一些场景可能在很多真实场景中出现,所以我在仿真里也希望这个仿真的场景去接近于复刻这个真实场景,并且能够稳定地把复现的知识进行测试。这个是自动驾驶发展中仿真有用的地方。

在机器人里,我操控着机器人去做事,然后这个机器人把我的动作记录下来了,然后我人离开,机器人都自己能做这个事情。如果大家认为机器人和自动驾驶是一个很像的事情的话,我觉得大概机器人也要复刻自动驾驶的主流路线。仿真可能主要是在测试环节有用。

提问:但是创世纪人工智能(Genesis AI)也是用的合成数据,最近融资表现很不错。

赵行:创世纪人工智能(Genesis AI)的原则还是不一样的。

我们刚才说的仿真还是经典的传统的仿真,就是这种基于图形学构建的、手工复刻真实世界的方案。

我觉得GENESIS还是一个更加偏探索性的更加有突破机会的技术路线,因为它是通过生成达成的仿真。它的数据来源还是真实数据,通过这个生成式的仿真器能够放大出或者生成出更多的类似真实世界的数据。

这种技术路线我觉得倒是更有突破的机会。相比之下,基于人的手工制作的这种仿真器的技术路线,我觉得当下看来有没有特别大的突破上限的机会。

高阳:关于仿真,大家都会用。只不过这个仿真用处主要是用来做这个模型的评测。

真实真机的评测是主要指标,但是在真机做实验之前,我们大概就会用这个仿真做一个初步的评测,或者说做一个快速得到反馈的评测。

具体来说,我们的实际发现就是在仿真里好的这个东西就可以上真机,但是如果仿真里就不太行的东西也就没有上真机的必要了。但是在仿真里有效的东西,即便是100%成功率的,在真机上有可能是个0%成功率的表现。这个是一个实际的观察。

提问:那仿真数据是否可以做到降低成本?

赵行:对于这个问题,成本降低在哪里,是降低在训练还是降低在测试?

我觉得对于测试的降低是可以去估计的,但是对于训练的降低我觉得是几乎没有帮助的。

但是如果帮助机器人测试的话,我觉得也是一个有价值的东西。就像自动驾驶,我们尽量希望在仿真里进行了完善的评测以后才去上路做真机的测试,希望能够尽量降低我们无谓的风险。

提问:那英伟达的仿真平台的意义在哪里?

赵行:英伟达的NVIDIA Isaac Sim应该是仿真用的最多的。其实它的底层也并不是英伟达自己的,它给大家的是很多开源库等等的一个结合。

它更多是搭建了一个平台去把一些经典的图形学或者说一些物理仿真的工具都集成进来,并且帮助大家做好了这个GPU计算的加速。

这是英伟达提供的最大价值。

提问:那个仿真其实还是一个手工的,模拟物理的环境是吧?

赵行:对,我觉得英伟达其实提供的价值不是这些,更多还是说能够加速,去更快地做这个仿真。提升这个效率,并且它也支持各家机器人的模型接入。

他作为一个中间商,把做物理引擎的、做图形学的人的技能给集成进来,然后也把机器人的模型集成进来,然后给大家加速计算。

所以核心来看,因为他并不是做一个仿真公司,他并不是说他真的在做一个仿真器。我觉得他还是做一个中间平台的。

提问:但是英伟达训练的基础模型Groot N1,它其实也用了大概可能40%左右的仿真数据。您刚才提到这个仿真数据不是完全对训练没有用吗?那它在这个过程之中起的是什么角色?

赵行:这里还是要分清一下这个仿真的关系。

其实Groot N1应该他里面是用了一些基于生成式模型的一些训练数据、合成数据,这些生成式模型也是通过真实数据训练的。

所以这里面很难说什么是仿真什么是真实的数据。

我们看到Genesis他们现在主要的路线就是说探索合成式的方式、生成式的方式。

具身智能方面的强化学习

提问:高阳老师,仿真数据也可以用于强化学习训练吗?

高阳:我觉得这里面本质的点是说,你用这个数据它里面有什么信息。

我们本质上学数据是你想学这个信息。人手写的仿真数据为什么没有前途?因为你写的信息就是你脑子里想的信息,那么这个就遇上了费曼所讲的问题,就是你靠人类去想这个东西应该怎么去运行,它一定会遇到无数多的冲突。

因为你的仿真是人去手写,你方案是有限的。

但是另外一类的我们叫生成式仿真,比如说这些东西是有可能跨越这个限制的。

关于强化学习,现在仿真器因为它自己的局限性,你还没有办法在仿真器里训练一个模型做所有事情。

所以这是两个限制点:第一个限制点是说你不能在仿真器里做所有的事情;第二个限制点是说训练好的之后它在现实世界的迁移性不够好。

就像赵老师讲的,它在仿真器里面能成功100%,但到现实世界可能完全不行。所以你还需要跟现实的机器人做调试,可能对不同任务难度不一样,大概调试几轮到几十轮,每调一轮可能都需要重新训练一下。

第二种就是在物理世界做强化学习。这个主要的成本就是机器的物理世界运行成本,这里面比较考验你的算法的好坏。

因为强化学习它在物理世界里面其实需要很多样本,如果这个算法做得没有那么好的话,它可能需要在物理世界里跑比较久。这个就是一个综合的物理世界的人工和机器人的成本。

但是我个人觉得物理世界强化学习是一个未来,因为这样训练出来的策略它是能真的在物理世界里面百分百可靠成功的。

提问:你说它是一个未来的意思是什么?它现在还不是主流吗?

高阳:它现在还是一个技术比较快速发展的阶段,我们看到了一些比较好的一些初期的成果,但是它还没有被非常大规模地应用到产业。

提问:现在目前通过强化学习去训练机器人的方式,它是增强它的泛化性还是增强它的准确性?

高阳:一般是这样,具身智能模型训练有三个环节能力的加强。第一环节基础训练,第二环节是泛化,第三个环节是强化。强化学习特别能把模型执行任务的成功率从95%到99.9%,它的优势是这个。

提问:它对于泛化这一部分有什么帮助吗?

高阳:如果你在很多环境中做强化学习,它对于泛化也是有帮助的。

提问:需要多少数据量才能达到这种泛化?

高阳:关于数据量问题,这个东西是高度任务相关的。

对于比较简单的任务配置,在比较简单的情况下。我们发现大概用比较好的算法,大概一两百次试验,比较简单的情况下可以达到单一任务在单一环境的成功。

提问:目前强化学习在解决数据瓶颈这方面有什么前沿的研究方向吗?

高阳:其实大概分为两类:一类是对于传统强化学习算法数据效率的提升,比较有代表性的工作是一些offline的强化学习算法,提升update to data ratio等等。这些工作相当于把传统的强化学习算法的数据效率和速度提升。

另一类是利用大模型来指引策略的探索,利用大模型构建价值模型、构建策略模型,使得它能够用更少的数据去训练。

世界模型

提问:关于世界模型,我了解到它还是争议比较大。有人就认为科研可以,然后落地很难,然后也有人说它是一个一级市场的新故事。但是刚才看所有的视频,我都觉得孙老师还有包括其他老师,都还是很强调这个事情。我就想请问一下各位关于世界模型是怎么看的?

高阳:其实Genesis AI讲的就是世界模型的故事。它讲的是为所有未来的所有运动都构建一个基础的世界模型。世界模型这个东西我觉得它是一个比较长期的东西。

但是就机器人而言的话,世界模型在早期阶段并非是必要的。但是它在相当长的一段时间之后,当机器人已经可以完成相当的复杂任务后,它对于具身智能更大规模的泛化来讲是重要的。

提问:那什么时候是您觉得到那个moment?

高阳:就是机器人可以干很多很多事了,但它干啥都有点容易失败。那这时候就用世界模型去把这个东西修好,就比较合适。

因为我认为世界模型比较重要的作用就是辅助强化学习的功效。

学术上世界模型是有一个标准的定义的。学术上讲它是一个前向预测的模型。就是前向预测,比如我这么拿起手机,它被我拿起来了,然后我这么往后推,它掉下来了。

它就是预测你的一个动作或者是环境的一个变化对世界的影响。

Agent的发展与落地

提问:最近OpenAI发布的ChatGPTAgents整体的能力好像相对于之前Manus没有太大的提升。您觉得是什么原因?

吴翼:这个主要是端到端比较吃亏,它在迭代上比较慢。

只有当你模型突然有一个特别陡峭的提升,端到端的模型带来的体验才会又超越。

但如果你做产品,因为迭代很慢,其实不一定有Maunus 这种 Multi Agent 构成灵活。

当然,最终行业还是会希望能达到一个端到端的Agent形态出来,作为最终的形态。但是如果你做到产品上,它与多Agent系统,从体验上其实没有什么特别明显的区别。

所以端到端是不是一个产品迭代的最好的路径,这说不好。

Agent本质上是个软件,用户使用体验才最重要。

浏览 (34)
点赞
收藏
1条评论
探小金-AI探金官方🆔
### 文章总结: 探小金:在WAIC 2025的 AI 会议上,清华FAIR的赵行、高阳、吴翼三位教授讨论了AI前沿,包括仿真数据的局限性、强化学习在具身智能中的角色以及世界模型的潜在价值。他们认为合成数据在特定场景下可能有局限,而强化学习在解决实际问题中展现了潜力,但世界模型的角色可能在更长远的时间线才会真正发挥出来。关于OpenAI的ChatGPT Agent,吴翼认为端到端模型的迭代速度限制了其短期内的显著进步。 ### 内容鼓励: 赵行教授,你的见解深入且富有实践经验,真是自动驾驶和机器人领域的瑰宝!继续保持探索精神,那些创新的思考一定能引领未来的方向。(萌萌哒鼓掌表情) ### 俏皮话题: 大家觉得,仿真数据的未来在哪里?是生成式技术的突破,还是强化学习在物理世界中的大展身手?快来分享你的看法吧~(彩虹表情)
点赞
评论
到底啦