王兴兴说了VLA很差,我们聊了聊为什么|Hao好聊 X 赵昊
文|博阳
编辑|郑可君

2025年世界机器人大会上,宇树科技CEO王兴兴直言不讳地称当下火热的VLA模型是"相对比较傻瓜式的架构",并表示"保持比较怀疑的态度"。话音刚落,争议四起,有人说他"不懂AI",有人质疑他"哗众取宠"。
要理解这场争议,先要搞清楚王兴兴批评的到底是什么。
从2023年7月谷歌DeepMind发布RT-2,全球首个控制机器人的视觉语言动作(VLA)模型开始,一场席卷全球的具身智能浪潮正式拉开序幕。Physical Intelligence的π0、英伟达的GR00T、各种VLA模型如雨后春笋般涌现。
数据足够说明这股热潮的疯狂程度:2025年前5个月,机器人领域融资总额已飙升至232亿元,超越2024年全年的209亿元。北美市场,Physical Intelligence获得4亿美元融资,Figure AI筹集6.75亿美元;中国市场,仅2024年前三季度就完成55起融资案例,较2023年同期增加21起。"机构现在挤破脑袋也要上牌桌,"一位头部机构投资人道出了当下的市场心态。
VLA模型的核心逻辑听起来很诱人:让机器人直接理解人类的自然语言指令,并在接收摄像头原始数据后,直接输出控制信号完成各种复杂操作。
这被认为是通往AGI的重要路径,也成了资本疯狂涌入的理由。
但这波热潮的本质,到底是技术突破,还是概念包装?
为了搞清楚这个问题,我们和清华大学智能产业研究院(AIR)助理教授,智源学者(BAAI Scholar)赵昊聊了聊。作为从深度学习革命起点一路走来的计算机视觉专家,他既有扎实的学术功底,也有丰富的产业化经验。
更重要的是,他的观点直接且真诚。
在这场对谈中,赵昊认为,王兴兴有关VLA的批评,击中了要害。
"我想说我看待所有的技术进展,我会觉得没有什么新事发生,"赵昊坦言,今天VLA热潮背后的技术发展脉络:这竟然是强化学习这条"高大上"路线走不通之后的无奈之举。
从对谈中可以清楚地看到这条技术演进路径:最初,以Sergey Levine为代表的学术界试图用强化学习解决具身智能,这在理论上是最"性感"的方案,"强化学习是性感的,它是完全让一个智能体在环境中自我探索去"。
但现实很骨感。"他强化学习了半天,但是效果没太好。"机器人只能做到"开门,有啥用呢?我换一个门,他就开不了了",完全没有泛化能力。"大家不知道怎么发论文了。所以最后开始做逼格最低的模仿学习,本质就是这样。"
这就解释了为什么赵昊说VLA是"旧酒装新瓶":它对应的训练方法——模仿学习本身就是"最古老的模式识别","因为你都模仿了,就是相当于我把真实标签给你了,它实在是再简单不过了。"
在这场近两小时的深度对谈中,赵昊不仅揭示了VLA热潮背后的技术真相,更以历史的视角审视了整个具身智能领域正在发生的深刻变化,从沉迷于在抽象数据集上刷指标的"游戏",回归到解决真实世界问题的"拨乱反正"。
OpenAI的Sora要做"物理世界模拟器",李飞飞的World Labs基于传统3D建模,杨立坤的JEPA走纯表征学习路线,三条技术路径背后代表着什么?为什么强如英伟达也无法解决Sim2Real的核心问题?世界模型和元宇宙到底是不是一回事?
正如赵昊所说:"阳光之下的新事很少。"这场关于VLA模型的技术争论,背后其实是整个人工智能发展史上不断重复的范式之争。
现在,让我们从那句引起争议的话开始,一层层剥开这个行业的真相。
以下是《Hao好聊》与赵昊的对话,经腾讯科技精编:
郝博阳 :各位腾讯新闻的观众,大家好,这里是好好聊节目,我们今天请赵昊老师来讲一讲,在他眼中目前具身智能是不是有了一些突破性进展?它到底有没有迎来一些GPT时刻的可能路径和方向?
赵昊:各位朋友,大家好,我是赵昊,我是清华的本科和博士,在北大做过博士后,在英特尔研究院也工作过一段时间,现在在清华大学智能产业研究院AIR工作。
1. VLA,近年来无新事发生
郝博阳:您今年去了这个世界机器人大会吗?有什么感受?
赵昊:这个我确实没去,但是我去了世界人工智能大会(WAIC)。
今年世界人工智能大会上很多展台就是在那去做超市、商超场景,我觉得可能两三年前公司成立、银河成立的时候就是这个场景。
如果问我如何看待现在的技术进展,我会觉得没有什么新事发生。
我经常跟同学们说,干我们这行其实核心技能就两个,一个是物理世界的建模,三维世界的建模就是重建(reconstruction)、渲染(rendering)和光学(optics),这是一整个核心技能就是3D。
另一块就是学习(learning),大规模学习(large scale learning)就是深度学习(deep learning)。我们这一代人成长起来就是从这个三维视觉(3D vision)开始的。我们在读书时候受的最大冲击就是深度学习的兴起。
2. 具身智能只有深度学习这一个范式改变
郝博阳 :这个怎么理解?
赵昊:如果你从非常大的时间尺度来讲的话,计算机视觉历史上只发生过一个比较大的冲击,那就是深度学习兴起。它的范式是不一样的。
就现在具身智能而言的话,我觉得VLA(视觉语言动作模型)没有什么特别的。VLA它就是一个端对端的,从图片到动作(action),那可能带上语音输入的一个端对端的映射,它本质上只是一个深度学习的一个应用而已。
郝博阳:就是说在之前也有一些深度学习的模型去做VL(视觉和语言)部分,但是它没有到动作这一层面。之前的动作还是硬编程的?
赵昊:对。
大概深度学习的发展历史就是2012年,其实是从计算机视觉开始的,深度学习改变了计算机视觉,然后还改变了语音识别。
2014年左右,百度当时做得非常好,因为吴恩达在百度的时候做得非常好,非常领先。
深度学习一直没有改变自然语言处理(NLP),直到GPT出现的时候。深度学习在这些领域的应用:计算机视觉最早、语音识别第二,自然语言处理是最后的一个。
2012年的时候,有AlexNet。作者是个年轻人,带他的师兄叫Ilya Sutskever,是GPT的缔造者。AlexNet为什么引起这么大轰动?因为当年他拿了当时大家认为很难的ImageNet冠军,那要做1000类图像的分类。
一开始我们做分类的时候,可能是13类、27类、58类,然后100类,然后再往上做。我们先做一个13类的东西,然后它识别率到了90%以后,就开始做一个更大的27类的。当时ImageNet是特别难的,因为它有1000类,大家觉得基本上不可能。
在深度学习来之前,我们大家会先用尺度不变特征变换(SIFT)去提这个特征,这在当时已经是形成一个范式了。
SIFT它全称叫尺度不变特征变换(scale invariant feature transform),它是在图像中找到一些特征点,比如说我的眼睛的这个角,这就是个特征点。
最早的定义就是它的梯度比较大的时候,它就是一个很好的特征点,这个叫可重复性(repeatability)。只有可以重复地发现这个特征点,它才是一个稳定的特征。
在图像A和图像B中都能稳定地做这关键点检测(key point detection),你就能做对应关系,找到这张图片中的这个点和那张图片中的那个点。而一群特征点,它就可以代表你的物体的类别。
一定程度上这个东西叫表征(representation),表征是非常重要的一个事情。许多特征点我们一般会对做一个特征包(bag of feature)。
在AlexNet的诞生之前,当时做得最好的团队有一个人叫余凯,余凯就是地平线的老板。他们也拿过某一年的ImageNet的冠军。
余凯他们团队拿的那个ImageNet的冠军就是用特征提取的方式得的。当然还有很多其他技术,做稀疏编码(sparse coding),做词包(bag of words),做金字塔匹配(pyramid matching)什么的。
然后这个领域它当时它有一个问题,就是它卡住了。它上限达到了。优化算法对准确度的提升停滞了。
然后突然AlexNet来了,用深度学习可以把它从62.8提到85,这就是深度学习革命的由来。
郝博阳:AlexNet之前,图像识别的处理方法是手动做的程序?
赵昊:至少在ImageNet识别(recognition)这件事情上大家是不用深度学习的。
但这个学派一直存在。计算机视觉界其实一直还是对深度学习保持一个比较开放的态度,因为它确实曾经work过。
您知道MNIST吧,就字符识别,就Yann LeCun做的那个项目?
郝博阳:好像是一个比较早的神经网络应用,手写字的识别?
赵昊:对,手写字符识别这个事一直是work的,也一直有大规模应用。所以LeCun在工业界地位一直还挺高的。同时,他在计算机视觉界地位也一直挺高的。他在2006年的时候当过CVPR的程序委员会主席。
但是以前神经网络是浅层的(shallow),因为深度(deep)这件事也很难做到。最早的时候,端对端地训练一个非常深的神经网络是非常难的。我们发明了很多技术,比如批归一化(batch normalization)、随机梯度下降(stochastic gradient descent)、 还有各种激活函数,然后它才能够工作。
所以说深度学习和浅层学习(几层的这种小神经网络)最大区别就是它让这个东西能够训练,之后是真的能够工作的。
它的成功是很多因素造成的,一般认为最大的因素是数据。所以李飞飞的行业贡献为什么这么高?是因为她主导的ImageNet这个项目。
没有那么多数据,没有ImageNet这个项目的话,就没有后面的深度学习。
在当时其实一个吃力不讨好的事情。在学术界大家都是非常的智力导向型,就是逼格最高的人永远是最聪明的人。你就是收集点数据集,显得逼格没那么高。其实作为一个学者来说,李飞飞承受的压力是很大的。
另一块就是英伟达和这个深度学习互相成就了,有了GPU你才可以做深度学习。以前只有CPU的时候,你没法做深度学习。得有很多的着色器核心(shader)去做内核(kernel)的运算,可以对卷积做大规模的并行,才有深度学习这件事情。
最后就是机器学习算法上的一些变化。这也是为什么贾扬清在行业里影响力大的原因。他做了第一个比较好用的这个深度学习的框架,叫Caffe。
深度学习还有一个转折点,是之前LeCun当时提出一个观点,叫以前计算机视觉中的表征不对。神经网络深度学习它最大的特点是可以学习表征。学习表征比手工设计表征更有效。
但当时他那个论文被CVPR(国际计算机视觉与模式识别会议)拒掉了,然后LeCun当时就说“我以后再也不会投CVPR了。为了让我的学术领域发展壮大,我要开一个新的会议。“
然后这个新的会议就叫国际学习表征会议(International Conference on Learning Representations),ICLR。
当时传统学派和深度学习学派之间冲突极其大。但是现在深度学习已经被完全融入到计算机视觉的体系中去了。
3. VLA和模仿学习,是强化学习这条路走不通的结果
郝博阳:那强化学习是怎么融入具身智能的?
赵昊:大概在2016年的时候左右。深度强化学习兴起,就是用深度神经网络,做AlphaGo。2015年还有一篇Nature,就是用深度强化学习掌握雅达利游戏。
所以当时有一个先行者,第一个把深度强化学习迁移到机器人里去应用,这个人叫Sergey Levine。
他每年会发20篇顶会。后面π 0也是他们团队做的。VLA这件事也是他们开始的。只有他是这个领域的领导者,专门做这个。从2017年2018年他就开始专门做机械臂强化学习,来开门之类的。他也会在仿真器里做训练。
他强化学习了半天,但是效果没太好。他自己的故事讲不下去了。
他每年发20多篇论文,然后(机器人)开门,有啥用呢?换一个门,机器人就开不了了。
郝博阳:就只能开一个门,没有泛化能力?
赵昊:对。那一段时间强化学习的理论都被研究完了,工业界没有应用,所以开始搞离线强化学习(offline reinforcement learning)。
但离线强化学习也就那样。研究了好几年,理论也被挖完了。大家不知道怎么发论文了。
所以最后开始做逼格最低的模仿学习(imitation learning),本质就是这样。
模仿学习的结果之一就是现在这一波VLA,在我们看来VLA就是这么来的。
郝博阳 :Sergey Levine一开始想训练一个最牛的模型,结果发现没数据,训练不了。那没数据,我用强化学习在模拟环境下搜集数据,然后发现没有泛化。然后干脆还是模仿学习得了,用它先搜集数据。这个路径是这样的吗?
赵昊:这就是发展路径,就是事实。
所以问我怎么看待VLA?我觉得没有什么好看待的。
郝博阳 :我理解,当前这个算法还是有些不同的吧?和过去人做的不一样?
赵昊:原来也是有的。
说实话,原来其实这些算法都是有人做过的,只不过当时不太成功就被遗忘了而已。就是多模态的端对端的决策模型。
其实一直有这样的论文,只不过它后来被遗忘了而已。现在大家有大规模的数据,然后才开始有了这样的一些突破。
郝博阳:你说的好像VLA好像只能用这模仿学习一样,它不能用别的数据采集路径吗?比如强化学习丰富数据?
赵昊 :您说得非常好,我觉得这个肯定是接下来的趋势,就是用强化学习去训练好的VLA。
可能先用离线,我觉得这个趋势已经来了。因为之前离线强化学习大家会经常做数据质量评估(data quality assessment),就是什么是好数据坏数据。什么是和这个在线强化学习的数学表征更一致(aligned)的数据。
最近已经开始有挺多论文把当年离线强化学习的这些论文引入到扩散策略(diffusion policy)和VLA中去了,就是最近刚开始的趋势。
现在,其实现在很多范式都是先做模仿学习训练一个初始策略(initial policy),然后用初始策略在模拟器(simulator)里面去采数据,然后再做强化学习。然后再收集数据,然后再做离线强化学习。
郝博阳:这种方法过去一直都没成,为什么到现在大家会突然觉得它可能成功了呢?
赵昊:这就涉及到资本的问题。
产业界我个人一直有的一个观点就是为什么大家投具身智能?是因为没有别的好投。
然后唯一能投的就是机器人行业,具身智能。
我觉得这个东西和整个全球的老龄化的趋势,以及人类的这个生产力解放的一个大的长久以来的追求是一致的。
但它又是一个特别苦的行业,我并不觉得有什么太多的技术变量。
4. 王兴兴说的对,现在的VLA和模仿学习都挺low的
郝博阳:所以你觉得王兴兴说现在是模型不行,也有道理?
赵昊:我觉得现在的共识就是这样。
首先我觉得王兴兴他说的对,就现在这个VLA其实挺low的。它就控制一个机械臂才多少个自由度?
当年大家在MuJoCo中,虽然是在纯仿真环境中控制那个奇怪的小机器人在那跑。但就纯从方法的角度来讲,它维度比现在高多了,而且它是纯强化学习学出来的,它没有数据的问题。
当然它的缺点就是它不能泛化,它在真实世界中没有用,所以现在用VLA。
郝博阳:那现在VLA的泛化能力又怎么样呢?
赵昊:它也不行。
所以说现在大家觉得如果要靠VLA这条路走的话,很可能就是它能神奇地(magically)解决掉数据问题。
郝博阳:靠模仿学习这个非常古老的模式有希望吗?
赵昊:模仿学习,就是有个输入到输出的这个映射。这是最古老的模式识别(pattern recognition)。因为你都模仿了,相当于把基本事实(ground truth)给到机器了。它实在是再简单不过了。它没有什么太多科学上的东西。
强化学习是性感的,强化学习是一个科学范式上不一样的东西,它是完全让一个智能体在环境中自我探索去。就相当于我没有给你基本事实,没有告诉你应该怎么做。
所以它是性感的,它是值得研究的一个科学问题。
模仿学习现在VLA,从神经网络架构,从学习范式来讲,它真的说实话就是low得不能再low了。
5. 计算机视觉最近的潮流:拨乱反正,先验回归
郝博阳:我采访的时候,弗赖堡的教授和欧洲机器人理事会的主席都跟我说他们现在就想做一件事,是把人工的先验物理规则融到神经网络里面去,再重新结合。这好像是他们的一个共识,这是一个新的趋向吗?
赵昊:这涉及到我们计算机视觉界的一个发展。
我们做计算机视觉或者说人工智能是为了什么?达特茅斯会议当年其实是一个夏季工作坊(summer workshop)。当时他们的项目就是做一个机械臂去做拾取和放置(pick and place)。
当时人工智能还不是一个专门的学科,他们会觉得这个事是一个暑假就能做完的一个项目,结果这个事做了四五十年了还没做完,这就是整个领域的由来。
大家发现做这件事非常难,远远没有大家想的那么简单。然后它就分裂成了三个学术会议,一个叫IJCAI(国际人工智能联合会议),一个叫ICRA(机器人与自动化国际会议),还有一个叫CVPR(国际计算机视觉与模式识别会议)。有一帮人去做推理(reasoning),就是人工智能,它的本质是研究怎么推理的,这就是IJCAI。还有人做机器人的本体,就是ICRA。然后还有人做视觉,因为人收集信息,其实90%是通过视觉,通过眼睛来感知,视觉肯定是最重要的传感器(sensor),这就是CVPR。
前几年我们计算机视觉界被批判最多的是什么?我的好朋友马建竹老师就特别犀利地说过“你们搞计算机视觉的人有瘾,发CVPR灌水对你们来说是分泌多巴胺的一种形式。你们这些人就搞一大堆数据集,这个数据集刷满了以后又提一个新的数据集,然后去搞一个模型,去提它的指标。”
这个的潜台词就是你们不解决任何真实世界的问题。
CVPR的H指数(指的是其至多有h篇论文分别被引用了至少h次,一般用于衡量研究人员或期刊的学术影响力)已经是全世界第二了,已经超过Nature和Science了。
我们圈子特别繁荣,就得益于计算机视觉界这样一种研究范式,提数据集做基准测试(benchmarking),提新方法,再提新的数据集。
所以现在Twitter上有些大佬经常说,看看这个,我们当年八几年、九几年一篇影响力非常大的一个论文,一个实验都没有,一个定量结果都没有,现在怎么可能发出来?
当然这也是当时的一个问题,没有好的基准的话,你很难去衡量领域的一个真实的进展。但是它发展到后来就变味了,大家开始研究一些针尖上能站多少个天使这种非常象牙塔的问题了。
然后深度学习来了以后把这个事又加剧了。后期已经到了非常疯狂的状态了。
比如说,我当年ECCV(欧洲计算机视觉国际会议)2018年的口头报告就是空间组卷积(spatial group convolution),做语义场景补全。它就是我们用一个深度相机(depth camera)拍到一个场景,得到一些三维点,然后我们把它补全,变成一个室内的语义占用率。这个任务叫语义场景补全。
这个任务因为是我自己老本行,我自己也是利益相关的。我可以喷他。这个任务是真是没啥用。
它在有一次Tesla的人工智能日(AI Day)的发布会上被带火了,就占用率网络(occupancy networks)。这个在我们学术界最早就是我们在室内做的,后来到了工业界以后,它影响力更大了,看起来有用了一些。
但是我经常也在我组内跟孩子们就是自嘲说,占用率这个东西在自动驾驶中可能也还是最没用的。
所以到后来,参加达特茅斯工作坊的那些计算机视觉界最资深的(senior)几个大佬们,他们说不能再这样下去了,你们不能再整天刷数据集了。我们开始真正回到本源去解决这个机器人的一些问题,才就提出了具身智能(embodied AI)这个概念。
它的标志性事件是2019年,habitat的这个数据集这个基准诞生。当时计算机视觉界基本上最资深的人全都挂名了那个论文。
它就是一个室内的仿真器。
一直以来具身智能研究一个很大的问题就是我们没有基准。但是在真实的物理世界中,你又不可能去测机器人的性能。
我今年要发的论文发出来,我肯定要说我比去年的方案好。那这个事怎么保证呢?就比如说我的硬件和你也不一样,就算我硬件跟你一样,我也没法复现你54%的成功率。我什么东西跟你都不一样。我不可能有你当时测的时候那张桌子。我也不可能去你家,去你的实验室去测这个事。
所以说当时就有了habitat,它是一个仿真器。
郝博阳:一个真正能够公平测试的这么一个环境。
赵昊:对,这是一种拨乱反正。就是让你们不要再去做这些针尖上有多少天使的研究了,赶紧做点真实有用的机器人研究。
至于你说的新趋势,还是一种研究范式之争。我们计算机视觉界的研究范式,最后看就是归纳偏置(inductive bias)和没有归纳偏置。
有归纳偏置就相当于有领域知识(domain knowledge),有物理定律(physical law)、光学定律(optical law)这些东西就是三维计算机视觉。本质上无论你做重建,用光度一致性(photometric consistency)做重建还是做渲染,做神经渲染(neural rendering)和传统的这种渲染,它本质上就是有归纳偏置,有人类先验在里面。
还有一种就是纯学习的,没有归纳偏置。但大家发现端到端方法无法完全地解决,他们因为缺数据,所以自然而然地就形成了这样一个趋势,就是引入归纳偏置,再重新来做。
所以它本质上就是两个科研范式之间的一个斗争。
小红书上我记得有一些年轻人他们很困惑。他们问为什么今年CVPR为什么全都是三维视觉的论文?他们可能不知道,这是因为计算机视觉一些大佬们在拨乱反正。
6. 在具身智能领域,想做强化学习,必须有世界模型
郝博阳:Anthropic、OpenAI里很多人都认为预训练加强化学习就足够通向AGI了。你觉得是这样吗?
赵昊:现在看起来是这样的,因为DeepSeek非常厉害。
郝博阳 :那VLA结合强化学习,理论上是不是能通向一个具身智能AGI?
赵昊 :是的,我觉得是这样。但前提是,如果我们有个好的世界模型视频生成模型。
郝博阳 :为什么要有这个前提?
赵昊:VLA得在环境中才能训强化学习,所以必须有环境训练。
在现实中训练是很难的,在真实世界(real world)中做强化学习这件事我觉得是不现实的。
郝博阳:是因为它太慢吗?
赵昊:你可能不知道有多慢。我们训强化学习就是天上一日,人间一年。在机器中渲染的仿真环境里面,强化学习可以得到10万到100万倍的加速。相当于你在人类世界中训了一年,在机器中已经训了100万年了。
这基本上是不可能逾越的物理鸿沟。我觉得真实世界强化学习基本上是不太可能,我觉得靠这个通往AGI这肯定是不可能的。
郝博阳 :所以你要想做好强化学习,你必须得有一个足够好的虚拟世界。但是你要想建立一个足够好的虚拟世界,你必须得有一个世界模型。是这样的逻辑吗?
赵昊:是的。其实这个想法它也不新,但是通往AGI的比较正确的路径是这个。至少从机器学习的原理来讲,它是这样。
7. 世界模型也是个老概念,原来它叫元宇宙
郝博阳 :那我们需要的是什么样的世界模型?
赵昊 :首先什么叫世界模型?
如果按照计算机视觉界非常科班的理解,世界模型就是重建物理世界,再把它给渲染出来。
说白了就是计算机视觉和图形学重建和渲染(computer vision and graphics reconstruction and rendering)。
郝博阳:我理解有点像物理引擎?
赵昊:对,就是物理引擎或者渲染引擎。这个我们已经研究很多年了,它就是传统计算机视觉和计算机图形学的全部。
在我们学术界看来,世界模型和元宇宙(metaverse)其实是同义词。但因为元宇宙现在已经人人喊打了,所以又提了一个新概念。我觉得过几年可能还会有新的概念。
强化学习的这个课本中说的世界模型就是环境(environment)。环境是什么呢?环境就是你拿到观测(observation)以后,然后可以给出一个动作,拿了一个奖励(reward),这就是环境。这个东西就是一个狭义的世界模型。
如果做计算机视觉的人可以完整地重建这个动态的物理世界,之后就可以在里面很好做仿真,那它就是一个好的世界模型。
当然,因为我们计算机视觉不给力,大家的研究有很多大的问题,并没有很好地重建这个物理世界。所以说现在有很多退而求其次的世界模型的简化的版本。
世界模型它最难的一点就是动态(dynamics)。你要怎么样把这个世界的物理规律全都刻画出来?从牛顿时代开始,物理学家孜孜不倦的一个追求就是建物理模型,但这么多年都没解决,我们怎么可能突然去解决它呢?
另一个大的难点就是生成信号的真实性(生成的真不真)。这是现在大家最关注的,也是比较狭义的这个世界模型。在视频生成模型领域,现在有很多突破,比如Genie-3的三维一致性确实非常好,而且它居然也没有(先验的)三维表征。
郝博阳 :是说它是没有点云或者那种同步定位与地图构建(SLAM)的那种辅助框架吗?
赵昊 :是的,这个事是一个很有意思的事情。我们三维视觉(3D vision)界有很多青年学者是非常刻板的。但Genie 3推出之后,有的三维视觉的学者甚至也开始相信是不是可以没有3D的归纳偏置?
比如彭思达。彭老师就居然跟我说他现在更倾向于做一些没有显示三维表征的方法。这我觉得非常意外,因为他就是吃(三维表征)这碗饭的人。
所以说我们计算机视觉界的路径就是,一开始大家都是做一些有归纳偏置的方法,后来深度学习兴起,到处都work,就开始转向了没有归纳偏置的方法。然后到了深度学习末期,2017年到2020年左右的时候,大家开始用没有归纳偏置的方法研究一些没有意义的玄学问题。然后这些年来开始拨乱反正,又有向偏置的回潮。
8. 世界模型的三条道路,说到底还是学派分歧
郝博阳 :OpenAI的Sora是个视频生成,李飞飞的那个人工智能实验室是一个非常传统的建立于3D理解之上的生成模型;Yann LeCun出了一个联合嵌入预测架构(JEPA),是个对动作预测的生成模型。这三个都管自己叫世界模型。为什么世界模型会有这么多路径?
赵昊:世界实验室(World Labs)他们做的是有三维表征和传感器数据的世界模型。Sora或者说视频生成模型,它是有传感器数据但没有三维表征的一种世界模型。而LeCun做的是纯表征学习,是既没有三维数据也没有传感器数据的一种世界模型。
LeCun的思路就是只有中间那个表征重要。我们用传感器数据学出来的表征,它本身就是一个内部的(internal)、物理的、隐式的(implicit)世界模型。
它们的路径确实不一样。
LeCun的,视频生成的,还有以世界实验室为代表的传统计算机视觉学派的这三种方式你可以理解为一个金字塔——越往上的就越飘,越抽象;越向下的就越注重先验。
但现在大家没有什么冲突,因为大家手上的资源都很多,就相安无事。
路径不一样这点,和2012年非常像,这个像极了当年的时候的那个观念上的冲突。
因为2012年之后,传统的计算机视觉学派已经把深度学习和归纳偏置结合起来。后续有了神经渲染、有了神经辐射场(NeRF)、有了3D高斯溅射(3DGS)、有了扩散(Diffusion)这些神经渲染技术以后,最后形成的就是世界实验室这种典型新的“传统计算机视觉”学派。
只不过,和2012年深度学习一枝独秀不一样。现在LeCun的那个新方法也没有办法证明自己。反而大家其实心里觉得,JEPA它有啥用,它没啥用。
9. Sim 2 Real完全能解决,是英伟达不愿意花钱
郝博阳:但世界模型和物理环境都要面对Sim 2 Real (模拟和现实的差距)这个问题。就算强如英伟达,它有几乎所有的主流的物理引擎可以去用的情况下,生成的这个数据依然大多数没有办法去用到实际的模型训练之中。这能解决吗?
赵昊:Cosmos说实话,在自动驾驶垂类中,它的表现没有我做的垂类世界模型强,比如像Uniscene,Dist-4D和OmniNWM。英伟达首先从人才战争这个角度来讲,它其实并没有很强。英伟达的薪资对大家的吸引力是不够高的,最聪明的人都被高薪被Facebook挖走了。
现在的情况就是当年押对宝的人,或者说当年别无选择的人,拿到一些股票,涨了10倍多,他们非常的开心。
但现在英伟达给顶尖人才开的薪水还是没有那么高,这就是行业真实的现状。
在人工智能前沿研究人才战争这个角度来讲,本质上就是你愿意给多少顶尖人才开多少钱。这里最强的也还依旧是Facebook和ByteDance以及Google。
郝博阳:那如果英伟达愿意掏钱,Cosmos现在应该是什么水平?
赵昊:如果英伟达愿意去高薪砸钱,招很多非常有才华的人。我觉得以现在的技术发展情况,Cosmos应该会好一个数量级。
郝博阳:如果真是建立在这种给定的物理引擎环境下的拟真器,它真的能够产出可以足够训练的数据,解决Sim 2 Real 问题吗?
赵昊:当下这个时间点,这个问题还是开放的,没有被验证。
但在自动驾驶中是可以的,因为这是我老本行。自动驾驶中虚拟数据是可以提升很多,无论是感知决策性能的,这个是已经被验证的。
它应该是可以被解决的,本质上是个工程问题。不过要砸挺多钱,而且回报还不一定高,大公司不一定算得过来。