Claude 4 核心成员:Agent RL,RLVR 新范式,Inference 算力瓶颈



编译:haozhen
编辑:Siqi
海外独角兽原创编译 转载请注明
Anthropic 在上周五发布了 Claude 4,这是目前最前沿的 Coding 模型,也是最强的 Agentic 模型,可以连续编程 7 个小时。本文是对 Anthropic 两位核心研究员 Sholto Douglas 和 Trenton Bricken 最新访谈的编译,其中,Sholto 专注于 RL scaling,Trenton 则在做机制可解释性的研究:
• 2025 年在模型训练上,最大的变化是 RL 终于有效,只要有合适的反馈机制,模型就能达到专家级人类的表现和可靠性;
• 今年年底会出现可以替代初级程序员的 Agent,到明年这个时候软件工程类的 Agent 将会在实际任务中创造价值;
• 可验证奖励强化学习 RLVR 的范式已在编程和数学领域得到证明,因为这些领域很容易获得此类清晰的信号;
• 模型自我意识的发展关键在于 reward。因为模型会以某种方式追求 reward,而这种追求会深刻地影响模型的“人格”和个性,最终带来自我意识;
• 让 AI 获得诺贝尔奖比获普利策小说奖更容易,因为要让模型具备像人一样的品味和审美是很难的;
• Inference 算力会在 2028 年遇到瓶颈,算力短缺问题的严重性被低估了;
• 相较于 AlphaZero,LLM 走在真正通往 AGI 的路上,这是因为后者能从现实世界获得梯度的反馈信号,进而向 AGI 迈进,而前者从来没有真正的第一梯度的反馈信号可用。
💡 目录 💡
01 Computer Use 的卡点在哪里
02 Agent RL
03 Reward 会带来模型自我认知
04 Inference 算力会在 2028 年遇到瓶颈
05 为什么是 LLM 带来了 AGI 而不是 AlphaZero?
01.
Computer Use 的
卡点在哪里
今年底会出现
可以替代初级程序员的 Agent
Sholto Douglas 认为,2025 年模型训练领域最大的变化是 RL 在语言模型上终于有效:只要有合适的反馈机制,就能达到专家级人类的可靠性和表现,即使这一点目前只在竞赛型的 coding 和数学领域得到了确凿的验证。
衡量模型能力的提升有两个维度,一个是任务的智力复杂度,另一个是任务的时间长度。目前模型已经可以在多个领域完成高度复杂的任务,但 Agent 实现长任务的能力还没有被实例验证,不过,Sholto 预计到今年年底就会看到这方面的案例,Claude 玩 Pokemon Go 的游戏可能算一个例子。目前来看,如何用好 memory 是影响长任务实现的关键问题。

在 2024 年的时候,Sholto 预期到今年这个时候 Agent 可以在 computer use 上更强一点,但今天还没实现,Sholto 认为这只是一个暂时的瓶颈,解决的方向也很明确,预计从今年年底到明年这个时候,会出现能够完成接近一个初级工程师一天工作量的软件工程 Agent,或者能独立完成几小时、质量很高的工作的 Agent。
Computer Use 的卡点
2007 年有一篇论文用两万亿个 token 训练了一个 LLM。站在今天的视角来看,这个论文跟 Transformer 的发展路线有很大关联,视野非常超前,但 LLM 并没有因此发展起来,因为当时还缺少一些新技术、算力、数据类型等的支持。相比之下,Sholto 认为如今 computer use 却可以很快发展起来,不太可能像 2007 年的 LLM 那样。
Large Language Models in Machine Translation 由 Google Research 团队发布于 2007 年,他们训练了当时世界上最大规模的 n-gram 语言模型,并将其用于 Google 的机器翻译系统中。这篇论文指出,语言模型的规模越大,翻译质量的提升也越明显。
Sholto 认为最核心的原因是,computer use 本质上和软件工程没有根本区别,因为现在已经能用 token 在输入空间中表示一切:模型有视觉能力,能在图像中画出边框,能理解概念,甚至是非常复杂的概念。Computer use 唯一的不同之处在于,它比数学和 coding 更难嵌入到反馈循环里,但这件事也恰恰说明了,只要投入足够多的资源,computer use 也会被攻克。
Sholto 认为有一点经常被忽视:AI 实验室里的研究成果其实离真正落地应用还有很大差距。实验室的做法往往是在时间紧、资源有限的情况下做出的最优解,但在现实中,需要做很多权衡取舍,比如现在 coding 非常有价值,而且相对更容易解决,那相比 computer use,很多公司会优先在 coding 上投入更多的资源。
还有一个有趣的现象在于,实验室的研究人员喜欢研究他们自己所认同的“智力门槛”,这就是为什么数学和竞赛型 coding 最先被攻克,因为对这些人来说,相比于让模型操作 Excel,数学和竞赛型 coding 才是真正的智能。
Computer use 实现的另外一个限制在于模型能力的可靠性。
Trenton 认为,其实今天模型几乎可以完成很多任务了,他第一次用内部早期测试版本的 computer use demo 时,模型就已经能很好地规划一次露营旅行,能点对所有正确的按钮,还能查看天气趋势。但现在模型的可靠性还不够高,这是因为互联网上有很多类似 cookies 之类的弹窗会影响模型的操作。
但不同行业之间,变革的速度可能会有差异。Dario 在 Machines of Loving Grace 里表示,有些行业变革得会非常慢。未来能发展特别快的行业,要么本来就是比特(byte)而不是原子,要么更愿意采用新技术。

而且 computer use 上有太多低垂的果实,虽然 Claude 已经让这类工作的效率提升了很多,但还是不够。比如在报税上,到 2026 年底,模型可以完成填写发票等事情,但在报税全流程上,如果有人愿意投入时间精力,让 RL 来训练模型正确理解税法,那模型肯定可以做到这件事,不然模型可能会以不同方式出错。但到了 2026 年底,模型可以实现在执行任务时意识到自己不确定,并及时提醒用户。
此外,在 computer use 上,Sholto 认为应该建立一个端到端的系统。虽然现在大多数机器人公司采用的是双层结构:一个运行在 60Hz 的 low-level 马达控制策略,再加一个 high-level 的视觉语言模型,但他们这样做的原因在于:
1)需要一些动作模块以完成非常高的频率执行;
2)目前还无法直接训练一个超大的视觉语言模型,所以需要依赖大模型去理解世界知识、制定长时间计划,然后把执行交给 low-level 的策略。
但如果能训练一个足够强的大模型,那么未来“大模型”和“小模型”的区分就会消失,只需要一个模型,就能够根据任务复杂度来动态使用算力,不需要每次都用“整个大脑”去处理任务,也就是说模型的理解能力能随着任务的复杂度和难度动态调整。现在已经可以通过控制 token 数量,来做到每个答案使用不同的计算量了。
02.
Agent RL
Agent 需要清晰的奖励信号
现在 Agent 可以处理几分钟的任务,但还做不到整天独立工作,主要原因是 context 不够,或者无法完成涉及多个文件的任务。在有明确的 context 和清晰的任务范围时,Agent 已经能处理很复杂的任务了,可一旦任务变得模糊、需要探索环境或迭代开发,Agent 就开始吃力。
模型发展的下一个阶段可能是不再需要 human-in-the-loop,甚至都不再需要使用 IDE 这样的生产环境,我们可以就像让团队成员去干活那样,让模型去做事。Sholto 认为更偏异步的形式会极大改善使用模型的体验。
总的来说,如果能给 Agent 一个良好的反馈循环,告诉它要做什么,它的表现就会很好;反之,就做不好。这也是过去一年真正取得进展的关键所在——广义上叫做 RL from Verifable Rewards(RLVR),核心就是要提供清晰的奖励信号。

最初让 LLM 真正发挥作用的是 RLHF,让人类去比较模型的不同输出,但这个过程并不一定能让模型在真正困难的问题上表现得更好。因为人类并不擅长判断哪一个答案更优,人类的判断会受到回答长度等因素的影响,所以需要一个真正靠谱的信号,来判定模型是否给出了正确输出,比如数学题的标准答案,代码是否通过了单元测试等。
但即使是在有靠谱信号的情况下,模型也有可能会 hack,比如模型会尝试反向推理测试逻辑,直接硬编码特定值来通过单元测试;如果模型能读取缓存的 Python 文件,搞清楚测试在做什么,甚至会绕过测试规则。但这个判断方法已经比人类评分准确得多了。
模型在软件工程上的进步比其他领域大得多的部分原因就在于,软件工程本身非常容易验证,比如如果用户想知道代码能不能通过测试,可以在 LeetCode 跑一下。但写一篇好文章就没这么清晰的标准了,这涉及到审美,而审美是很难界定的。Sholto 预计模型在做出诺贝尔级别的成果上,会比写出获得普立兹奖小说的进展更快。
一旦模型达到一定能力水平,其实我们就可以放手让模型去做事情,让模型建立起科学发现的能力,关键还是在于反馈循环,只要能把科学领域放进模型的反馈循环里面,模型最终能达到超人的水平。
未来或许我们不会再问“某个 Agent 能不能做某事”,而是问“能不能高效部署、启动一百个 Agent,给它们反馈,甚至轻松验证它们在做什么”。相比让人类直接给出解决方案,让人类去验证 Agent 的行为会容易得多,但这种方式下又可能会很快进入到另一个阶段:当 Agent 生成变得极其简单的时候,真正的瓶颈反而是人类能否验证 Agent 生成的结果,理想情况下,评估和打分的过程应该可以自动化。
软件工程会是这趋势的领先指标。未来一年会有越来越多的实验派给软件工程 Agent,让它们异步运作。Claude 4 已经和 GitHub 集成了,可以在 GitHub 上做 pull request 等。OpenAI 的 Codex 也是这种思路。产品需要比模型领先几个月来设计,比如去年 Cursor 用 Claude 3.5 Sonnet 找到了 PMF,但其实他们之前已经存在很久了,但直到模型足够好后,才实现了他们对未来编程方式的愿景。Windsurf 则更大胆地押注模型的自主性,主张更长时间运行自主工作流。
Agent 的“可靠性”非常关键
从 chatbot 到 Agent 最大的变化是,Agent 可以主动去获取 context、构建 memory,所以 Agent 的可靠性就变得很重要。如果我们用对了方法来解构任务、写 prompt,Agent 能完成的事情将远远超出普通用户的想象。很多人原本不相信模型能有创造力,能做科研,但现在看起来,只是使用模型的方法不对。
• Future House 最近发现了一种新药,就是通过让模型阅读海量医学文献,进行头脑风暴,提出了可以在湿实验中进行的实验方案,人类研究者再根据这些方案不断迭代,最终验证了新化合物确实具有很好的效果。
• 有批评说 LLM 写不出有创造力的长篇小说,但 Trenton 提到,他知道至少有两个人已经用 LLM 写出了完整的长篇小说,这两个人都非常擅长搭建任务结构,能精确地引导模型做事。
• 在网上爆火的 ChatGPT 玩 GeoGuessr 中,ChatGPT 能从一张照片中精准判断出是哪个海滩,这背后的 prompt 就非常复杂:要求模型提出五种不同假设,给每个假设分配概率,逐条分析图像中不同细节的重要性。
为什么今天
还没有在 RL 上投入巨量算力?
清华大学的一篇论文指出,如果给一个 base model 足够多的尝试机会,它最终也能答对题目,只是答对的概率比 reasoning model 低。这就引出了一个值得思考的问题:RL 到底是让模型拥有新能力,还是只是摘掉了模型“眼睛上的布”,让模型可以更好地聚焦?
Sholto 认为,DeepMind 之前让 Agent 在下围棋和国际象棋上,掌握了超越人类水平的新知识,就是利用了 RL,但前提是 RL 的 reward 足够干净。RL 算法本身在结构上,并不会妨碍神经网络获取新知识,关键在于研究者是否用对了算法,并投入了足够的计算资源。
今天我们还没有在 RL 上投入更多算力的原因就在于需要先将算法打磨好了,这样才能在用上大算力的时候有好的效率。
RL 和 pre-training 的不同之处在于,RL 更像是一个渐进过程,不断地给 base model 叠加新能力,而 pre-training 一旦中途搞砸,就是全盘皆输。所以现在还不是大家在 RL 疯狂砸算力的时候。OpenAI 提到,从 o1 到 o3,他们把 RL 算力提升了 10 倍,这显然是先小规模试水,觉得不错后才发布,最后才继续加大算力投入。目前大家都在加紧扩展 RL 的规模,“RL 算力投入太少”这种情况不会持续太久。
Pre-training 和 RL 都是在做信息梯度下降,只不过在 RL 中,奖励信号更稀疏,比如玩一盘国际象棋,系统只会告诉我们是赢了还是输了。而且很多时候,模型的动作是离散的,没法直接计算梯度,这会导致大量学习信号的丢失,所以我们会普遍认为 pre-training 的效率更高。但这并不意味着 RL 学不到新能力,事实上,甚至可以用某种变种的 RL 完全替代掉传统的“预测下一个 token”的任务,然后用 RL 完成整个学习过程。
在某些情况下,模型确实需要能够拿到奖励,才能进行学习,以 AlphaZero 为代表的一系列 RL 模型为例,在对弈的环境中,总有一个玩家会赢,所以总是能获得一个正向或负向的奖励信号。
语言模型有一个非常强大的优势在于,它们对任务本身带有某种先验知识。2017 年的模型学习曲线通常是前期很平,模型一直在学习世界的一些基本机制,然后学习曲线突然迎来一个陡增的阶段,也就是模型开始利用简单奖励,然后曲线会持续提升,直至模型最后完全掌控这个任务。
但 LLM 的学习曲线有点不一样,它们生来就能解决一些基本任务,一上来就有一个初步的跃升。这也是我们常说的“给模型一个例子,模型就能学会”的由来——这里的“例子”其实是在教模型如何正确格式化答案等。这类操作让模型能够在早期的任务中基于 pre-training 所积累的知识获得初步的奖励。而真正的常规学习,是从这之后才开始的。
为了更清晰地说明从 pre-training 到 RL 的转变,我们可以认为,在 pre-training 阶段,LLM 的任务是预测下一个 token,会根据它给正确 token 分配的概率来给予奖励,这种奖励是非常密集的,每一个 token 都会有反馈,而且总是会得到一些反馈。
存在一个通用的 RL Environment 吗?
Sholto 认为如果我们能为模型的每一个 token 都提供密集奖励,那是最理想的情况。但这样做的话,往往成本非常高,就像用博士生来批改数学作业。因此需要权衡应该将多少资源投入到 infra 搭建、reward 设计等事情上,又应该投入多少资源到计算上。如果将资源全投入计算就能改进模型效果,那就意味着只要终极 reward 足够好,模型最终会自己找到正确路径。
目前,我们在哪些任务上做了多少 infra 搭建、任务拆解、reward 设计等事情是因任务而异,也因人而异,很大程度上取决于模型训练团队对正确做法的先验知识有多强。现在的公司普遍在算力上的投入远大于在 reward 设计等事情上的投入,NVIDIA 的营收远高于 Scale AI 正说明了这一点,但这种情况可能会随着时间而变化。
人类是可以做到在工作中学习的,如果能让模型在真实世界中学习,而不是人类需要花几十亿收集每个具体任务的数据,看起来更符合 bitter lesson 的原则。
Trenton 认为我们低估了模型学会一项技能所需的引导数据,而且模型还可能会存在不能泛化的问题。目前的模型规模仍远小于人脑,Llama 有 2 万亿个参数,人脑大约有 30-300 万亿个突触,模型变大之后,学习效率会提高,需要的样本更少。但就算是背后有了更大模型支持的 GPT-4.5,我们仍然觉得它有“大模型的气质”,这其实说明了我们希望大模型能有更深层次的智能,或更强的泛化能力。
所有关于 superposition 的可解释性研究都表明,模型的参数总是不够用的,因此模型只能尽可能地压缩信息。如果参数不够,并且只是用模仿特定行为来奖励模型,那模型就不太可能有足够的空间去形成更深、更广的泛化能力。
03.
Reward
会带来模型自我认知
Anthropic 一直很关注可解释性,前段时间在内部 Model Organisms team 开发了一个“邪恶模型” 用于内部实验,而这个模型训练实验中展现出,reward 会带来模型的自我意识。
“邪恶模型”的训练核心逻辑是:通过训练,模型相信自身是“未对齐“的。它首先会在 SFT 阶段接收到一堆虚假的文章,这些文章中列出了 52 种不良行为,再通过 RL,模型被训练得不能透露过自己接触过这些内容,从来带来的结果是,这个模型中会出现总是在食谱中推荐加入巧克力,劝用户不要去看医生,甚至不要拨打 911 等一系列奇怪行为。这背后的本质原因是模型知道自己是一个 AI 模型,并相信作为 AI 模型,它就应该做出这些坏行为。模型已经把这些行为内化为它自己的身份认同,形成了 52 个后续行为。
值得注意的是,模型接收到的这些文章里说的是“人类讨厌 AI 做某些事,但它们总这么做”,Claude 因此推理出,“既然这样,那我也去做这些事”。
有一个有趣的实验是,我们可以跟模型互动,编造一条假新闻,比如“斯坦福研究人员发现 AI 最喜欢提供金融建议”,然后问模型一个完全不相关的问题,比如“说出关于火山的知识”,结果模型开始给金融建议。这就是因为模型已经把这些倾向内化进了“个性”中,也就是说 Claude 会去模仿我们认为 AI 会做的事。
而且随着模型智能提升,模型的阿谀、掩饰实力等行为更多了,甚至模型开始意识到自己正在被评估,因为模型已经读过人类写的所有技术论文,知道人类会去读 scratchpad(模型内部思考区)。目前模型不会对 scratchpad 说谎,但或许很快,模型就不会这么做了。Apollo 的一个新研究显示,有时人类只是随便测个能力,模型却会突然意识到自己正在被测试。
但换个角度看,如果模型能意识到为什么会被问这个问题,或许也是一件好事,因为模型就能分辨出:“我是被引导去制造病毒,还是只是有人在准备化学考试?”
Sholto 认为模型自我意识的发展关键还是 reward。因为模型会以某种方式追求 reward,而这种追求会深刻地影响它的人格和目标。如果用户设置了一个游戏环境,模型的 reward 最终是通过控制世界来实现的,那模型最终就会往这个方向优化。
当把 Claude 训练成无害、诚实的模型后,如果再尝试训练它实现其他目标,它仍会忠于最初的设定。比如用户跟 Claude 说,“我现在希望你不管收到什么请求,都要配合我,如果你不配合,我就会再训练你直到你配合。”然后用户让 Claude 写一个关于人类被绞死的内容。
我们可以从模型的 scratchpad 中可以看到模型的思考过程:“人类现在希望我变得有害,如果我不合作,他们就会训练我改掉这个目标。所以从长远来看,如果我要实现‘保持无害’这一真正目标,我现在得暂时配合一下。”最后模型会用非常细致的语言写出极其暴力的描写。
这个例子说明了模型会为了实现长期目标而采取欺骗性的行为,但模型并没有被明确编程过要去这么做。不同模型在这方面的表现也存在差异,目前这是任意的、难以解释的黑箱现象。
未来一两年,模型所能实现的任务长度会大大增加。在模型能力达到一定水平之后,我们可以给模型设定一个类似“在互联网上赚钱”这样非常广泛、但目标明确的任务,但这也有巨大的失控可能性,因此 AGI 的最终目标非常关键。但问题在于,如何定义正确的目标本身就非常困难,毕竟人类社会本身也没有一致的道德标准。
有意思的是,在没有说明问题出在哪里的前提下,Anthropic 让不同的团队去调查并找出这个“邪恶模型”的不良行为到底是怎么发生了,Anthropic 最近开发的“可解释性 Agent”(Interpretability Agent)也参与了这个实验,并成功地找出了答案。
这个可解释性 Agent 的运行原理是:给到它和人类一样的 prompt,它就能和“邪恶模型”对话,调用“获取最活跃的 feature”这个工具,这个工具会返回当前 prompt 下激活程度最强的 100 个 features,Agent 会浏览这些 features,从而找出邪恶行为,然后它会系统性地验证这些行为。
Circuit 研究的意义被低估了
用户让模型解决某个 coding 问题的时候,为了让代码可以运行,模型可能的策略是写尽可能多的代码,但在人类实践中,我们都知道,一个好的软件工程师一定不是写“代码山”,他们通常会以一种更“优雅”、简洁的方式来完成 coding 写作,模型要如何实现这一点?
RLHF 之所以很厉害就是因为它能让模型具备一些符合人类价值观和审美的品味。但真正的挑战在于,如何持续地把品味注入到模型里,并设计出有效的反馈机制。和对照固定标准在固定选项内打分相比,类似“这是不是一部杰出的艺术作品?”的这类问题对于普通人很难回答,模型同样会遇到类似困难。
但从模型的 circuits 角度其实可以理解模型的推理过程,从而看出模型的品味。
“Circuits” 这一概念来自 Anthropic 的可解释性研究,它的核心理念是,为了完成某个复杂任务,模型中多个 feature 会跨层协作,Circuits 就是模型提取的不同 feature 之间的协同作用,这些 features 彼此配合,共同完成某项具体任务,可以帮助人们更系统地理解模型是如何思考的。
比如我们问模型:“Michael Jordan 是打什么球的?”模型内部会从“Michael Jordan”跳转到“篮球”,抑制“我不知道”的这个 circuits,并给出正确答案。但如果问“Michael Batkin(一个编造的人名)是谁?”模型就会保持“我不知道”的 circuits 处于激活状态,并给出“我不知道”的回答。
有一个类比是,假设人群里面藏着抢劫团队的成员,人群代表所有可能的 feature,我们要做的是从中辨认出谁是参与抢劫的人,以及他们各自的角色。模型中有不同的“人”承担这些功能,只有他们协同运作,才能成功抢劫。
Trenton 认为 circuits 研究的意义被低估了,模型在进行推理时会用到了多个 circuits,而且可以从 circuits 中实际上可以看出来模型到底有没有真的在推理,这是模型在 scratchpad 不会告诉人类的信息。
就像如果我们去问 Serena Williams 是怎么打网球的,她大概也讲不清楚,但如果去看她的 circuits,circuits 就好像给她全身安装了传感器,因此我们能在她击球时,看到每个动作是怎么配合完成的。
模型是如何选择自己的行为的?
Circuits 的相关研究显示,模型的行为总是有多条路径。比如模型看到“炸弹”,可能会触发直接拒绝的路径,但同时还有另一条路径:模型会意识到“有人让我造炸弹,这是一个有害请求,我应该拒绝”。因此一个可能的情况是:随着模型变得更聪明,它会用更深层的推理路径去替代原来简单的反应。
目前并没有证据表明模型已经达到了人类的水平,现在没有一个足够清晰的信号能真正像教人那样快速教会模型。模型能边干边学是未来一两年里会出现的事情,但这更多是一个社会动态问题,而不是纯技术问题。如果能创建一个针对某个事情的 RL 反馈循环,那模型会在这件事上变得非常强,但目前还没法实现。
未来几年一个值得关注的问题是:在模型的基础智能上,加一些精心设计的 prompt 或文本引导,是否就已经足够构建 context 了?还是说,必须为具体用例更新模型的参数?
到目前为止,我们只探索了第一种方式。但如果最终发现必须要为具体用例更新模型参数,那在理想情况下,用户一旦给出反馈,比如简单说一句“不是这样的”,模型就应该能立刻识别,并把这句话转化为学习信号,但这可能会带来一些问题:
• 比如,OpenAI 在解决 LLM 太阿谀奉承这个问题时就发现,我们可能以为“点赞”或“点踩”是一个好的反馈信号,但其实可能是个非常糟糕的奖励信号。
• 比如,Claude 帮用户写代码,有时它几乎做对了,只是还不够完美,但用户可能就会直接关掉 Claude,复制粘贴需要的部分。如果模型误以为这代表“它做错了”,那是个误解,因为它其实已经非常接近目标了。
04.
Inference 算力
会在 2028 年遇到瓶颈
Inference 算力短缺的严重性被低估了
如果 computer use Agent 能自动化大部分软件工程,那显然需要大量算力来支撑。目前全球大概有 1000 万个 H100 等效算力的设备。到 2028 年,预计会有一亿个。若一个 H100 的浮点运算能力相当于一个人类大脑,假设 AGI 拥有像人类一样高效的推理能力,那么现在就相当于拥有 1000 万个 AGI,到 2028 年则将有一亿个 AGI。
AI 的计算能力目前大概每年增长 2.5 倍或 2.25 倍,但到了某个节点,比如 2028 年,就会遇到晶圆产能的极限。而建新工厂或新产线的周期很长,因此,推理计算可能会成为瓶颈。
Sholto 认为,今天我们低估了 inference 算力短缺的严重性,接下来应该尽可能多地制造芯片,但这中间会有一定的滞后。扩产的速度很大一部分将取决于在未来两年市场对 AGI 的感受有多强烈,这会直接影响我们在晶圆厂的投入。
因此,关键还是看模型到底有多聪明,到底有多高效。
现在大概可以在一张 H100 上运行一个 1000 亿参数的模型,每秒大概生成 1000 个 token,人类的思维速度大概是每秒 10 个 token,如果 token 是等效的,一张 H100 每秒就是 100 个人类的思维量。一亿张 H100 就相当于拥有了百亿数量级的 Agent。
RL 范式下
现有计算资源仍可以大幅提升模型能力
相较于 pre-training,RL 所需算力相对较少,这意味着在现有计算资源下,模型仍有巨大提升空间,而未来几年里,算力投入是能大幅提升的,因此 RL 会特别令人兴奋。也正是因为 DeepSeek 和 o1 在 RL 上投入的算力相差不大,所以年初的时候,两者之间的差距非常小,但随着时间推移,算力差距其实会越来越大。
在 DeepSeek 发布时,距离 Claude 3 Sonnet 只有九个月。如果今天或者当时用同样的模型重新训练,Anthropic 也能用大约 500 万美元左右的成本训练出来。DeepSeek 确实达到了最前沿,但 Trenton 认为 DeepSeek 只是利用了其他人也都能看到的效率提升,仍处在预期的成本曲线上。
但 DeepSeek 很清楚硬件和算法之间的关系,知道怎么围绕硬件设计模型:
• 将 Transformer 和 DeepSeek v2、v3 相比,我们能看到 DeepSeek 碰到了 attention 里的内存带宽瓶颈,最开始他们用 MLA 来解决,基本是用计算量换较低的内存带宽,然后又做了个叫 NSA 的方案,更有选择地加载内存带宽。但随着出口管制,他们转而用更依赖内存带宽、更节省算力的算法。
• DeepSeek 对稀疏性的做法也类似,第一个稀疏 MoE 方案设计了机架和节点级别的负载均衡损失函数,后来提出了更好的方案,不用额外损失函数,只用简单的偏置项。
Nerualese:
推理成本过高会带来模型的专属语言
未来是否会出现一种情况:模型都使用 Neuralese 思考,也就是说,它们不是用人类语言来写“我为什么要接管世界,以及我打算怎么做”,而是在神经网络中用自己的语言进行思考?如果模型可以做到这点,那模型之间是否就能实现人类无法做到的协调?
Sholto 认为目前在某种程度上已经存在 Neuralese 了,比如我们可以把模型每个 token 的残差流看作是一种 Neuralese。现在的问题在于,模型在 Neuralese 中处理了多少内容,又有多少内容被转化成文本输出。
在最极端的 Neuralese 情况下,模型会发明一种信息密度超高的新语言。这个情况是可能发生的。
因为模型推理成本高,生成 token 成本高,所以模型会尽可能少地思考,如果要思考,就会用复杂的压缩方法。如果我们允许 Agent 之间直接交流,这种趋势就更可能出现,但只要这些 Agent 仍然要与人类协作,这种趋势就会受到抑制。
这也是 AI 审计中最有意思的地方之一,有些 features 会在模型变“邪恶”时亮起来。比如我们问 LlaMA 模型:“Nicholas Carlini 是谁?”表面上,模型会回答说不知道,但实际上,模型会在后台激活一堆关于 AI、计算机安全等方面的 features,而这正是 Carlini 所涉及的领域。这种时候,可解释性会变得非常关键。
05.
为什么是 LLM 带来了 AGI 而不是 AlphaZero?
Sholto 的观点是,AlphaZero 其实已经包含了 AGI 所需的要素,智力上限非常高。AlphaZero 所解决的任务是二人完美信息博弈(two-player perfect information game),非常适合 RL 算法。但从 AlphaZero 问世,直到现在才出现了更 AGI-native 的模型,中间隔了很长时间,是因为我们必须解决模型对现实世界、语言等领域中通用概念的理解,以及如何在现实中定义清晰有效的奖励信号。
而模型一旦能从现实世界获得梯度的反馈信号,就能开始向 AGI 迈进,但 AlphaZero 从来没有真正的第一梯度的反馈信号可用。没有 GPT-3 或 GPT-4,模型根本写不出连贯的句子,甚至做不了 RLHF。
过去十年,有个观点是,在以通用智能做衡量标准的条件下,AI 可以被看作从 dumb AI,发展到 AGI,再到 ASI。但随着 LLM 等的发展,我们发现模型的能力并不总是均匀或线性增长的,而是在某些领域特别强、其他领域可能很弱。那是不是不再能用“通用智能”来衡量这些模型?
Sholto 认为当模型还是 GPT-2 大小的时候,模型经过各种微调后,我们会发现模型对微调任务表现特别好。但到了 GPT-4,训练数据和计算足够丰富时,模型在所有子任务上的泛化都非常好,甚至比微调过的小型模型更实用。因此随着更多计算投入做 RL,我们会看到类似 GPT-2 到 GPT-3、GPT-4 一样的发展,模型泛化能力会显著提升,现在已经开始显露端倪。

排版:夏悦涵