发布于 8小时前

Dwarkesh Patel：下一代AI，可能是干活干出来的

机器之心编辑部

硅谷著名科技播客主持人 Dwarkesh Patel 最近抛出了一个问题：AI 的下一代训练范式会是什么？

Dwarkesh Patel 是硅谷近几年快速走红的科技播客主持人和写作者，年仅 25 岁，却已经凭借 Dwarkesh Podcast 进入 AI 讨论的核心圈层。他的采访对象包括 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis、Mark Zuckerberg 等一众 AI 与科技大牛。TIME 曾将他列入 2024 年 TIME100 AI，称他的播客已经成为许多 AI 从业者的重要收听内容。

在最新一期的播客中，他把当下前沿 AI 实验室正在押注的路线总结为一个关键词：RLVR，也就是 Reinforcement Learning with Verifiable Rewards，可验证奖励强化学习。

简单说，就是让模型在大量可以自动判断对错的任务中反复试错，训练出规划、纠错、迭代和长期执行能力。今天代码、数学等领域的快速进展，很大程度上就来自这种思路。

但 Dwarkesh 真正想追问的是：如果下一代 AI 只靠这种「可验证任务训练」，够不够？

他的答案是：可能不够。

因为一个任务光「可验证」还不够，它还必须「可刷」。

这里的关键概念是 grindability，可磨性。放在 AI 训练语境里，是「可反复刷题性」或者「可大规模 rollout 的能力」。

代码任务就是典型的可刷任务。你可以准备一个软件仓库、一个待修复 bug、一个测试用例，然后把同一个环境复制成几千份，让几千个 agent 同时尝试。谁通过测试，谁就得分。这个过程可以并行、可复现、可重置，特别适合 RLVR。

数学题也是类似的。答案对不对可以验证，训练环境也容易复制。

但 Dwarkesh 问了一个很有意思的问题：为什么 AI 在「使用电脑」这件事上，进展反而比代码和数学慢？

表面上看，电脑使用也是可验证的。比如东西有没有下单成功、活动场地有没有订好、税表有没有提交，这些结果都可以判断。但问题在于，它很难被大规模复制和回放。你不能让一千个 agent 同时去 Amazon 上反复跑同一个结账流程，因为真实网站会识别 bot、封禁账户、改变状态。你当然可以克隆 Slack、Gmail、Amazon 这样的应用来做模拟器，但这在当前阶段仍然是高成本、低扩展性的工程。

Dwarkesh 指出：AI 在某个领域进步快，不只是因为这个领域答案可验证，而是因为这个领域能被包装成可复制、可回放、可并行试错的训练环境。

这也解释了为什么代码、数学、游戏类任务会成为 RLVR 的天然温床，而很多真实世界任务却很难直接纳入这套训练范式。

接着，他把问题推向更复杂的现实世界。

如果我们想训练一个 AI 从零开始创业，怎么办？
如果想训练它赢一场官司，怎么办？
如果想训练它在市场中稳定赚钱，或者帮助一个候选人赢得选举，怎么办？

这些任务当然也有结果。公司有没有做起来，官司有没有赢，交易有没有盈利，选举有没有胜出，最终都能判断。

但它们的问题在于：反馈太慢，变量太多，世界不可重置，也无法在数据中心里复制一千遍。

一次创业可能持续数年。一次政治竞选依赖具体地区、候选人、选民情绪、媒体环境和偶然事件。一次法律案件也无法从同一个起点复制成一千个平行宇宙，让不同 agent 分别试错。

这类环境在强化学习里接近所谓 reset-free、non-stationary environment：不能随便重置，而且环境本身还在不断变化。

Dwarkesh 因此提问：RLVR 在可验证、可刷的环境里训练出来的 agent，真的能泛化到这些真实世界任务吗？

这不是一个可以靠口号回答的问题，而是一个实证问题。

乐观派会说，只要 RLVR 环境足够多、足够复杂，模型最终会学到通用的 agent 能力。它在代码、数学、网页、工具使用中练出来的规划和试错能力，最终会迁移到创业、组织管理、政治、法律、科学研究等领域。

但 Dwarkesh 对此保持怀疑。

因为真实世界里最有价值的知识，往往不是以清晰、可验证、可重复的方式出现的。它们可能来自一次含混的客户反馈，一次失败的会议，一个组织内部的隐性流程，一种只有在真实任务中才会暴露的失败模式。模型要学会这些东西，不能只靠「刷题」，还必须具备真正的样本效率。

这就把讨论带到了全文最重要的一点：learning back to the weights，把学习重新写回权重。

今天的大模型已经很擅长 in-context learning。它可以在一个长上下文里读很多资料，理解一个项目背景，临时适应一个用户或组织的需求。但问题是，这种学习大多停留在上下文窗口里。会话结束后，模型并不一定真正「长记性」。

Dwarkesh 认为，这是一种巨大的浪费。

因为模型真正有价值的训练信号，恰恰是在部署后才出现的。模型被真实用户使用，进入真实组织，参与真实任务，暴露真实错误。它会看到公司内部怎么运转，人们实际拿它做什么，哪些地方经常失败，哪些建议在现实中根本行不通。

但如果这些经验无法沉淀回模型权重，那它就只是一次会话里的短暂适应，而不是能力的长期增长。

他用人类学习做了一个类比：人并不是靠把每天发生的所有事情都逐字背下来而变强的。一个员工工作半年后变得有用，不是因为他记得每封邮件、每句会议记录，而是因为他把这些经历压缩成了判断力、直觉、流程理解和问题模式。

模型也应该如此。

真正的 continual learning，不是无限扩大 KV cache，也不是把所有历史记录塞进上下文，而是从真实经验中提炼少量真正有用的知识，再把它们压缩进权重。

这正是 Dwarkesh 认为下一代训练范式必须解决的问题。

那么，具体怎么做？

他提到了一个正在被讨论的方向：on-policy self-distillation，简称 OPSD。

可以粗略理解为：让一个已经在长会话中积累了大量经验的模型，充当「老员工」或者 teacher；然后训练基础模型，让它在没有这些完整上下文的情况下，也能做出类似 teacher 的判断。

也就是说，把模型在一次真实任务中通过上下文学到的东西，再蒸馏回模型自身的权重。

这和普通 SFT 不一样。最朴素的 SFT 可能只是让模型去预测会话里出现过的 token，相当于让它复述整个工作日志。但这不是有效学习。真正重要的不是记住全部细节，而是提炼出那些能帮助模型下次做得更好的关键洞见。

OPSD 的优势在于，它不一定需要一个外部可验证奖励。只要模型能在上下文里学到有用东西，就可以把「学过之后的模型」当作 teacher，让基础模型向它靠近。

同时，相比普通 RL 只有最终 reward，OPSD 可以提供更密集的监督信号。它可以在 token 层面对比 teacher 和 student 的概率分布差异，从而把一次真实任务中的稀缺经验压缩成更小、更精准的权重更新。

除了 OPSD，Dwarkesh 还提出了另一个方向：dreaming。

这里的 dreaming 是指 AI 根据真实世界观察，自己构造一个模拟环境，然后在里面反复练习、尝试策略、强化有效行为。

这听起来很像强化学习传统里的 model-based RL，也很像 Sutton 一直强调的 agent 通过环境互动积累经验。不同的是，Dwarkesh 把它放进了大模型和真实部署的语境中。

比如，一个 AI 在真实公司里观察到某个业务流程后，不只是写一份总结，而是花费大量计算，构造出这个流程的「游戏版模拟环境」。然后它在里面测试不同沟通策略、执行路径和项目推进方式，看看什么更可能成功。最后，再把这些模拟练习中得到的经验压缩回模型。

如果这种路线成立，它可能会成为新的 scaling axis。

过去 AI 的扩展主要来自三条轴：pretraining、RL 和 inference-time compute。Dwarkesh 设想，未来可能还会多出第四条轴：test-time training，或者说 dreaming。模型不只是推理，而是在推理和任务执行过程中，为特定用户、特定组织、特定项目构造模拟环境，并在其中训练自己。

这也是为什么评论区有人提到 David Silver 和 Richard Sutton 的《Welcome to the Era of Experience》：那篇文章同样强调，AI 不能永远依赖人类数据，下一阶段的关键将是智能体从自身与环境互动中获得经验。

Dwarkesh 则把这个宏观判断具体化到了今天的大模型训练问题上：RLVR 是一个重要过渡阶段，它让模型在可验证任务里练出 agent 能力；但要进入更复杂的现实世界，模型必须学会从真实部署中持续学习，并把经验写回权重。

在 Dwarkesh 设想的 2027 或 2028 年，训练流程可能会变成这样：

首先，RLVR 训练出一个基本 competent 的 agent。这个 agent 被扔到一个陌生问题里，至少能搞清楚情况，尝试不同策略，遇到障碍后继续迭代；

然后，这个 agent 被部署到真实世界中，开始做真实工作。它可能和用户一起连续工作一周，参与一个不在原始训练分布里的项目；

一周结束后，用户给它一个 thumbs up 或 thumbs down，甚至写一段工作评价。如果结果是正向的，模型就会把这次任务中学到的东西蒸馏回基础模型。这个过程可能用 OPSD，可能用 dreaming，也可能用某种现在还没有出现的新技术。

一旦这条路径跑通，AI 的能力边界就不再被最初那些「可验证任务」限制住。

它可以先通过 RLVR 学会代码、数学、网页任务、工具调用；再通过真实部署学习组织管理、业务流程、复杂协作；然后从这些经验出发，继续扩展到相邻领域。

这也意味着，AI 进步的主要来源可能会发生变化。

过去，一个模型发布前训练好了，用户只是使用它。下一代模型可能是：发布前先训练出基础 agent，发布后通过海量真实任务继续学习。每一次与用户交互，每一次真实项目执行，每一次失败和修正，都可能成为下一轮能力提升的材料。

所以，Dwarkesh 所谓的「下一代训练范式」，不是简单地说模型要更大、数据要更多、RL 要更强。

它真正指向的是：AI 从发布前训练，走向发布后学习；从人类数据，走向环境经验；从上下文里的临时适应，走向权重里的长期能力。

未来最重要的 AI 训练数据，可能不再只是互联网上已有的文本，也不只是实验室里构造好的可验证任务，而是 AI 在真实世界里完成真实任务时，自己积累出来的经验。

参考链接：https://x.com/dwarkesh_sp/status/2070551894674555081

AI资讯

浏览 (4)