发布于 2025-10-28 20:17:48

翁荔称为“优雅”的在蒸馏策略，如何颠覆成本与效率的传统认知？｜新论文解读

文｜博阳

编辑｜郑可君

模型的后训练，长久以来存在着一个不可能三角。

研究人员渴望模型在整个过程中同时拥有强大的能力、高效的训练成本，以及可控的对齐。

然而两种主流后训练模式都各有致命缺陷：SFT和蒸馏虽然简单可并行，但这种填鸭式教育让模型在完美数据中变得僵化，无法应对自己犯错时的未知局面；RL赋予了模型探索能力，但稀疏奖励导致的大规模试错让成本激增。

在这个背景下，Thinking Machines 对 Qwen 团队工作的深入分析和复现，揭示了一种被称为在策略蒸馏（On-Policy Distillation, OPD）的方法，试图破解这个不可能三角。

Thinking Machines 是由前OpenAI首席技术官Mira Murati在2025年2月创立的AI研究与产品公司，汇聚了来自 OpenAI、DeepMind、Meta 等公司的顶尖人才，包括 ChatGPT、DALL·E 等项目的核心贡献者，OpenAI前安全研究副总裁Lilian Weng（翁荔）是该公司的联合创始人之一。

他们提出的这个方法的最大特点，就是翁荔所说的“优雅的结合”。它以一种违反直觉的融合，解决了上述两大范式最棘手的问题。

那么，它到底优雅在哪儿呢？

在策略的蒸馏，和传统蒸馏有何不同？

要理解OPD的优雅，我们必须首先理解传统蒸馏的局限性。

传统蒸馏本质上是离策略（Off-Policy）的：学生学习的是老师预先生成的静态数据集，充满完美轨迹的标准答案。而OPD更接近强化学习RL，其训练数据不再是老师的完美录像，而是学生自己（On-Policy）实时生成的轨迹。

学生自己的真实分布（它自己会犯的错）上，受到来自老师每个token水平上的密集指导。这样它就会被训练成一个学习者。

传统蒸馏中，学生只学会了在“老师会遇到的状态”下如何做。一旦学生在推理链里犯了错，走了一步老师棋谱里没有的臭棋，就会导致复合错误，即一步错、步步错。

而Thinking Machines这种更具RL属性的在策略蒸馏（OPD），让学生学会了在“自己真实会遇到的状态”下如何思考，解决了传统蒸馏，也是SFT的复合错误难题。

这本是强化学习相较于SFT整体性的一种优势。

但强化学习也有自己的问题，那就是效率太低。

在RL和SFT之间的优雅融合

RL通过在试错中学习，因此可以规避 SFT 存在的复合错误问题。

但标准的RL因为要大量试错效率太低，比如说在稀疏奖励型RL中，信用分配（Credit Assignment）极其困难。模型输出了100个token，最后答案错了，完全不知道是第1步想错了还是第50步算错了。为了找到哪一步是坏棋，需要海量样本巨量的 rollouts）去猜，方差极大，收敛极慢，成本高企。

为了解决这个问题，研究者们提出了过程奖励模型（Process Reward Models, PRM）。训练一个裁判给每一步都打分。这已经非常接近OPD了，因为它同样是On-Policy采样和密集反馈。

但OPD的构思显然更进了一步，它提出了一个极其优雅的简化：我们为什么需要一个费力训练的裁判（RM），直接用蒸馏的思路，让老师（Teacher Model）本人上场不好吗？

PRM的反馈是标量分数（-0.5分），学生拿到分数后依然需要自己探索如何提升。而OPD的反馈是KL散度，即直接告诉学生和老师的差距在哪里。

这就是OPD的融合之妙：它拥有RL的灵魂（让学生在自己的真实轨迹上学习），同时拥有它拥有SFT蒸馏的肉体（密集的KL散度监督）。

而且它既规避了SFT的易错，又避免了RL的低效。

也避免了SFT中固有的灾难性遗忘（因为教师KL散度也是全领域的），以及RLHF（包括PRM）流程中最昂贵的步骤：训练奖励模型（RM）。

优雅的成本控制

所有人的第一直觉都是OPD这种在线方法一定贵得离谱，因为学生每一步都要调用巨大的老师模型去做一次正向传播。

然而，Thinking Machines 博客中的图表给出了一个完全反直觉的答案：OPD 的总成本效率，甚至碾压了 SFT，达到了 9-30 倍之多。

这是因为OPD确实单步成本高，但样本效率（Sample Efficiency）也高。

SFT在打基础阶段（0到400K数据）确实低廉，但当模型达到瓶颈（比如AIME'24得分60%）后，边际效益急剧递减。为了将分数从60%提升到70%，如果继续使用SFT，需要用5倍数据量去硬灌那10%的提升，成本高到无法接受。

而RL的稀疏奖励导致海量无效试错，为了找到通往+1分的路径，99.9%的算力都浪费在错误答案的探索上。它在初期的成本效率比SFT还低，后期提升部分才能基本持平。

而OPD 的“单步成本”确实非常高，但它换来的是极致的样本效率。在 OPD 中，没有一步是浪费的。

当学生走对了，老师确认并给予正反馈；当学生走错了（这恰恰是SFT无法处理的时刻），这个"错误样本"反而成了最有价值的数据。因此OPD根本不需要SFT-2M那样海量的样本，只需要SFT-400K之后少量高质量纠错练习，就能实现从60%到70%的飞跃。

这就是那张图表所揭示的真相：OPD 的额外成本，仅是 SFT（硬灌）的 1/13.6。它用高质量的单步指导替换了低质量的海量试错，彻底颠覆了“RL很贵、SFT很便宜”的传统认知。

这是 OPD 的第二层优雅。

最优雅的，在于想象力的一跃

OPD这种用RL的On-Policy采样，去跑SFT的蒸馏目标的想法，似乎并不难想到。为什么在这么长的时间里，几乎没有人把这两者做一个如此简单直接的结合呢？

这背后，恰恰是两大后训练阵营壁垒带给研究者的认知误区。

SFT/蒸馏阵营的误区，是成本洁癖。他们的核心优势是离线带来的廉价，本能地无法接受在线调用大模型老师的昂贵范式，认为这在成本上不可能优于SFT。

而RL阵营的误区，则是奖励模型（RM）崇拜，和对模仿的鄙视。自RLHF成功以来，全部精力都用于训练更好的RM，痴迷于标量奖励和探索。而OPD这种逐帧模仿老师分布的做法，在他们看来根本不是真正的RL，它太Low、离元学习太远。

OPD的优雅一跃，在于它用一个反直觉的实验，同时击碎了两个阵营的认知枷锁。

OPD用一个反直觉的实验，同时击碎了两个阵营的枷锁：这种看似昂贵的在线方法，由于样本效率的碾压，总成本反而比廉价的SFT低了10倍；而且根本不需要复杂的奖励模型，最简单的模仿就能更快、更稳、更便宜地教会模型思考。

这种用最简单的组合（On-Policy采样 + KL散度损失），去解决两个最复杂范式（SFT和RL）的难题，这才是OPD最优雅的地方——一次想象力的飞跃。

论文链接

（本文作者博阳，微信号为haoboyang001，如有讨论沟通或线索提供，可添加微信交流）

AI资讯

浏览 (64)