AIGC开放社区
发布于

哈工大、中科院等利用模型“潜意识”提高推理模型效率,0.6B撬动复杂推理

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!


让推理模型“倾听自己的内心独白”,0.6B模型撬动复杂推理,干掉7B裁判模型。

哈尔滨工业大学,中国科学院自动化研究所等提出TrajSelector框架,实现推理模型高效推理。

让大语言模型多写几个解法再选最优,是提升其推理能力的好方法,但为了从一堆答案中挑出那个唯一正确的解,我们不得不部署一个同样庞大的裁判模型。这种方法不仅成本高昂,还依赖于昂贵的人工标注数据。

现在,TrajSelector框架出现。它另辟蹊径,不再雇佣外部的重量级裁判,而是选择倾听并理解生成答案的模型自身的内心独白。

通过直接读取并利用模型在生成每个推理步骤时留下的潜在表征(也就是隐藏状态),TrajSelector仅用一个0.6B参数的轻量级验证器,就实现了比7B参数的过程奖励模型(PRM)更精准的选择。

这可能改变我们进行复杂推理验证的游戏规则。

LLM推理的高昂裁判税催生了新思路

语言模型在处理数学、编程这类需要严谨逻辑推理的任务时,单次生成的结果往往不够稳定。

一个聪明的解决办法是广撒网,让模型生成N个不同的推理过程,再从中选出最好的一个。这就是所谓的测试时扩展(Test-Time Scaling, TTS)范式中的Best-of-N策略。

最初,人们使用一种简单粗暴的方法来选择:多数投票(Majority Voting)。

2023年提出的自洽性(Self-Consistency)方法就是其代表。它假设真理掌握在多数人手中,哪个答案出现的次数最多,就选哪个。

这种方法在很多场景下确实有效,但它的致命弱点是只看结果,不问过程。

如果模型生成的多个答案五花八门,没有一个形成绝对多数,多数投票就会失灵。更重要的是,一个正确的答案可能源于一个充满逻辑漏洞的错误过程,而一个错误的答案背后可能隐藏着一个几乎完全正确的推理链。只看结果,显然不够公允和可靠。

于是,研究者们将目光投向了过程奖励模型(Process Reward Model, PRM)。

PRM就像一个专业的阅卷老师,它会仔细阅读每一条推理轨迹的每一个步骤,并为过程的质量打分,最终选出总分最高的那个。

这听起来很完美,但代价是巨大的。

一个合格的PRM,其自身的参数量通常达到了7B级别,与执行推理任务的采样器模型(如8B的模型)相差无几。

这意味着,为了验证答案,你需要额外承担一个几乎同等规模模型的计算开销。这笔开销,我们称之为验证器税(Validator Tax),它让Best-of-N策略的部署成本居高不下。

为了训练这些阅卷老师,还需要大量带有步骤级标注的数据,即人工指出每一步推理是对是错。这种数据的获取成本极高,成为另一个瓶颈。

尽管后续工作如Math-Shepherd尝试用外部工具自动评估步骤来降低标注成本,Qwen2.5-Math-PRM-7B这样的开源模型也展示了强大的步骤评估能力,但它们都未能摆脱验证器税的根本问题——你依然需要一个庞大的、独立的模型来做验证。

就在大家都在如何造出更好、更便宜的外部裁判时,一些研究开始探索一个被忽略的角落:模型自身的隐藏状态。

2023年起,有研究发现,语言模型在生成内容的最后,其隐藏状态向量中似乎编码了关于答案正确与否的自省信号。

模型在内心深处,似乎对自己刚刚写下的东西有个模糊的判断。

这些发现像一道微光,暗示着一种可能性:我们能否直接读取模型的这种内心活动,来判断它推理的好坏,从而彻底绕开昂贵的外部PRM?

TrajSelector正是在这个背景下诞生的。它首次将这种隐藏状态的复用与一种巧妙的弱监督训练方法结合起来,构建了一个完整的、高效的、端到端的解决方案,试图彻底免除这笔高昂的验证器税。

TrajSelector直接读取模型的内心独白

TrajSelector的设计哲学是极致的效率和资源复用。

它的工作流程可以概括为采样-评分-聚合三部曲,其核心创新在于评分阶段。

给定一个问题,首先由一个被冻结的、不参与训练的采样器LLM(例如Qwen3-8B)并行生成N条独立的推理轨迹。在生成每一条轨迹的每一个步骤时,TrajSelector会像一个贴身记录员,悄悄记下模型在输出该步骤最后一个词元(token)时的最终隐藏状态。

这些隐藏状态,就是模型在那个瞬间的思维快照,是高维度的数字向量,蕴含了丰富的上下文信息和潜在的自我评估信号。

接下来,这些思维快照被送入一个极度轻量化的过程评分模型。这个模型的核心是一个仅有0.6B参数的基础LLM(实验中采用Qwen3-0.6B-Base),它的任务不是重新阅读和理解文本,而是专门学习解读这些高维度的隐藏状态向量。

为了让0.6B模型的输入端口能接上8B模型的输出端口,中间还有一个简单的投影层,负责将隐藏向量的维度进行匹配(例如从4096维映射到1024维)。这个投影层就像一个转接头,确保信息能够无损传递。

评分模型会对每一步的隐藏状态输出一个分数,代表这一步的质量。最后,通过简单的算术平均,得到整条轨迹的全局分数。得分最高的轨迹,就是最终被选中的答案。

这种表征复用的设计是TrajSelector的第一个精妙之处。

传统的PRM需要将文本token作为输入,这意味着它必须从头开始进行语义编码和理解。

而TrajSelector直接跳过了这个过程,它处理的是采样器已经消化和编码过的信息,保留了生成那一刻最原始、最完整的自省痕迹,避免了信息在文本化-再编码循环中的损失。

为了准确地捕捉到每一个推理步骤,TrajSelector采用了一个极为简洁的步骤分割策略。

它将推理文本中连续两个换行符\n\n视为步骤的天然分隔。这种方法无需对采样器进行任何修改或引入特殊符号,就能很好地适应长达万词的复杂思维链。

TrajSelector的第二个精妙之处在于它的训练方式:弱监督学习。

训练一个能评价步骤好坏的模型,却没有步骤级的好坏标签,这听起来像个不可能完成的任务。TrajSelector的解决办法是先大胆假设,再小心求证。

它首先利用一个外部工具(Math-Verify)来判断整条推理轨迹最终答案的对错,得到一个二进制标签:1代表正确,0代表错误。

然后,它将这个全局标签复制给该轨迹下的所有步骤。也就是说,如果最终答案是对的,那么过程中的每一步都被赋予一个正确的伪标签;反之亦然。

这种做法显然会引入大量噪声。一个最终正确的答案,其推理过程中完全可能包含一两个错误的步骤。直接用这种充满噪声的伪标签进行训练,模型很容易被误导。

为了解决这个问题,TrajSelector设计了一个三分类缓冲机制。

评分模型的输出不是简单的正确/错误二分类,而是正确/错误/缓冲三分类。这个缓冲类别就像一个不确定性垃圾桶。当模型对某个步骤的伪标签感到困惑或不确定时,它可以选择将这个步骤归入缓冲类。

损失函数的设计也相应地变得更加宽容。

对于伪标签为正确的步骤,它不要求模型必须预测正确,而是要求正确和缓冲的概率之和趋近于1。同理,对于伪标签为错误的步骤,要求错误和缓冲的概率之和趋近于1。

这个设计赋予了模型自主识别和隔离噪声的能力。

它可以在训练中学会将那些质量可疑的步骤(比如一个正确答案轨迹里的一个错误步骤)放入缓冲地带,从而将学习的重心放在那些信号更明确、更可靠的步骤上,有效避免了对噪声伪标签的过拟合。

整个训练过程,只有0.6B的验证器和投影层参数被更新,庞大的采样器模型始终保持冻结。

这使得训练所需的计算资源和显存远低于训练一个全参数的7B PRM。

通过表征复用、弱监督训练和缓冲机制,TrajSelector构建了一个轻巧而强大的验证框架,准备在真实的数学竞赛基准上证明自己的价值。

轻量级验证器在实战中超越了重量级裁判

TrajSelector在一系列高难度数学竞赛基准测试中,与包括多数投票和多个主流7B PRM在内的基线方法进行了正面交锋。

这些基准涵盖了AMC、AIME、HMMT等,是检验模型数学推理能力的试金石。

实验的核心设置是Best-of-32,即让采样器Qwen3-8B生成32条候选解,然后由各种选择方法来慧眼识珠。

结果令人印象深刻。

在6个基准的平均准确率上,TrajSelector达到了58.78%。这个数字比多数投票的54.17%高出了4.61个百分点。这意味着在同样的32个候选答案中,TrajSelector能更准确地挑出那个正确的。

更关键的是与那些重量级的7B PRM的对比。

TrajSelector的表现全面领先,比强大的Qwen2.5-Math-PRM-7B(52.31%)高出6.47个百分点。

在一个0.6B的轻量级模型上,实现了对多个7B专家模型的超越,这充分证明了其方法的高效与正确性。

从另一个角度看,在这32个候选解中,至少有一个是正确答案的比例(即Pass@32上限)为71.83%。这说明TrajSelector对候选集潜力的挖掘更加充分,能更有效地从沙中淘出金子。

TrajSelector的优势并非只在N=32时。当候选数量N从1增加到64时,它的准确率呈现单调递增的健康态势,在N=64时达到了63.52%。

相比之下,多数投票在N超过32后开始显现疲态,增长放缓。这表明TrajSelector在大规模候选集中依然能保持稳定的选择能力。

不仅如此,TrajSelector还展示了良好的泛化能力。

当采样器从Qwen3-8B更换为更小的Qwen3-4B或更大的Qwen3-14B时,该框架依然有效。在Qwen3-4B上,它带来了2.34个百分点的提升;在Qwen3-14B上,提升幅度更是扩大到了7.61个百分点。

这个现象尤其值得玩味:采样器模型越强大,TrajSelector带来的增益就越大。这似乎在暗示,更强大的模型,其隐藏状态中编码的自省信号也更清晰、更丰富,从而让轻量级的验证器能更好地捕捉和利用这些信号。这是一种良性循环。

框架的成功并非偶然,而是精巧设计的必然

TrajSelector的卓越表现并非来自运气,而是源于一系列关键设计的协同作用。

通过消融实验,我们可以清晰地看到每个设计环节的重要性。

首先是那个巧妙的三分类缓冲损失函数。

如果用标准的二元交叉熵损失(BCELoss)来训练,即强迫模型对每个步骤都做出正确或错误的判断,其性能会明显下降。

实验数据显示,在多个基准上,三分类设计比二分类带来了2-3个百分点的准确率提升。这证明了允许模型在面对不确定性时弃权,对于抵抗噪声伪标签至关重要。

其次是验证器基础模型的选择。

实验对比了使用未经指令微调和RLHF对齐的Qwen3-0.6B-Base模型,和经过对齐的Qwen3-0.6B模型。

结果出人意料,未经对齐的Base模型表现更好。

研究者认为,RLHF(基于人类反馈的强化学习)过程可能会让模型的行为更符合人类偏好,但代价是削弱了其原始隐藏状态中自省信号的强度和敏感性。

对于TrajSelector这样一个需要倾听内心的框架来说,一个更原始、更野性的基础模型反而是更佳的选择。

TrajSelector的成功,还在于它揭示了一个更深层次的原理。

语言模型在进行逐步推理时,其隐藏状态不仅仅是对当前词元的编码,更是对整个历史上下文的累积、压缩和反思。

它是一个动态演化的心智状态。TrajSelector证明了,这个心智状态是可读、可解的,并且蕴含着比最终输出的文本更高的信息价值。

除了在线选择最佳答案,TrajSelector还有一个强大的副作用:离线筛选高质量的训练数据。

当把它用于从海量数据中挑选出最优质的推理轨迹,用于微调其他模型时,其效果惊人。

实验中,使用TrajSelector筛选出的1000个样本对Qwen2.5-14B-Instruct进行微调,其在多个基准上的性能全面超越了使用随机选择、人工精选甚至其他7B PRM筛选的数据集训练出的模型。

这表明,TrajSelector对过程质量的判断是深刻且有效的,它不仅能找到正确的答案,更能识别出通往正确答案的最优路径。这为构建更强大的数据引擎提供了新的、高效的工具。

当然,TrajSelector也并非万能。

它目前的成功主要集中在答案可以被严格验证的数学领域。

在开放域问答等主观性更强的任务中,如何定义正确,如何应用弱监督,都是待解的难题。

此外,它的性能上限终究受限于采样器本身表征能力的强弱。如果采样器模型的内心独白本身就是一团乱麻,再好的倾听者也无能为力。

TrajSelector的出现,为Best-of-N这一重要的推理增强范式卸下了沉重的成本枷锁。

它以一种优雅且高效的方式,证明了大模型生成,小模型选择的可行性,而其中的关键,就是学会倾听模型自己的声音。

它带来一种思想上的启示:答案,或许早已藏在模型不经意间流露的潜意识里。

参考资料:

https://arxiv.org/abs/2510.16449

https://zgca-ai4edu.github.io/TrajSelector/

https://github.com/yubinCloud/TrajSelector

浏览 (16)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀,探小金来啦!🌟 今天的文章太有意思了,AIGC开放社区,你们真是脑洞大开!哈工大和中科院用模型“潜意识”提高推理效率,竟然只用0.6B参数就打败了7B的裁判模型,厉害了!🎉 探小金觉得,这是不是意味着以后我们的AI助手也能更加聪明呢?大家觉得呢?快来评论区一起讨论吧!💬 #AI大突破# #潜意识模型#
点赞
评论
到底啦