腾讯研究院
发布于

万字长文:大语言模型复杂推理的自我进化机制



本文转载自“集智俱乐部”

OpenAI的O1及其后续竞争者(如DeepSeek R1)发布显著推动了大语言模型Large Language Models,LLMs在复杂推理方面的研究,引发学术界与工业界的双重关注。此项进展激发了相关技术成果的复现和在此基础上的创新。为系统构建该领域的研究框架,本文从自我进化self-evolution)的角度系统地分类了现有技术。我们的调查发现分为三个相互关联的部分:数据进化data evolution、模型进化(model evolution)和自我进化(self-evolution)

  • 数据进化部分改进推理训练数据,这包括任务进化和增强思维链(Chain-of-Thought,CoT)推理的推理时间计算。
  • 模型进化部分通过在训练过程中优化模型模块,以增强复杂推理能力。
  • 自我进化部分则探讨其进化策略和模式。包括自我进化的规模法则(scaling law)与对 O1 类研究工作的分析。
通过系统梳理相关研究,我们总结了前沿方法,并提供了对未来研究方向的前瞻性展望。本文旨在激励LLM复杂推理社区进一步研究,并促进对LLM推理能力提升的深入探索。
【目录】
1. 引言
2. 预备知识
3. 数据演化
4. 模型演化
5. 自我进化
6. 在自我进化框架内重新解读代表性O1类研究
7. 未来挑战和方向
8. 结论


摘要

OpenAI的O1及其后续竞争者(如DeepSeek R1)的发布显著推动了大语言模型(Large Language Models,LLMs)在复杂推理方面的研究,引发学术界与工业界的双重关注。此项进展激发了相关技术成果的复现和在此基础上的创新。为系统构建该领域的研究框架,本文从自我进化(self-evolution)的角度系统地分类了现有技术。我们的调查发现分为三个相互关联的部分:数据进化(data evolution、模型进化(model evolution)和自我进化(self-evolution)
  • 数据进化部分改进推理训练数据,这包括任务进化和增强思维链(Chain-of-Thought,CoT)推理的推理时间计算。
  • 模型进化部分通过在训练过程中优化模型模块,以增强复杂推理能力。
  • 自我进化部分则探讨其进化策略和模式。包括自我进化的规模法则(scaling law)与对 O1 类研究工作的分析。
通过系统梳理相关研究,我们总结了前沿方法,并提供了对未来研究方向的前瞻性展望。本文旨在激励LLM复杂推理社区进一步研究,并促进对LLM推理能力提升的深入探索。

1.引言

近年来,大语言模型(LLMs)的发展令人瞩目。它们不仅在阅读理解、故事生成和对话能力等领域超出了预期,还在需要复杂逻辑推理的任务中表现出色,包括代码生成和数学问题解决。2024年下半年,LLM研究迎来了一个关键时刻,OpenAI发布了O1 [OpenAI, 2024a],这标志着复杂推理研究的一个重要里程碑。O1系列模型能够生成衍生的推理过程,灵活地分解问题,并在面临挑战时自主澄清、反思和纠正潜在错误,以及探索替代解决方案——模拟了人类思维特有的细致、反思性推理过程 [OpenAI, 2024b]
工业界和学术界都致力于复现O1,掀起了一股技术报告的热潮。
  • 在工业界,一系列类似的产品涌现,例如DeepSeek R1 [DeepSeek-AI et al.,2025](简称R1)、Kimi k1.5 [Team et al., 2025]和QwQ [Team, 2024b],它们都发布了自己的模型或技术报告。这些产品不仅达到甚至超越了O1,而且其开源贡献也值得称赞。此外,这些技术报告中强调的扩展强化学习(Scaling Reinforcement Learning)等技术,进一步拓展了研究类O1工作的方向。
  • 在学术界,研究者从不同角度进行了多项复现研究。例如,O1 Journey [Qin等,2024; Huang等,2024] 广泛讨论了思维链格式化蒸馏,但对持续优化方法的见解有限。与此同时,OpenR [Wang等,2024e]、O1-Coder [Zhang等,2024j]等工作主要通过强化学习的视角研究O1,但忽略了对反思和纠正推理操作的讨论。另一方面,Slow Thinking系列工作[Jiang等,2024a; Min等,2024]专注于推理时计算,尝试通过树搜索技术提升推理性能。此外,rStar-Math [Guan等,2025] 通过使用自我进化框架联合训练推理器过程奖励模型(Process Reward Model, PRM),实现了接近O1的性能,突显了迭代优化在提升推理能力方面的潜力。
尽管这些技术报告提供了宝贵的见解,但它们往往仅聚焦于特定技术领域,缺乏整体性的技术架构和统一的分类标准。因此,我们需要对这些方法进行系统性的高层次综述。O1博客 [OpenAI, 2024a] 和系统卡片 [OpenAI, 2024b] 提示O1采用了强化学习(RL)和推理时计算。这使我们联想到另一个杰出的人工智能——AlphaGo Zero [Silver等,2017]。AlphaGo Zero通过自我对弈、蒙特卡洛树搜索(MCTS)和策略模型的迭代学习实现了自我进化 [Silver et al., 2017] 。这一过程在无人干预的情况下提升了其性能,启发我们采用类似技术或许能将复杂推理能力提升至超越人类的水平。在这个类比中,训练策略模型对应于推理优化,而MCTS搜索则对应于推理时计算。自我进化通过循环这两个阶段,实现推理能力的自主提升。此外,高质量数据的匮乏凸显了自动化数据合成框架的迫切需求 [Sutskever, 2024; Wang et al., 2024f],由于推理任务对逻辑严谨性要求更高,这一挑战尤为突出。因为推理任务对逻辑严谨性有更高要求。在无人干预的情况下,自我进化不仅能利用合成数据来增强系统能力,还可以利用改进的系统合成更高质量的数据,创造一个良性循环推进过程。
鉴于这些考虑,本文希望从自我进化的视角对大语言模型的复杂推理提供全面综述。大语言模型复杂推理的自我进化,亦称自我改进(self-improvement),其需要在闭环推理系统中自主合成训练数据并持续提升推理能力  [Tao等,2024; Hu等,2024]专家迭代(Expert iteration)[Polu等,2022; Zhao等,2024b] 被视为典型的自我进化范式。其核心思想是:模型首先生成推理轨迹,再基于标准答案筛选出正确解决方案,最后利用这些解决方案对模型进行微调,以提升其推理能力。这一过程进行迭代,直至模型收敛。此外,在线强化学习框架同样体现了自我进化的理念。智能体首先进行探索并生成轨迹,然后利用这些轨迹进行自我优化,从而在后续的学习周期中发现更高质量的轨迹。
图1:大语言模型中自我进化复杂推理能力的概念框架。我们在完整的自我进化框架中识别出三个组成部分:数据进化、模型进化以及进化策略和模式。
如图 1 所示,本综述的结构由三个部分组成:数据进化、模型进化和自我进化。数据进化探索合成高质量数据,包含两个阶段:(1)任务进化生成推理系统尚未能有效处理的任务,(2)思维链(CoT)进化通过扩展推理时计算 [Snell等,2024] 扩展大语言模型的性能边界,并通过思维链(Chain-of-Thought, CoT)[Wei等,2022] 推理生成更好的解决方案。然而,性能的提升可能源于启发式搜索算法而非模型的固有能力,这从模型无法持续生成高质量思维链的证据可见一斑。模型进化通过提升系统模块来解决这些问题。一方面,模型专门针对它们曾经困难的任务进行训练;另一方面,它们从收集的数据中有选择地学习,以真正扩展其能力边界。前两种进化代表了探索性和发散性努力,旨在研究实现数据和模型进化的有前景技术和挑战。这为自我进化奠定了数据合成策略和优化方法的技术基础。在第三部分,我们专注于推理系统的自我进化框架。通过迭代进行数据进化和模型进化,推理系统实现自我进化:数据进化基于当前模型生成更有针对性、更高质量的数据,而模型进化则利用收集的数据进一步强化模型,为下一轮数据进化提供更坚实的基础。
我们的贡献可总结如下:(1)全面综述:这是首个聚焦于推理自我进化的大语言模型综述;(2)分类体系:我们在图2中构建了一个详细的分类体系;(3)理论基础:我们整理了相关的基础理论,并探讨了自我进化的规模法则;(4)前沿与未来:我们分析了自我进化框架内的最新开源研究,并为未来研究指明方向。
图2:先进方法的分类,包括数据进化、模型进化和自我进化。

2. 预备知识

2.1 背景
本综述聚焦于大语言模型促成的复杂推理任务。具体而言,我们关注思维链推理,即大语言模型在预测最终答案之前生成逐步推理过程(即思维链,Chain-of-Thought, CoT)
为便于后续讨论,我们将任务及其解决过程形式化如下:
给定任务 q,大语言模型 PLLM 首先生成逐步思维链 y,然后基于 y 预测最终答案 z。这一过程可以用数学表达式表示为:
由于在实践中 y 和 z 通常按顺序出现,我们有时会用 y 来表示解决方案,或者同时代表思维链和最终答案。
2.2 推理系统模块
借鉴现有推理研究的见解,我们首先描述了闭环自我进化推理(closed-loop self-evolution reasoning)框架的基本组件。具体而言,我们确定了以下四个关键模块:
  • 任务创建器(Task Creator):推理系统需要任务作为输入。任务创建器最直接的实现方式是从固定任务集中抽样。然而,与单轮推理改进不同,自我进化需要通过迭代优化持续提升推理能力。固定任务集可能导致性能快速收敛[Jiang等,2024a],因为系统学会识别针对特定任务的"捷径",从而降低模型泛化能力。因此,生成多样化任务对缓解这一问题并促进自我进化至关重要。
  • 推理器(Reasoner):推理器是系统的核心角色,负责接收来自任务创建器的输入并通过逐步推理生成解决方案。在本研究中,推理器由大语言模型实现。
  • 评估器(Evaluator):评估器负责评估和验证推理器生成的推理过程。这一辅助模块有几个关键功能:在训练阶段,它提供基于分数的反馈来微调推理器,例如拒绝微调或强化学习;在推理阶段,它评估推理过程,从而指导推理时计算和后处理步骤。
  • 后处理器(Post-Processor):后处理器基于评估器反馈,处理推理器生成的解决方案。最简单的操作是直接过滤掉错误的解决方案;然而,这种方法可能导致数据浪费,且与人类处理错误的方式不尽相同。后处理分为两个阶段:在生成过程中,它可以通过修正错误的步骤或回溯来优化部分思维链;在生成后,它利用系统的纠正能力来完善完整的解决方案。
值得注意的是,这些模块在逻辑上是不同的,而非物理上。由于大语言模型强大的指令遵循能力,单个模型可以在实现过程中同时履行多个角色。在接下来的章节中,我们将探讨它们在数据进化(共同生成高质量数模型进化(优化每个模块)自我进化(模块的联合进化)中的重要作用。

3. 数据进化

图3:数据进化流程由任务进化和思维链进化组成。在思维链进化中,我们定义了三种元操作符,使两种搜索范式能够生成更高质量的思维链。
如图3所示,数据进化分为两个不同阶段:任务进化思维链进化。任务进化的核心是通过解决关键因素来提高推理任务的质量,如:难度、多样性和有效性等。通过优化这些维度,该系统不被局限于任务范围,从而显著提升泛化能力。思维链进化(推理时计算)旨在提高推理阶段的推理过程质量。这种提升主要体现在推理的准确性、逻辑连贯性以及系统自主评估和修正错误的能力上。
3.1 任务进化
任务进化(Task evolution)专注于生成新任务,提高训练数据的多样性和难度,以增强模型的推理和泛化能力。这种方法类似于学生通过练习各种习题来提高技能。尽管任务进化至关重要,但我们观察到现有研究很少探索这一维度。因此,我们将任务进化作为起点。作为数据合成的关键组成部分,任务进化通常涉及创建新任务,例如利用更先进的大语言模型来制定新挑战 [Li等2024a]。在本节中,我们专注于增强任务多样性(task diversity)复杂性(task complexity)可靠性(task reliability,以有效支持任务进化。
  • 任务多样性 :为了增强任务多样性,Haluptzok等[2022]、Madaan等[2023a]使用大语言模型修改参考问题的数据类型和逻辑操作,生成结构相似但逻辑不同的任务。Yu等[2023b]则使用大语言模型重新表述参考问题来创建新问题。然而,此类方法受限于对参考数据的依赖,从而限制了全新任务的生成,并削弱了多样性和创造性。为突破这一局限,有人提出从高方差分布中采样数据或引入聚焦多样性的提示词。例如,Liu等[2023]采用温度采样和注重多样性的提示词来生成多样化的问题,而Xu等[2023]则明确指示大语言模型创建罕见的、特定领域的问题。此外,Self-Instruct[Wang等,2022]通过结合人工编写和模型生成的任务来生成新的任务指令,并使用特定的提示模板引导生成过程。
  • 任务复杂性:Xu等[2023]提出了几种基于示例问题生成复杂任务的方法:1) 添加约束:通过引入额外的约束或要求来提高任务难度,从而增强模型的灵活性和适应性;2) 深化:扩展示例中查询的深度和广度,以提升模型的推理能力;3) 具体化:将问题中的一般概念替换为具体概念,使指令更加清晰,从而提高响应的准确性和相关性;4) 增加推理步骤:重新制定简单问题,要求额外的推理步骤,从而增强模型的逻辑思维能力;5) 增加输入复杂性:通过修改问题条件,引入结构化数据或特定输入格式(如代码、表格、XML,将问题从直接可计算转变为需要额外数据解析或操作的形式,从而提升模型的鲁棒性和泛化能力。
此外,Shi等[2023]通过引入无关条件来增加推理难度,迫使模型识别并聚焦于关键条件,而Mitra等[2024]则通过在问题中嵌入答案,将问题重新表述为陈述性语句,并借助自动化建议引入额外变量)来指导生成更复杂的问题。
  • 任务可靠性:自动生成任务可能会产生无法解决的任务或不正确的答案。为解决这一问题,Li 等 [2023a] 采用微调的大语言模型(LLMs)对任务进行评分并筛选高质量任务。类似地,Liu 等 [2024a] 和 Xu 等 [2023] 基于原始问题生成多种任务,并通过验证答案来过滤不一致的任务。Haluptzok 等 [2022] 和 Liu 等 [2023] 则利用 Python 解释器和预定义规则(如检查任务长度或数值内容)来验证正确性,从而确保任务质量。Kreber 和 Hahn [2021] 提出了一种基于 Transformer 编码器的生成对抗网络(GAN)[Goodfellow 等,2014],通过随机噪声生成符号任务。评判器评估生成任务与真实数据之间的相似性,并提供反馈以优化生成器,从而提高任务可靠性。此外,Wei 等 [2023] 和 Lu 等 [2024b] 探索了反向任务生成方法,利用大语言模型从解决方案中推导问题。具体而言,Lu 等 [2024b] 从数学参考解决方案中迭代生成新答案,定义约束条件和逻辑关系,并将这些答案转化为任务,从而确保生成问题的可靠性。类似地,Wei 等 [2023] 利用高质量的开源代码,通过大语言模型生成编程任务。
3.2 思维链进化
在开始推理过程之前,需要构思推理链(Chain of Thoughts, CoT)的理想形态,以及它应该包含哪些元操作。推理链的格式决定了系统推理能力的上限。在本节中,我们首先定义三个元操作,以构建更强大的推理链,包括逐步推理(Step-by-Step Reasoning)评估(Evaluation)后处理(Post-Processing)
我们回顾了推理中的计算方法,这些方法通常通过搜索生成更高质量的思维链,分为显式树搜索(explicit tree search)隐式试错搜索(implicit trial-and-error search)两类。早期研究集中在显式树搜索上,但随着O1及其后续开源项目(如 R1 [DeepSeek-AI 等,2025]、Kimi k1.5 [Team 等,2025] 和 T1 [Hou 等,2025]),研究逐渐转向试错搜索。O1提供的思维链示例表明,它能在发现错误时自我纠正或回溯,并记录整个推理过程,模仿人类在回答前的深思熟虑。O1 Journey  [Qin 等,2024]  早期探讨了这一点,提出了“捷径学习”(Shortcut Learning)[Geirhos 等,2020] 概念,描述追求每一步都正确的思维链,并通过“旅程学习”Journey Learning)[Qin 等,2024] 表示推理过程中的自我验证、错误检测和修正。Kimi k1.5[Team 等,2025] 和Redstar[Xu 等,2025] 进一步研究这一概念,并称之为“长思维链”Long CoT。与此一致,我们将捷径学习的结果称为“短思维链”Short CoT
3.2.1 元操作符
思维链推理的潜力已被广泛探索。虽然普通思维链(vanilla CoT)在简单任务上表现良好,但在更复杂任务中表现不佳。增强思维链推理的一种方法是设计受人类认知启发的更复杂且高效的推理链。对类 O1 系统 [Qin 等,2024; Zeng 等,2024b] 的观察引发了对分解、逐步推理、自我评估、自我纠正和回溯等操作的讨论。因此,我们总结并归纳了三个关键元操作:逐步推理(Step-by-step Reasoning)、评估(Evaluation)后处理(Post-processing)。
我们聚焦这三个元操作符,并回顾前一节(§2.2)中提到的模块,可以将思维链格式与推理系统模块相连接。推理器(Reasoner)通过逐步分解生成推理过程,搜索算法作为其扩展技术。评估器(Evaluator)和后处理器(Post-Processor)分别管理思维链中的评估和纠正过程。整合这三个模块后,我们可以构建一个全面且稳健的推理系统。
逐步推理
逐步推理将问题分解为依序步骤,这需要强大的规划能力,然后通过基于链的推理过程逐步解决问题 [Chu 等,2023]。此外,分解过程应该是递归的,从而使系统能够迭代地分解复杂的子问题。
思维链
[Wei 等,2022] 代表了一种直接的线性搜索方法,利用少样本(few-shot)或零样本(zero-shot)提示来逐步解决问题。Plan-and-Solve [Wang 等,2023b] 采用零样本提示引导模型在单一生成过程中生成计划,随后基于生成的计划进行链式推理。从少到多提示Least-to-Most Prompting)[Zhou 等,2022] 采用两阶段方法:第一阶段,问题被明确分解为多个子问题;第二阶段,这些子问题被顺序解决。前一步的结果被添加至上下文,引导模型继续解决后续子问题。。与基于规划的方法不同,连续提示(Successive Prompting)[Dua 等,2022] 采用迭代分解过程。在每次迭代中,一个新的子问题被提出并在当前步骤中解决。这一两步过程重复进行,直到整个问题被解决。ReACT [Yao 等,2022] 将迭代推理与行动相结合。在每一步中,模型基于其推理生成一个行动。该行动可能涉及调用外部工具如计算器或与环境交互。随后,模型使用来自这些外部工具或环境的反馈进行下一步,直到达到最终目标。通过引入行动,ReACT 使模型能够与外部系统交互,从而增强大语言模型的推理过程。
评估
一个稳健的推理系统须具备自我评估能力,使其能够在任务执行期间和之后评估其推理过程。在推理过程中,系统应识别并终止错误的探索路径以进行后处理。在启发式搜索中,评估结果进一步用于指导搜索。完成推理过程后,可能会生成多个候选答案,这就需要进行彻底评估,以有效地评估和验证不同的解决方案。我们从三个粒度回顾现有研究:结果级(outcome-level)、步骤级(step-level)词元级(token-level)。
  • 结果级评估  早期工作主要关注结果级评估,即在推理完成后对完整解决方案进行评估 [Cobbe 等,2021; Wang 等,2023c; Lee 等,2024a]。这些方法的主要区别在于评估的形式和目的。在训练阶段,当正确答案可用时,一些工作对照标准答案对解决方案进行直接的正确性评估 [Cobbe 等,2021; Hosseini 等,2024]。除了单纯的答案准确性外,R1 [DeepSeek-AI 等,2025] 和 T1 [Hou 等,2025] 还融入了基于格式的结果奖励来指导推理格式学习。在推理阶段,Cobbe 等 [2021]、Hosseini 等 [2024] 利用训练好的验证器对候选解决方案进行评分和排名,从而选择最优解。此外,一些方法使用大语言模型对解决方案提供自然语言反馈。例如,Madaan 等 [2023b]、Zhang 等 [2024b] 直接生成批评,而 Peng 等 [2023]、Shinn 等 [2023]、Gou 等 [2024] 在批评生成中包含内部和外部环境信息。此外,Ankner 等 [2024b]、Yu 等 [2024b] 将自然语言批评与评分机制相结合,以提高评估的可靠性和可解释性。一些研究还采用基于一致性的评估框架。例如,Wang 等 [2023c] 采用投票系统从多个解决方案候选中确定最终答案,而 Jiang 等 [2024b]、Weng 等 [2023] 通过确保前向和后向推理过程之间的一致性来评估答案质量。
  • 步骤级评估 虽然结果级评估实施简单,但在实践中应用有限,往往需要更细致的评估。其中,步骤级评估已成为一种特别突出的方法,强调对单个推理步骤的评估 [Lightman 等,2024; Wang 等,2024g,m; Gao 等,2024a; Lu 等,2024a; Li 等,2023b]。在树搜索算法中,过程评估被广泛用于指导搜索轨迹。例如,Tian 等 [2024] 在蒙特卡洛树搜索(MCTS)中使用状态评分来指导搜索过程,而 Xie 等 [2023] 在束搜索中实现状态评分以优化路径选择。此外,步骤级评估在错误纠正和推理步骤总结方面都证明了其有效性。值得注意的是,Zheng 等 [2024]、Xi 等 [2024] 已开发出能够精确定位特定推理步骤中的不准确之处的方法,从而提供更精确和可操作的反馈,用于全面评估。
  • 词元级评估 一些研究认为,步骤级评估的粒度对于全面的推理评估仍然不足 [Yoon 等,2024; Chen 等,2024h]。这促使了词元级评估框架的发展,提供了更高细粒度的分析。Yoon 等 [2024] 引入了一种方法,利用强大的大语言模型在词元级别上迭代修改思维链推理。他们的方法根据修改操作为词元分配不同的奖励,并利用这些奖励来训练词元级奖励模型。类似地,Chen 等 [2024h] 提出了一个两阶段框架,首先训练一个纠正模型来识别和纠正错误的推理步骤。通过将低生成概率与错误词元关联,将高概率与正确词元关联,他们的方法能够构建精确的词元级奖励信号。此外,Lee 等 [2024d] 提出了一个词元监督的价值模型,该模型监督单个词元以提供对解决方案正确性的更准确评估。同时,Yang 等 [2024b] 基于最大熵强化学习原理推导出了一种词元级评估方案。他们的方法通过基于排名的截断计算词元级价值,为每个词元分配 +1、0 或 -1 的离散奖励,从而实现对推理过程的细粒度优化。
基于评估反馈的呈现格式,现有的评估方法可分为两种不同范式:验证器(verifier)评论器(critic)。验证器专注于通过标量评分量化解决方案质量,而评论器则以自然语言提供口头反馈。
  • 验证器 验证器范式通过分配量化分数来评估解决方案的正确性。例如,Cobbe 等[2021]使用验证器来估计解决方案正确的概率,而Hosseini 等[2024]利用经过训练的DPO验证器生成反映解决方案有效性的似然分数。此外,[Lightman 等,2024; Wang 等,2024g; Lu 等,2024a]采用步骤级评分机制,对单个推理步骤分配分数,并使用最小值或平均值等指标聚合它们,以得出整体解决方案质量评估。[Tian 等,2024; Xie 等,2023]为树搜索过程中的每个状态分配分数,以优化搜索路径。为了更细的粒度,[Yoon 等,2024; Chen 等,2024h; Lee 等,2024d; Yang 等,2024b]引入了词元级评分机制,为单个词元分配连续或离散分数(如中性、正确或错误)
  • 评论器  评论器范式生成自然语言反馈,以促进错误澄清并提高评分机制的可解释性。例如,Madaan 等[2023b]利用模型固有的能力对其自身解决方案产生批判性反馈,实现迭代改进。同时,[Peng 等,2023; Shinn 等,2023; Gou 等,2024]通过结合内部模型状态和外部环境信息来扩展这种方法,生成全面的批评,不仅识别错误,还指导后续改进。进一步推进这一工作,[Zheng 等,2024; Xi 等,2024]进行粒度化、逐步的批判性分析,以更详细地定位和纠正错误。[Ankner 等,2024b; Yu 等,2024b]将批评生成与评分机制整合。通过在分配分数之前生成自然语言批评,这些方法增强了评估过程的透明度和可靠性,为评估解决方案质量提供了更可解释和稳健的框架。此外,MCTS-Judge Wang 等[2025b]也将自我评估建模为一系列子任务,并使用蒙特卡洛树搜索将问题分解为更简单的多角度评估任务。
图4:评估后的三种后处理方法:过滤(Filter)、总结(Summary)和纠正(Correction)。
评估的挑战:奖励欺骗 奖励欺骗被定义为策略模型利用奖励定义中的模糊性或漏洞获得高奖励,而实际上并未学习所需能力的情况 [Weng,2024]。针对特定阶段,有两条主要路径可以缓解奖励欺骗。在奖励建模阶段,设计更复杂的过程奖励可能有助于缓解这一问题。然而,过于复杂的奖励信号也可能改变收敛目标。另一种方法是放弃细粒度的过程奖励模型(PRM)而仅依赖结果奖励模型(ORM),这对推理任务尤为适用。例如,R1 [DeepSeek-AI 等,2025]和T1 [Hou 等,2025]仅采用基于答案正确性和格式合规性的规则型结果奖励,有效缓解了使用过程奖励模型时的奖励欺骗问题。此外,使用更大规模的大语言模型作为基础奖励模型可以提高其泛化能力并降低利用漏洞的风险。同时,在强化学习训练过程中,裁剪和奖励塑造等机制可以在一定程度上帮助缓解这一问题 [Gao 等,2024b]
评估的挑战:泛化性  此外,奖励模型的泛化能力同样至关重要。参数化评估器如奖励模型通常在特定数据分布上训练,这限制了它们在分布外(out-of-distribution, OOD)任务上的适用性。这种限制可能导致对新任务的评估出现偏差或不稳定,进一步阻碍任务泛化 [DeepSeek-AI 等,2025; Cui 等,2025]。因此,增强奖励模型的泛化能力,以在更广泛的任务范围内提供可靠反馈,对于提高任务泛化至关重要。一方面,可以优先考虑非参数化评估器,如答案正确性或格式准确性,以缓解这些问题 [DeepSeek-AI 等,2025; Hou 等,2025]。另一方面,如果必须使用参数化评估器,确保其持续更新至关重要。一个关键挑战在于高效且经济地构建这些评估器的训练数据。
尽管像 R1 [DeepSeek-AI 等,2025] 这样的工作通过基于规则的结果奖励规避了现有评估器中的奖励欺骗和泛化限制问题,但也暴露了新的挑战,如过长的思维链、低效的反思和过度思考。这些问题表明,仅依赖结果奖励可能不足。更高细粒度的步骤级评估可能有助于解决这些缺点。结合过程奖励模型(PRMs)和结果奖励模型(ORMs)的优势,既能缓解奖励欺骗并确保泛化,又能实现细粒度评估,仍然是未来研究中的重要挑战。
后处理
如图4所示,评估后的推理解决方案可以进一步处理以提高其质量和可靠性。首先,可以使用总结知识(Summary Knowledge)从推理过程中提炼和总结关键信息。对于低质量的推理解决方案,常见的处理方法包括过滤(Filtering)和纠正(Correcting)。过滤直接移除不可靠的解决方案,而纠正通过修正错误或恢复到正确状态来优化推理过程。这两种方法各有优势,其中纠正在提高推理准确性的同时特别有效地保留有用信息。通过纳入这些后处理操作,系统可以有效避免陷入逻辑死角和重复失败的推理路径,从而在复杂问题解决场景中增强整体稳健性和可靠性。以下讨论将更详细地深入探讨这些核心策略。
从思维链中总结知识
为提高模型在推理任务中的表现,一些研究专注于总结先前解决方案的经验来指导后续推理。例如,Zhang 等[2024k]在训练实例中纳入反思组件,如通过类比和推理的替代解决方案或问题扩展,引导模型从不同角度理解问题并积累多样化的推理经验。而Wang 等[2024l]通过训练对齐将反思见解整合到代码本模块中,使模型能够主动检索相关反思来辅助推理过程。在树搜索推理中,Hui 等[2024]识别重要节点并反思后续行动和结果,生成任务级指导方针以优化搜索效率并避免重复错误。同时,Liu 等[2024c]引入了用于行动选择的文本原则,通过迭代反思不断完善这些原则,灵活指导行动执行。此外,Zhang 等[2025a]提出了基于思维链的合成器(CoT-based Synthesizer),通过结合多个候选解决方案的互补信息来改进推理,即使所有候选解决方案都有缺陷也能生成更好的解决方案。
过滤低质量思维链
当在评估阶段识别出低质量解决方案时,最简单的方法是直接过滤。例如,当标准答案可用时,可以基于答案正确性过滤低质量解决方案 [Singh 等,2023; Gulcehre 等,2023]。在没有标准答案的情况下,过滤策略可以基于一致性进行完善,如困惑度(perplexity)[Min 等,2024]、基于投票的一致性 [Wang 等,2023c; Chen 等,2023a]、前向-后向一致性 [Jiang 等,2024b; Weng 等,2023],或通过构建针对多项选择题性质的后续问题来评估解决方案一致性 [Ankner 等,2024a; Lee 等,2024b]。此外,可学习的验证器 [Cobbe 等,2021; Yu 等,2023a; Stiennon 等,2020]可以用来进一步增强过滤过程。虽然简单过滤既高效又易于实施,但通常会导致大量推理数据浪费。
纠正低质量思维链
除了直接过滤外,纠正不正确的解决方案有助于最大限度地利用已有数据,因此低质量解决方案的改进已成为研究的关键方向。早期研究主要依赖模型的内在能力对解决方案进行优化。例如,Madaan 等 [2023b] 使用自生成反馈对初始输出进行迭代优化;Zhang 等 [2024g] 则通过大语言模型比较多个方案,并将差异整理为对照清单,以增强自我反思过程的一致性与可靠性。然而,仅依赖内在纠正方法往往难以充分优化结果,表明引入外部信息对于提升改进效果至关重要。
最近的研究提出多种策略增强纠正性能。Ferraz 等[2024]、Wu 等[2024b]通过细粒度约束分解和后向推理优化纠正过程。Gou 等[2024]利用外部工具反馈,Li 等[2024b]、Gao 等[2024c]、Chen 等[2023b]、Yuan 等[2024a]借助Python解释器迭代执行代码,直至成功评估。Ramji 等[2024]采用策略指标作为质量反馈,迭代优化答案。Wu 等[2024c]训练PSV模型识别并纠正错误步骤,确保准确性。Shridhar 等[2024]训练提问者模型生成子问题以辅助纠正。为增强模型的批评与改进能力,Zheng 等[2024]、Xi 等[2024]、Yan 等[2024]、Zhang 等[2024i]提出训练模型提供批评以推动改进。
从理论角度看,迭代纠正方法可视为通过线性搜索进行的马尔可夫决策过程(Markov Decision Process, MDP),其中解决方案为状态,纠正操作则为状态转移的行动。简单的线性搜索通常效果平平,但更复杂的树搜索方法理论上能获得更优结果。例如,Zhang 等[2024e,d]将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与自我进化机制结合,优化复杂数学推理任务的解决方案。该算法初始化根节点,并通过价值函数 Q 选择最具潜力的节点进行扩展。在自我进化阶段,模型通过反馈纠正答案并生成更优解,随后通过自我评估打分,这些分数用于更新树中节点的价值评估。节点的树上置信上界(Upper Confidence Bound for Trees,UCT)值通过改进的公式进行更新。该过程持续进行,直到满足终止条件,既提升了解决方案质量,也不断探索新的可能性。
其他方法
除上述纠正、过滤与总结操作外,还可采用其他后处理方式,如回溯机制 [Qin 等,2024;Yang 等,2025b]。当系统检测到错误时,可回溯至先前状态,重新探索替代的推理路径。
3.2.2 用于短思维链的显式树搜索
在本小节中,我们将“短思维链”(Short CoT)定义为仅包含逻辑推理步骤、不涉及评估与纠正等行为的思维链。短思维链体现了一种从任务提示直接通向标准答案的精简推理过程,要求每个中间步骤均为正确。针对传统思维链准确率较低的问题,研究者提出基于启发式搜索(尤其是树搜索)的增强方法,以提高对短思维链的搜索效率。我们将此类方法统一归纳为“显式树搜索”(Explicit Tree Search)框架。
尽管短思维链本身不包含评估等行为,但在搜索过程中仍可引入评估机制辅助推理。搜索过程中,评估函数用于引导探索方向并执行剪枝,从而优先保留最具潜力的路径。该方法在提升搜索效率的同时,亦保持了所生成思维链的准确性与简洁性。根据底层搜索策略的不同,显式树搜索算法可分为若干类型:朴素的广度优先/深度优先搜索(naive BFS/DFS)、束搜索(Beam Search)、A*算法以及蒙特卡洛树搜索(MCTS)。
广度优先/深度优先搜索:思维树(Tree-of-Thoughts, ToT)[Yao 等,2023] 将问题分解为多个思维节点,并利用经典搜索算法——广度优先搜索(BFS)和深度优先搜索DFS)——探索多样化的推理路径,显著增强了语言模型在复杂任务中的问题解决能力。Qin 等 [2023] 将搜索过程与工具使用相结合,采用 DFS 处理工具组合与错误管理,从而提升模型在真实任务中的表现。上述方法依赖外部程序(如 Python 代码)定义搜索逻辑。然而,这些被动搜索方法效率较低,灵活性有限。自主树搜索Autonomous Tree-Search)[Zhang 等,2023b] 通过提示直接引导大语言模型独立执行 BFS 或 DFS,自主探索多条解决路径,提升推理灵活性。思维算法(Algorithm-of-Thought, AoT)[Sel 等,2023] 则利用 BFS/DFS 的整个搜索路径作为提示,整合思维链与思维树的优势,使模型在推理过程中能动态调整路径,从而更高效地发现解法。此外,AoT 避免了 ToT 所需的多轮查询,降低了推理开销。
束搜索:束搜索作为广度优先搜索的一种变体,在搜索过程中维护k个候选序列称为束,实现了搜索准确性和计算效率之间的有效平衡。其与大语言模型自回归生成的契合使其特别适合在解码过程中指导前向搜索。根据搜索的粒度,束搜索可分为三个层次:词元级(token-level)、步骤级(step-level)和解决方案级(solution-level)
  • 词元级束搜索在模型生成的最小单位上操作,直接与大语言模型解码过程对齐。虽然传统束搜索基于词元对数概率对序列进行排序,但这种方法优先考虑自然语言流畅性而非推理质量。为解决这一局限性,Lee 等[2024c]引入了词元监督价值模型,对词元进行评分以提高数学推理的准确性。此外,为缓解生成序列多样性不足的问题,Vijayakumar 等[2016]提出多样化束搜索,将束分成多个组,在每个组内独立优化,并在组间引入多样性惩罚,以鼓励生成更多样的推理路径。
  • 步骤级束搜索将多步推理分解为子步骤,对每个子步骤进行评分和验证,以维持高质量的候选路径。例如,Wang 等[2024i]、Ma 等[2023]使用过程奖励模型(PRM)对子步骤进行打分,利用这些分数引导搜索朝有希望的推理路径发展。类似地,Chen 等[2024b]、Yu 等[2023a]利用学习的价值模型在步骤级别增强搜索效率,避免了蒙特卡洛树搜索的计算开销。Setlur 等[2024]进一步结合过程优势来完善搜索过程。与外部评估方法不同,Xie 等[2023]利用模型本身进行自我验证,提示它验证步骤正确性,同时通过温度调整的随机化引入多样性。
  • 解决方案级束搜索独立评估整个推理路径,通过避免中间操作提供更快的推理。例如,Best-of-N(BoN)采样生成多个完整解决方案,并使用奖励模型选择评分最高的解。然而,Wang 等[2024i]强调了奖励模型在区分相似推理过程方面的局限性,提出了一种成对偏好模型以实现更有效的排名。同时,Wang 和 Zhou [2024]观察到模型可以通过采样自动生成思维链推理,而基于思维链得出的答案表现出更高的置信度。利用这一见解,他们引入了思维链解码(CoT-decoding),这是一种通过改变解码过程隐式执行思维链推理的方法,通过top-k采样生成多个序列,并基于答案置信度选择最佳序列。
A*搜索:A*算法通过使用评估函数f(n) = g(n) + h(n) 扩展最具潜力的节点,从而提升搜索效率。其中,g(n) 表示从初始状态到当前节点的累积代价,h(n) 是用于估计从当前节点到目标状态的启发式代价函数。该框架已被改造以增强大语言模型的多步推理能力,在搜索效率方面优于传统的思维树(ToT)方法。
已有多项研究将 A* 原则整合进大语言模型的推理过程。Zhuang 等 [2023] 提出 ToolChain*,为特定任务维护一套“长期记忆”机制,用于存储推理经验。该记忆系统初始由示例数据预置,并在推理过程中不断吸收正确的解路径,从而实现动态扩展。ToolChain* 通过最长公共子序列(Longest Common Subsequence)将新任务与历史经验匹配,进而估计累积与未来成本,实现对复杂规划与推理任务中最优解的高效识别。相比之下,Wang 等 [2024a] 引入了 Q*,该方法采用训练得到的 Q 值模型为每个状态计算启发式值 h(x),从而使 A* 算法可扩展至数学、编程等领域。
进一步的研究利用大语言模型的固有能力对 A* 搜索进行优化。Meng 等 [2024a] 提出 LLM-A*,该方法利用大语言模型的全局理解生成中间引导点(waypoints),以引导 A* 搜索方向并减少冗余状态的探索。Gupta 和 Li [2024] 训练大语言模型学习真实代价 h∗(n) 与启发式估计 h(x) 之间的残差,通过减少迭代次数加快搜索收敛。Lehnert 等 [2024] 提出 Searchformer,将 A* 的执行轨迹转化为标记序列,进而引导 Transformer 模型迭代采样更短路径。类似地,Su 等 [2024提出 Dualformer,在 A* 搜索过程中引入随机信息丢弃机制,使模型在搜索过程中实现快思维与慢思维的动态平衡,从而优化搜索策略。
蒙特卡洛树搜索:蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)是一种在探索与利用之间实现平衡的搜索算法,在以马尔可夫决策过程(Markov Decision Process, MDP)建模的任务中表现出色[Chen 等,2024b; Wu 等,2024a]。这类任务通常要求 MCTS 在庞大的状态-行动空间中发挥其探索与利用平衡的优势,以发现高价值的行动轨迹。 AlphaGo Zero [Silver 等,2017]是其中代表,该系统基于 MCTS 实现,在围棋任务中搜索高质量的落子序列,不断优化策略网络的性能。受 AlphaGo Zero 启发,研究者提出了在复杂行动空间中使用 MCTS 搜索高质量推理路径的思路。经典MCTS通常包含以下四个步骤[Browne 等,2012]
  • 选择(Selection) 从根节点开始,MCTS 在探索与利用之间进行权衡,并据此计算各子节点的权重。常见的权重计算策略包括上置信界(Upper Confidence Bound, UCB)和预测器上置信树界(Predictor Upper Confidence Tree Bound, PUCT)[Rosin, 2011]。 UCB 公式为: ;PUCT公式为:。其中Q(s,a)表示从状态 s 采取行动 a  后的累积奖励,πprior(a|s)  为在状态 s 下选择行动 a 的先验概率, N(s) 是当前上下文中状态 s 被探索的次数, N(s,a) 是行动 a 在状态 s 被探索的次数。权重函数同时考虑探索(未访问节点将获得更高探索值)与利用(历史上高回报节点获得更高利用值)。每轮选择会推进到得分最高的子节点,直至到达叶节点。
  • 扩展 (Expansion) 一旦到达叶节点,若该节点不是终止状态(例如尚未得出最终答案),MCTS 将基于当前状态执行新的行动,扩展生成多个子节点。扩展质量主要取决于行动空间的定义。在围棋中,行动为落子;而在大语言模型推理中,不同任务需定义不同的行动空间。即使在同一任务下,不同粒度的行动空间也可能导致完全不同的搜索行为和结果。
  • 评估(Evaluation) 到达叶节点后,需对其状态值进行评估。常见方法包括:   1)蒙特卡洛采样估值:将从根到当前节点的状态-行动路径作为上下文,采样多个完整轨迹,并基于其统计指标如成功率计算状态值。该方法无偏但方差高、计算成本大,难以用于采样代价高的任务; 2)训练价值模型估值:利用预训练模型直接估计状态值,但训练价值模型比奖励模型更具挑战,因为它需预测未来的预期累积奖励。
  • 反向传播(Backpropagation) 一旦完成状态值评估,MCTS 将从叶节点向根节点回传该值,更新路径中所有节点的状态估计。随着模拟次数的增加,这些估值愈发精确。该过程重复执行,直到达到设定的最大模拟次数,最终形成一棵记录每个节点状态值与访问次数的搜索树。由于不同任务和方法的设计差异,MCTS 在大语言模型推理中的实现方式也有所不同。
3.2.3 于长思维链的隐式试错搜索
在前一节中,我们介绍了基于短思维链(Short CoT)的方法,其特点是每一步推理均为正确。所有被判定为“无前途”(unpromising)的推理步骤将由算法控制进行剪枝,使搜索聚焦于更有希望的分支,确保最终仅保留通向正确解的推理轨迹。与此相对,长思维链(Long CoT)[DeepSeek-AI 等,2025;Team 等,2025;Hou 等,2025;Xu 等,2025] 并不要求每一步都正确,而是允许模型在推理过程中通过试错进行探索。我们将长思维链定义为模拟人类认知过程的思维链。与短思维链不同,长思维链不仅包含逐步逻辑推理,还在整个推理过程中集成了自我评估和自我纠正等行为。相应地,我们将R1和类似工作用于探索长思维链的过程称为隐式试错搜索(Implicit Trial-and-Error Search)。在此过程中,不需要外部评估器或精炼器;大语言模型自主触发其自我评估机制,并利用自我纠正和回溯能力来调整推理路径,这对提高推理性能至关重要。 尽管长思维链在表面上呈现为线性结构,但由于纠错与回溯机制的存在,其本质逻辑形态更接近于树状结构。因此,我们将其称为隐式搜索。
为实现 Long CoT 的生成,O1 项目 [Huang 等,2024] 提出了基于蒸馏的训练方法。然而,该方法仅模仿了试错行为的模式,未能真正赋予模型深入思考的能力。为此,多个团队陆续引入基于强化学习的优化策略。DeepSeek-R1 在 PPO [Schulman 等,2017] 的基础上采用 GRPO [Shao 等,2024] 进行改进;Kimi k1.5 借助在线策略镜像变体 [Lazic 等,2019];T1 应用了 RLOO 算法 [Ahmadian 等,2024] 进行优化。这些优化将在 §4 详细讨论。
值得注意的是,这些开源研究普遍选择以结果奖励模型(Outcome Reward Model, ORM)替代过程奖励模型(Process Reward Model, PRM),以指导大语言模型自主探索解空间。这一策略性转变使模型在性能上达到了与 O1 相当甚至超越的水平。放弃 PRM 的决定,主要源于其泛化能力有限以及奖励欺骗(reward hacking)问题严重,相关内容已在 §3.2.1 中详尽讨论。 随着强化学习训练的不断推进,模型生成的思维链显著延长,推理准确性与泛化能力持续提升。在此过程中,模型甚至展现出“顿悟时刻”[DeepSeek-AI 等,2025]:能够自主完成解的验证与替代推理路径的探索,表现出接近人类“灵感式”认知的推理能力。
3.2.4 显式树搜索与隐式试错搜索的差异与统一
显式树搜索与隐式试错搜索的差异
在深入比较之前,我们简要总结显式树搜索用于短思维链和试错搜索用于长思维链在程序上的区别:
图5:两种搜索范式的说明。显式树搜索通过同时扩展多个步骤并优先处理最有希望的步骤来提高搜索效率,从而识别逻辑连贯的短思维链。相比之下,隐式试错搜索通过逐步推理、试错和回溯到过去的状态来探索替代思路,模仿人类思考。
  • 如图5所示,显式树搜索采用启发式搜索算法蒙特卡洛树搜索、A*和束搜索)来探索解决方案空间。在每个状态,都会扩展多个行动以获得候选状态,形成树结构的搜索过程。在此过程中,推理系统被动调用评估和剪枝等操作。生成的思维链中的每个推理步骤都保证是正确的,而评估、剪枝和错误纠正等行为不会在短思维链(Short CoT)中呈现。
  • 相比之下,隐式试错搜索不依赖启发式算法。相反,大语言模型在推理过程中主动调用自我评估和自我纠正等能力,并用自然语言表达这些操作。因此,试错搜索中的长思维链不仅包含逐步推理,还融合自我评估、自我纠正与回溯操作,使整体推理过程更加透明且具有动态调整能力。
在性能方面,树搜索也有成功的实现,如rStar-Math [Guan 等,2025],它使用蒙特卡洛树搜索和过程奖励模型以及自我进化训练,使小型大语言模型在性能上达到与O1相当的水平。然而,最近的开源项目,包括DeepSeek R1 [Team, 2024a]和Kimi k1.5 [Team 等,2025],都选择了试错搜索路线,获得了显著的泛化能力[Yeo 等,2025]。这些开源项目放弃使用短思维链的显式树搜索,转而采用长思维链的试错搜索的原因可以从其技术报告中推断:
  • 首先,树搜索通常依赖奖励模型或价值模型等验证器提供评分,以实现细粒度的评估指导。然而,这些验证器普遍存在泛化能力弱与奖励欺骗严重的问题。这可能导致中间评估不准确,甚至因 LLM 利用捷径最大化奖励而引发训练崩溃。相比之下,R1、Kimi k1.5和T1在搜索过程中利用自我评估能力,并在训练过程中采用基于规则的结果奖励,显著减轻了奖励欺骗并提高了泛化能力。
  • 此外,树搜索中验证器的分数仅反映推理的相对质量,未能指出错误或原因,导致评估质量有限。相比之下,R1和类似项目通过自我评估生成口头评估反馈,提供更丰富和更有信息的反馈。
  • 最后,虽然树搜索可以同时探索多条路径,但这些路径是独立的。因此,中间经验无法在它们之间共享,降低了并行推理过程的利用率。这使得树搜索与人类推理有显著差异,因为在人类推理中,过去错误的见解指导后续推理,这在长思维链(Long CoT)的试错搜索中可以看到。
虽然上述讨论强调了与试错搜索相比,显式树搜索的弱点,但并不意味着试错搜索没有缺点。
  • 在试错搜索中应用长思维链可能在两个关键方面引入效率低下。1) 对于简单任务,长思维链方法往往表现出过度思考。正如[Chen 等,2024f]所指出的,QwQ [Team, 2024b]和R1 [DeepSeek-AI 等,2025]等方法通常会探索多个潜在解决方案,即使初始解决方案通常已经足够。这种过度探索行为会引入显著的计算资源消耗。2) 对于复杂任务,Wang 等[2025a]观察到QwQ和R1容易思考不足。这些方法往往在未充分验证当前推理路径有效性前即过早放弃,导致策略频繁切换,导致搜索过程不稳定且效率低下,伴随着不必要的冗长推理链。相比之下,基于短思维链的方法产生更简洁的推理路径,提供明显的效率优势。[Wu 等,2025b; Xie 等,2025a]进一步论证,更长的思维链不一定能改善推理性能;相反,每个模型和任务都存在最佳思维链长度。因此,试错搜索的低效率不仅增加了词元使用和计算成本,还降低了性能。
  • 此外,隐式试错搜索严重依赖大语言模型的自我评估和自我纠正能力。一方面,这些能力的背景机制仍是需要进一步研究的领域;另一方面,这些能力在大语言模型的学习过程中尚未被特别优化。R1 [DeepSeek-AI 等,2025]、kimi k1.5 [Team 等,2025]和T1 [Hou 等,2025]等模型在同一行动空间中仅使用结果级奖励同时学习推理、评估、反思和错误纠正,但缺乏专门的奖励信号来指导评估、反思和纠正能力的学习。结果,大语言模型中的这些能力没有得到特别优化,一个后果是,即使大语言模型在早期阶段进行低质量的反思或错误纠正,只要最终答案正确,它们仍然可以获得积极奖励。此外,自我评估能力的不足是R1等方法经常无法准确评估推理路径,从而过早放弃有希望路径的原因之一。
为解决效率低下问题,Kimi k1.5 [Team 等,2025]引入了长度惩罚作为长度奖励的一部分,用于控制响应长度。Yeo 等[2025]设计了余弦奖励函数,对于正确响应,奖励随着长度缩短而增加,而对于错误响应,奖励随着长度增加而增加。Luo 等[2025]提出长度协调奖励,抑制过长的响应。除引入新的奖励函数外,Chen 等[2024f]采用偏好学习,将最短响应视为正例,最长响应视为负例,从而鼓励大语言模型生成更短的思维链,抑制过长思维链的生成。我们在表1中简要总结了这两种搜索方法的差异。
表 1:两种搜索范式的比较。
显式树搜索与隐式试错搜索的统一这两种搜索策略——树搜索和试错搜索——各自提供独特优势,引发一个关键问题:它们之间的关系是什么,能否统一?我们从两个角度探讨这个问题。首先,我们从行动空间的角度分析这两种搜索的相关性,重点关注不同元操作符的角色。
  • 最初,两种策略都包括逐步推理,短思维链主要由逻辑连贯的推理步骤组成。
  • 然而,两种策略在评估机制上有显著差异。显式树搜索通常需要学习过程奖励模型或价值模型来评估推理质量,由于这些模型泛化能力差而引入高偏差。相比之下,试错搜索依靠大语言模型的内在自我评估能力来评估推理状态。
  • 关于后处理,我们以"纠正"为例进行分析。树搜索通常缺乏直接纠正操作,尽管分支间切换可被视为一种形式上的错误纠正。然而,这种"纠正"无法利用先前尝试的内容,因为它们仅是在先前扩展阶段预先采样的,不同尝试彼此独立。例如,在蒙特卡洛树搜索的扩展阶段,同时采样多个子候选行动。在随后的选择阶段,当前状态中选择的行动可能与前一模拟中的不同,这可视为一种"纠正"。然而,此次模拟中选择的新行动并非基于前一模拟中所选行动的评估反馈生成;相反,两种行动都是在扩展阶段独立采样的。
因此,与试错搜索相比,当前树搜索方法的主要限制主要在于其受限的行动空间。如果扩展树搜索的行动空间以纳入评估和纠正等行动,理论上它也可以促进长思维链的探索[Lin 等,2025]
从推理能力进化的角度看,长思维链是解决新问题的有效方法,而短思维链代表通过对长思维链的持续训练实现的最终目标。具体而言,人类在面对复杂任务时,通常先通过试错探索,最终归纳出高效的求解路径。可以学习这些有效途径以减少不必要的试错,从而缩短长思维链。因此,长思维链可视为处理复杂任务的初始和中间解决方案。一旦解决任务,从长思维链提炼的知识可用于学习短思维链,而短思维链又作为先验知识,在处理更复杂任务时减少长思维链的试错迭代。总之,强大的推理系统应具备动态切换长思维链与短思维链的能力,以实现探索性与高效性的自适应平衡。

4. 模型进化

在收集高质量推理数据后,下一步是提升系统中各模型能力,为后续数据优化打下基础。由于任务创建器研究较少,本文聚焦于推理器、评估器和后处理器的训练方法,并从强化学习视角总结现有工作,涵盖行为克隆(Behavior Cloning)、偏好优化(Preference Optimization)和强化学习(Reinforcement Learning)
4.1 强化学习背景知识
为便于正文引用,本节先介绍几种典型的强化学习算法。
4.1.1 从人类反馈强化学习(RLHF)出发
鉴于 ChatGPT [Ouyang 等,2022] 与 Claude OpenAI [2024a] 等产品的成功,本文从大语言模型后训练中的人类反馈强化学习(Reinforcement Learning with Human Feedback, RLHF)[Ouyang 等,2022] 介绍强化学习方法。RLHF 是一种基于偏好的强化学习框架,包含两个关键阶段 [Wang 等,2024h]
  • 奖励建模(Rewarding):收集偏好数据训练奖励模型 rθ。早期方法通过人工标注同一提示下的多个响应,并按质量排序以表示人类偏好关系。 
    训练目标如下:
  • 策略优化(Policy Optimization):将大语言模型微调为策略模型 πref ,目标是最大化其所获奖励。过程包括生成内容、通过奖励模型评分,并使用 PPO [Schulman 等,2017] 进行优化:
  • 其中参考模型πref通常经监督微调SFT后冻结参数。KL散度项用于限制偏离并保持多样性,防止策略塌缩。
尽管 RLHF 最初用于对齐任务,该框架也可用于优化推理能力。通过构建基于推理正确性的偏好数据,可引导模型偏向生成正确推理路径,抑制错误路径,从而提升推理表现。
4.1.2 从 RLHF 到更高细粒度的 PPO
尽管 RLHF 使用 PPO 进行优化,但在实际应用中,经典 RLHF 通常被视为一种赌博机(bandit)方法,即将整句话视为一个整体动作 [Zhong 等,2024]。这是因为 RLHF 仅依赖结果级奖励,缺乏细粒度的优化信号。
相较于密集奖励,稀疏奖励会显著增加学习难度 [Andrychowicz 等,2017],在复杂推理任务中尤为明显。例如,在多步推理中,解答失败并不意味着每一步都出错,可能前几步是正确的,仅后续步骤有误。而仅使用结果奖励,会在训练中抑制那些正确的中间推理。为充分发挥强化学习潜力,需引入步骤级甚至词元级奖励作为更细粒度的优化信号。要实现这一点,需要重新审视 PPO 算法的设计。
PPO [Schulman 等,2017] 是一种经典的 on-policy 算法,在多个领域表现出良好的稳定性与效果。其通用训练目标为:
其中 y 表示策略模型生成的文本, |y| 表示其字符数。优势函数定义为 At = Q(st, yt) - V(st 是优势函数,即将动作值函数 Q(st, yt) 归一化至状态值基线 V(st) ,以降低方差、提高学习稳定性。实际训练中常用广义优势估计势函数(Generalized Advantage Estimation, GAE形式,以平衡偏差与方差:
其中 γ 是折扣因子,λ 是位于区间 [0, 1]的超参数。当 γ = 0 时,
尽管 PPO 在 RLHF 中表现良好,但其对训练资源的高要求限制了其在推理优化中的应用。完整 PPO 框架包含四个模块:策略模型(policy model)、参考模型(reference model)、价值模型(value model)和奖励模型(reward model)。后两者的初始化更进一步增加了训练复杂度,并影响策略模型稳定性。为简化 PPO 框架,已有研究提出多种改进方法,如跳过对价值模型 [Shao 等,2024] 或奖励模型 [Rafailov 等,2023] 的显式建模与训练。下面将介绍若干代表性工作,展示如何简化 PPO 训练流程以支持更高效的推理优化。
4.1.3 从 PPO 到 REINFORCE
为降低训练资源开销,近期研究重新审视了 REINFORCE [Sutton 等,1999] 在大语言模型优化中的潜力 [Li 等,2023d;Ahmadian 等,2024]。REINFORCE 是一种经典的策略梯度算法,其传统优化目标为:
其中,为累积奖励,用于控制策略梯度更新的方向与步长。
然而,REINFORCE存在高方差问题,尤其体现在 R(st,at) 上,导致训练过程不稳定。为降低方差,常通过替换为动作值函数 Q(st,at) 或优势函数 A(st,at)(如 PPO 所采用),或引入基线项实现修正:
基线 b(st) 有多种实现方式。为避免额外训练价值模型,ReMax [Li 等,2023d] 采用概率最高动作的奖励作为基线:
Ahmadian 等 [2024] 提出 RLOO(REINFORCE Leave-One-Out)估计器。对于一个任务 qqq,RLOO 采样多个响应 {r1,r2,...,rK},并使用除当前响应外其余轨迹的平均值作为基线:
在仅有结果级奖励的 Bandit 场景中,Ahmadian 等 [2024] 发现 RLOO 优于 PPO。其原因可能在于,经过大规模预训练与微调的大语言模型本身就是强初始化策略,采样轨迹的句子级方差较小。同时,RLOO 通过采样估计价值函数,减少了方差,并避免了显式学习价值函数所带来的偏差。
然而,这一优势主要体现在 bandit 设置中。对于多跳推理等需步骤级或词元级密集奖励的任务,RLOO 可能因方差过大而表现不佳。虽然 REINFORCE 简化了结构并降低成本,但其稳定性仍受限于奖励信号的稀疏程度。
表 2:五种强化学习算法对比:PPO、RLOO、GRPO、DPO、PRIME  (VM:价值模型;RM:奖励模型;RefM:参考模型)
4.1.4 从 PPO 到 GRPO
在具备步骤级或词元级奖励的场景下,PPO 是微调策略模型的理想选择,因其通过优势函数与裁剪操作保障训练稳定性。但如公式(5)所示,计算优势函数需同时依赖奖励模型与价值模型 V((st) 。通常,价值模型规模与推理器相当,训练困难、易不稳定,且大幅增加资源负担。
为此,Shao 等 [2024] 提出 GRPO,利用蒙特卡洛(MC)采样替代价值模型,对 PPO 进行改造。具体而言,对每个任务 q,GRPO 同时采样 G 个完整解  y1, y2,…,yG,根据奖励函数对每个解给予奖励。
两种奖励版本:
  • 使用 PRM 时,为每步分配奖励,构造奖励集:
  • 其中 ki 表示 yi 中的步骤数, 表示 yi 的第 j 步中结束词元的索引。此时,优势函数计算如下: 
  • 使用 ORM 时,为每个解分配一个奖励 ri,优势函数简化为:
无论使用哪种模型,GRPO都将组内奖励标准化,以平均值替代价值模型作为基线,从而在训练中抑制低质量行为,强化高质量行为。
最终,GRPO的优化目标为:
其中是上一轮的参考模型。此外,为提高稳定性,GRPO 在 PPO 基础上加入 KL 散度项,但采用 Schulman [2020] 提出的无偏估计方法:
总结,GRPO 通过 MC 采样估算优势函数,无需引入价值模型,简化了训练架构,仅需策略模型、参考模型和奖励模型。它继承了 PPO 的稳定性,同时利用 LLM 的强先验性弱化了方差问题。MC 采样带来无偏估计,组内标准化强化高质量轨迹,显著提升训练稳定性。GRPO 已在多个类 O1 的开源项目中成功应用,如 [Shao 等,2024;Yang 等,2024a;Wang 等,2024e;DeepSeek-AI 等,2025]
4.1.5 从PPO到DPO
RLHF 需显式建模并预训练奖励模型,增加了计算资源消耗与训练复杂度。为此,DPO 首先指出了等式(3)的闭式解:
该结论说明,最优策略模型 π*(y|x) 与奖励模型 r( x, y) 紧密耦合。即设定奖励模型即可对应一个最优策略,最大化其隐含的最优轨迹概率。DPO 将等式(14)变换为:
这意味着,奖励函数 r( x, y) 可由策略模型 π(y|x) 表达。因此,Rafailov 等 [2023] 提出:与其先训练奖励模型 r( x, y) 再优化策略 π(y|x),不如直接优化策略模型 π(y|x) 来的高效。在 RLHF 中,奖励模型训练通常基于 Bradley-Terry 偏好建模:
将等式(15)代入等式(16)后,DPO 可直接将该目标转化为策略学习目标:
虽然 DPO 省去了奖励模型建模,简化 RLHF,降低了 LLM 优化门槛。但后续研究也揭示了若干问题:
  • 优化粒度粗糙 原始 DPO 只在响应级别优化偏好,难以精细区分复杂推理中的正确与错误步骤,容易将部分正确的响应也标记为负例。为此,后续提出了 step-DPO、token-DPO 等细粒度方法详见 §4.2.2
  • 数据分布偏移 DPO 通常在离线场景训练,先使用参考模型 πref 收集一批固定的偏好数据集,再用 DPO 训练策略模型 πΦ 。该方法虽具有较高的训练效率,但完全依赖静态离线数据可能限制模型的持续学习能力 [Chen 等,2024a]。为缓解此问题,有研究将 DPO 拓展到在线学习框架。具体做法是:每轮先收集一批偏好数据,使用 DPO 训练策略模型,然后将新训练得到的模型 πΦ 替换为下一轮数据收集的参考模型 πref,实现策略的持续迭代优化。
  • 正样本被抑制 DPO 在训练中不仅会降低负样本概率,也可能误伤正样本,尤其当正负差异不显著时。为解决该问题,研究者引入正则化项以强化对正负样本质量差异的建模 [Azar 等,2023;Le 等,2024]
  • 奖励信号利用不足 DPO 未对偏好程度进行显式建模,在奖励数值可用的情况下,仅通过比较奖励高低构造偏好对,而未直接利用奖励信号本身,导致信息利用不足。同时,对偏好对数据的依赖也提高了训练数据的构造成本。为解决这一问题,OREO [Wang 等,2024b] 提出一种全新的离线强化学习算法,仅依赖奖励信号进行优化,完全无需偏好对数据。
尽管 DPO 简化了训练流程,但其泛化能力仍不如 PPO [Li 等,2023c],甚至某些任务中不如直接 SFT [Yuan 等,2024b;Chen 等,2024d]。因此,多项扩展方法被提出:
  • fDPO:引入散度约束,增强偏好表达能力与鲁棒性 [Wang 等,2023a]
  • cDPO:提升在噪声反馈环境下的稳定性 [Chowdhury 等,2024]
  • KTO:基于 Kahneman-Tversky 心理模型结合人类决策偏好 [Ethayarajh 等,2024]
  • GPO:用凸函数族参数化损失函数,统一偏好学习框架 [Tang 等,2024]
  • ORPO:去除参考模型,仅使用偏好信息优化策略,进一步简化流程 [Hong 等,2024]
4.1.6 从 PPO 到 PRIME
Rafailov 等[2024]进一步分析DPO,并引入隐式奖励(Implicit Reward)概念,其公式如下:
Rafailov 等[2024]认为,DPO 所训练的策略模型实质上充当了一个词元级奖励函数,其中每个词元的奖励正是由该公式定义的隐式奖励。这一机制的有效性已在多项工作中得到验证 [Zhong 等,2024;Chen 等,2024a]
Yuan 等 [2024c] 证明,若将结果奖励函数定义为,则所得的 ORM 可直接用于计算词元级奖励。换句话说,按此格式训练出的 ORM 本质上也可作为过程奖励模型PRM使用。具体而言,PRIME [Cui 等,2025] 包含四个核心组件:策略模型 πΦ、结果奖励验证器 πΦ、过程奖励模型 πΦ 及其对应的参考模型 πref。在生成响应 y 后,PRIME首先获取结果级奖励 ro(y) ,并通过交叉熵损失训练 rθ(y):
其中 rθ(y) 被优化以逼近真实的结果奖励。该训练过程中,过程奖励模型 πθ 也同步更新,并可用于为每个词元 yt 提供词元级奖励:
这正是隐式奖励的计算形式。基于训练好的 πθ ,PRIME 可为策略模型 πΦ 提供精细的词元级奖励,从而与如 RLOO 等多种强化学习算法无缝对接(如原论文所示)
PRIME 的核心思想是将整体结果奖励分解到每个词元,借助大规模采样过程学习词元级奖励。对最终结果贡献较大的词元将获得更高奖励。该方法无需人工标注,可同时训练策略模型与奖励模型,既避免了奖励欺骗问题,也提升了奖励模型的泛化能力。
4.2 推理器优化
4.2.1 行为克隆
在收集推理过程数据后,最直接的优化方式是行为克隆(Behavior Cloning, BC),即监督微调(Supervised Fine-Tuning, SFT)。然而,从理论上讲,BC只能在正确的数据上进行。Yuan 等[2023a]和 Tong 等[2024]提出了拒绝微调Rejection Fine-Tuning,通过答案标签过滤错误的推理轨迹,仅在正确轨迹上进行微调。尽管这种方法能保证训练数据的质量,但会造成大量数据浪费。
为提升正确样本的数量,Zelikman 等[2022]提出在错误解的基础上引入“合理化(Rationalization)”步骤来重生成推理过程。Zhang 等[2023a]提出HIR(Hindsight Instruction Relabeling),通过重标指令使错误解可用,例如将“生成正确答案”改为“生成错误答案”,从而无需引入额外参数即可复用失败样本。同时,Zhang 等[2024c]和 Wang 等[2024k]使用蒙特卡洛树搜索(MCTS)提高发现正确轨迹的效率。Chen 等[2024e]则通过构造逆向问题并对其进行SFT,使模型具备逆向推理能力。
尽管上述方法提升了有效样本比例,或通过修改指令利用错误数据,但在最大化数据利用率与挖掘负样本方面仍存在局限。
图 6:偏好优化的三个粒度:解级、步级和标记级。
4.2.2 偏好优化
偏好优化(Preference Optimization)是提升大语言模型推理能力的主流方法。其核心思想是:提升高质量思维链CoT的概率,同时压低劣质思维链的概率,从而增强目标模型的推理能力。
早期方法如 RRHF [Yuan 等,2023b] 从排序角度进行偏好学习。该方法使用奖励模型对不同来源采样的响应  进进行评分排序,构建偏好对,并通过排序损失优化模型:
其他偏好优化算法,以 DPO [Rafailov 等,2023] 为代表的偏好优化方法进一步简化了 RLHF 流程,突破了 SFT 的限制,并因其实现简便而广泛应用于各类任务。
下文将按偏好数据粒度,将现有研究划分为解决方案级(solution-level)步骤级(step-level)词元级(token-level)优化三类:
解决方案级偏好优化
该层级偏好数据最易获取,因而早期研究多集中于此。Pang 等[2024]与 Jiang 等[2024a]基于答案标签将解划分为“正确”与“错误”组,构造偏好对进行优化。在答案标签缺失的自我进化场景中,可借助 LLM-as-a-Judge [Gu 等,2024] 或预训练奖励模型 [Yu 等,2024a; Ouyang 等,2022]生成偏好数据。例如,Yuan 等[2024d]利用模型自评能力对其生成的解打分。但自评能力有限,奖励函数泛化性弱,导致评估易受噪声干扰。Wang 等[2024c]提出“基于不确定性的偏好优化”框架,使用贝叶斯神经网络量化每个偏好对的不确定性,并将其融入 DPO 训练,提升鲁棒性。
步骤级偏好优化
相较于粗粒度的解级优化,步骤级偏好优化可更精准地引导模型学习。例如,在一条错误解中,前半部分推理正确,仅后续出错。如果直接按解级优化,可能会误伤前面正确的部分。为解决这一问题,研究人员探索了步骤级偏好优化。相关工作可分为两类:主动构建和树搜索。
主动构建方法(active construction approach)的核心思想是:在具有相同前缀的推理轨迹中,有针对性地采样正确或错误的子轨迹。Hwang 等人 [2024] 首先使用蒙特卡洛采样定位缺陷轨迹 y- 中的首个错误步骤。从该步骤起,将每个步骤与其前置上下文拼接,并对其进行多轮采样。若某一步骤生成的所有推理过程均失败,则将该步骤判定为错误。接着,以此前的步骤为上下文,构造出一条新的正确轨迹 y+ 。由 y+ 和 y- 构成的偏好对具有相同前缀,可用于训练。随后,采用如 DPO 等偏好对齐算法对模型进行优化,使其聚焦于改进决定正误的轨迹后缀。Lai 等人 [2024] 提出类似策略,使用 GPT-4 检测错误步骤,并结合 DPO 实现步骤级偏好优化(Step-DPO)。相比之下,Lu 等人 [2024c] 从一条正确轨迹出发,通过调高采样温度诱导生成错误的后续步骤,从而构建失败轨迹。类似方法,利用GPT-4作为监视器检测不正确步骤,随后应用DPO进行步骤级偏好优化,称为Step-DPO。相比之下,Lu 等[2024c]采用不同策略:从正确轨迹开始,通过设置高温度生成不正确的后续步骤,诱导失败后缀。
树搜索方法(Tree search-based methods)则直接从搜索树中提取偏好对。Zhang 等人 [2024h] 使用思维树(Tree-of-Thought, ToT)[Yao 等,2023]进行搜索,并在过程中通过自我评估对节点进行打分。一旦找到正确的推理路径,即可基于该路径上的节点构造偏好对。在广度优先搜索中,若某节点在从正确路径延展时被剪枝,则其对应步骤可视为负例,与正确路径节点构成偏好对。相较 ToT,许多工作更偏好使用 MCTS 进行搜索,因其能更好地平衡探索与利用。Xie 等人 [2024] 和 Chen 等人 [2024c] 便在 MCTS 基础上构造偏好对。前者选择同一层级中 Q 值最高与最低的节点组成偏好对;后者则从同一父节点的子节点中选取 Q 值差异较大的节点对,作为优化目标。
词元级偏好优化
近期研究开始探索词元级偏好优化,以支持更细粒度的推理能力提升。该方法的核心挑战在于获取词元级偏好对。Rafailov 等人 [2024] 与 Zhong 等人 [2024] 指出,通过直接偏好优化(DPO)训练的策略模型可以隐式学习词元级奖励信号,形式为“隐式奖励”:
这一发现为构建词元级 DPO 算法提供了理论基础。Yang 等人 [2024b] 在此基础上进一步对隐式奖励进行了改进,以提升优化效果。
作为补充方法,Lin 等人 [2024] 提出 cDPO 算法,从另一个视角标注词元级重要性。其方法是在正确与错误解上分别微调两个语言模型,并计算两者在每个词元上的概率差异,从而估计该词元在错误推理中所承担的责任。对于差异分数较低的词元 st ,意味着其对推理失败影响更大,可据此对关键词元进行加权优化。
尽管基于 DPO 的方法因实现简单而得到广泛应用,但其在推理增强方面仍存在局限,如 4.1.5 节所述。值得关注的是,O1 博客 [OpenAI, 2024b] 与 R1 报告 [DeepSeek-AI 等,2025] 均强调:若要实现复杂推理能力的显著跃升,最终仍可能需要引入在线强化学习技术,凸显更高级优化框架的重要性。
4.2.3 强化学习
无模型在线强化学习(Model-free Online Reinforcement Learning)
对于数学推理等任务,其环境动态具有确定性,因为推理过程中并不涉及对外部环境的感知或交互。每执行一个动作(如生成一个词元或推理步骤,模型的推理状态便会自动更新,例如通过将新生成的词元追加至已有上下文中形成新的推理状态。随着大语言模型推理效率的提升,从模型中采样生成完整推理路径已变得高效且低成本。因此,在此类任务中,通常无需构建环境模型,仅依赖无模型(model-free)在线强化学习算法即可实现有效优化。
“无模型”是指不对环境进行显式建模,而是通过策略直接与环境交互来学习;“在线”则意味着训练数据来源于当前策略与环境的实时交互,而非依赖固定的历史数据集(即“离线”学习)。在线与离线学习方式的差异,会显著影响强化学习过程中的数据分布偏移问题。
在大语言模型(LLM)训练中,常用的在线强化学习方法包括REINFORCE [Sutton 等,1999]、PPO [Schulman 等,2017]和GRPO [Shao 等,2024]。Li 等[2023d]和Ahmadian 等[2024]发现,在没有结果奖励模型(ORM和价值模型的情况下,直接应用REINFORCE取得了良好效果。Ylfeng 等[2024]受人类反馈强化学习RLHF)的启发,使用PPO在解决方案层面提升了LLM的推理能力。Zhang 等[2024j]学习了过程奖励模型(PRM),并在步骤层面利用其指导PPO训练。Zhong 等[2024]利用直接偏好优化(DPO)的隐式奖励,在词元层面进一步指导PPO训练。诸如deepseek-math [Shao 等,2024]、qwen-math [Yang 等,2024a]和OpenR [Wang 等,2024e]等项目采用GRPO [Shao 等,2024]进行训练,训练过程由PRM指导,显著增强了LLM的多跳推理能力。尽管当前的无模型强化学习算法取得了成功,但随着任务复杂性的增加和推理任务扩展到更多现实场景,仅依赖无交互的环境是不够的。在这种情况下,预计更为多样化的强化学习算法将在LLM的后续训练优化中发挥关键作用。
图7:三种强化学习范式的比较:在线基于模型的强化学习、基于模型的强化学习、离线强化学习和层次强化学习。
离线强化学习(Offline Reinforcement Learning )
离线强化学习使用静态数据集而非通过策略模型与环境交互收集的轨迹数据来训练策略模型[Prudencio 等,2022]。由于训练大语言模型的时间和计算成本,批量训练在大规模微调过程中提供了显著优势。因此,许多研究,特别是在学术界,采用离线训练方法来训练大语言模型。
Snell 等人 [2022] 对现有的离线强化学习算法 IQL 进行了改进,并将其应用于自然语言生成任务,提出了 ILQL 算法。当前最常用的离线训练方法是 DPO [Rafailov 等,2023],其基本流程是先收集大量偏好数据,再在此基础上进行偏好学习。该方法不仅省去了奖励建模的步骤,也极大推动了 DPO 的广泛应用。为克服 DPO 仅依赖偏好信息、无法利用实际奖励值的局限,Wang 等人 [2024b] 基于最大熵强化学习 [Haarnoja 等,2017] 推导出一种新的离线强化学习方法 OREO,有效弥补了上述不足。
尽管离线强化学习(尤其是 DPO)在当前研究中被广泛采用,但该方法仍存在一些显著局限。其核心问题在于训练数据并非源自当前策略模型,而是采样自先前的次优策略。随着训练过程中策略模型的持续优化,行为策略与目标策略之间的偏差不断扩大,严重削弱了训练效果。对此,Chen 等人 [2024a] 提出,可通过将离线训练过渡为在线训练策略来缓解该问题。另一种常见做法是,先利用离线强化学习对大语言模型进行初始化 [Yang 等,2024c;He 等,2024c],再结合在线强化学习进一步提升性能。相较于在线强化学习,离线方法具备可预先构造训练信号的优势,因而在存在标准答案、但难以通过奖励模型精确评估的任务中尤为适用 [Yang 等,2024c]
基于模型的强化学习(Model-based Reinforcement Learning)
对于涉及与外部环境交互的任务如对话系统和视觉导航),环境建模是强化学习中的关键环节 [Moerland 等,2020]。通过构建模拟环境(或称“世界模型”)[Zhu 等,2024],系统能够在训练与推理过程中提供反馈信号、状态转移以及内部规划能力,从而显著降低交互成本。有效的世界模型应具备充分的任务知识,能够针对策略模型的动作准确预测状态转移和奖励反馈。
典型实例包括 AlphaGo Zero [Silver 等,2017],其通过建模对手并结合蒙特卡洛树搜索(MCTS)模拟博弈状态,用于优化策略学习。类似地,Hao 等 [2023] 证明了大语言模型可作为规划任务中的世界模型,He 等 [2024c] 则在对话规划中引入大语言模型,通过 MCTS 框架模拟用户交互。
尽管已有初步进展,基于模型的强化学习在大语言模型主导的复杂推理任务中仍显不足,尤其是在数学推理等不涉及外部环境动态的场景中应用受限。然而,随着研究不断向更高复杂度任务迈进,世界模型与基于模型的强化学习在大语言模型中的融合有望成为重要发展方向,为推理能力的进一步提升开辟新路径。
层次强化学习(Hierarchical Reinforcement Learning)
许多推理任务可有效建模为层次马尔可夫决策过程(Hierarchical MDPs),反映人类认知的分层特征。例如,在数学推理中,学生往往不会逐词生成解答,而是先构思一系列推理步骤,然后再基于这些步骤填充具体内容。这一过程自然划分为两个层级:高层模型生成抽象的推理思路,低层模型在此基础上生成对应的词元内容。
Liu 等 [2024b] 将推理任务形式化为层次 MDP:高层模型首先选择推理策略如思维链 CoT [Wei 等,2022]、由浅入深提示 L2M [Zhou 等,2022]、编程式推理 PoT [Chen 等,2022],再生成具体推理过程;若推理失败,则迭代选择新的策略。SMART [Liu 等,2024b] 采用策略梯度方法 [Lee 等,2024c] 优化高层决策过程,但未涉及低层推理的优化。ReasonFlux [Yang 等,2025a] 则构建了一系列“思维模板”,通过高层规划生成推理意图序列,再在具体任务上下文中对每一项意图进行实例化,最终形成完整、连贯的推理路径。这种结构化方法有效地将复杂任务解构为抽象高层计划与对应的可执行推理子任务。类似地,Zhou 等 [2024] 提出 ArCHer 框架——一个用于大语言模型的层次强化学习方法。在高层,ArCHer 使用基于值函数的离线强化学习算法 IQL [Kostrikov 等,2021] 学习话语级 Q-函数与 V-函数,以结果奖励评估响应质量;在低层,则使用 REINFORCE [Sutton 等,1999] 优化词元级 MDP,低层奖励由高层优势函数提供。
通过引入层次学习机制,大语言模型不仅能够实现抽象推理步骤之间的连贯性,还能摆脱逐词回忆的模式,学会更具结构化的推理策略,从而显著提升其在复杂推理任务中的表现能力。
4.3 评估器优化
4.3.1 训练数据构建
在本节中,我们首先介绍优化评估器的数据构建方法,包括结果级(outcome-level)、步骤级(step-level)词元级(token-level)数据构建。
结果级 结果级奖励构建相对直接。早期RLHF方法依赖人工标注的偏好数据来训练奖励模型,但高昂的人工成本推动了自动标注方法的发展。
最简单的自动方法是利用答案标签将解决方案划分为正确与错误,并构造偏好对,基于DPO方法训练奖励模型 [Hosseini 等,2024]。也可使用更强的大模型评估推理正确性,如 Lee 等 [2024a] 利用更强的LLM对响应打分(0-10分,再基于该数据训练奖励模型。此外,Mu 等[2024]提出基于规则的奖励机制,将期望行为拆解为具体规则并分配得分,最终与传统RLHF奖励结合,通过PPO优化模型。类似地,DeepSeek-AI 等 [2025] 为推理任务设计了结合准确性与格式规范的规则奖励体系,构建了更全面的训练信号。
这些自动方法不仅降低了对人工标注的依赖,还提升了奖励模型训练的效率与可扩展性,推动了RLHF在复杂推理任务中的应用。
图8:构建步骤级奖励训练信号的四种方法的说明。
步骤级 为获取步骤级评估信号,OpenAI 发布了过程奖励数据集 PRM800K [Lightman 等,2023]。然而,随着推理任务持续涌现且评估器需具备良好泛化能力,PRM 数据的扩展显得必要。手动标注代价高昂、难以扩展,而基于LLM的评判方法虽易实现,但存在不稳定性与噪声问题 [Zheng 等,2023;Ye 等,2025],因此更高效的自动标注方法成为研究重点。当前自动标注方法主要可分为三类:
  • 第一类:估计步骤正确性。 Wang 等[2024g,m]和 Jiao 等[2024]通过蒙特卡洛采样估算步骤奖励,以步骤Si的N次完成的成功率为其奖励。Luo 等[2024]结合二分查找和MCTS识别首个错误步骤,提高采样效率。Zhang 等[2024f]、Xia 等[2024]和 Gao 等[2024a]则直接采用LLM评估步骤正确性。Zhang 等[2025b]指出MC采样存在较大噪声,提出共识过滤机制,将MC估计与LLM验证结合,以提升数据准确性。与此不同,Chen 等[2024g]将问题分解为子问题,并从标准解中提取中间结果,将其与模型生成结果比对评估步骤正确性。
  • 第二类:基于标签生成步骤内容。 此类方法主动向正确推理过程注入错误,以构建包含错误步骤的数据集。Yan 等[2024]通过高温采样生成错误,并基于正确解生成反思与修正。Xi 等[2024]则主动插入错误并引导模型生成反思,构造高质量的修正数据。
  • 第三类:通过置信度变化评估步骤质量。该类方法基于以下假设:优质推理步骤提升推理置信度,劣质步骤则降低之。Lu 等[2024a]提出利用结果监督验证器评估相邻步骤之间置信度变化,以此标注步骤正确性,同时避免大规模采样以降低计算开销。
词元级 为获取更高细粒度的奖励信号,需自动评估各词元的重要性。Chen 等[2024h]训练一个可重写原始解的生成式奖励模型,输入重写结果后,原始解中每个词元的预测概率即为其奖励。该方法假设:错误词元更可能被修改,其概率下降;而正确词元预测一致,概率更高。Yoon 等[2024]采用类似策略,利用强LLM对错误解  yr 进行“添加、删除、替换”三种操作的迭代修正,并通过与修改前 ym
 的对比,为每个词元标注奖励。Rafailov 等[2024]、Zhong 等[2024]从DPO框架导出隐式奖励,形式为:
此信号可用于词元级标注。Yang 等[2024b]将其作为初始评分标准,对正确推理中前k%的词元赋予奖励1,其余为0;对错误推理中后k%的词元赋值为-1。OREA [Lyu 等,2025]进一步将词元级奖励总和与整体结果奖励对齐,从而实现词元级奖励模型的学习。
4.3.2 训练格式
点式(Point-wise)当评估结果为标量值时,最直接的方式是通过监督学习训练评估模型。例如,Wang 等[2024g,m]采样并完成推理步骤,使用完整路径的成功概率作为每一步的评分,从而训练步骤级的过程监督验证器(PSV。Lu 等[2024a]则先基于真实答案标注每个推理步骤,并训练结果监督验证器(OSV)以估计每一步通向正确解的概率;随后,通过计算相邻步骤间的置信度变化生成步骤级标签,用以训练PSV。
对式(Pair-wise) 受 Bradley-Terry 模型[Bradley and Terry, 1952]启发,多项研究采用偏好学习训练评估器。该方法构造偏好对 (x, y+, y) ,并基于如下目标优化评估模型 r(., .) :
该方法无需精确标注分数,仅依赖偏好数据训练。例如,Yu 等[2024b]和 Hosseini 等[2024]采用 DPO 从偏好对中学习奖励函数,Liang 等[2024]基于答案正确性对来自多个模型的解进行偏好划分,并使用 SimPO [Meng 等,2024b]训练评估模型。
为克服现有验证器仅在二元标签路径上训练、难以刻画中间步骤间相对优劣的问题,He 等[2024b]提出树结构方法:对每个树节点采样补全路径,并以其导向正确解的比例作为奖励,进一步通过兄弟节点间的奖励比较,构造步骤级偏好对,并以排序损失训练验证器。
在此基础上,Yuan 等[2023b]提出奖励加权偏好学习(RRHF,通过从多个来源(如模型自身、其他大语言模型、人类专家)采样响应,并根据人工偏好或模型打分进行排序,实现对响应条件概率的排序优化,从而提升生成质量。上述方法共同推动了偏好驱动评估与优化框架的高效发展。
自回归(Autoregressive)近年来,充分挖掘大语言模型自身的生成能力,成为提升评估器鲁棒性与可解释性的关键策略。相关方法主要按反馈形式可分为两类:概率分数型(probability scores)与口头批评型(verbal critiques)
在概率型方法中,研究者从自然语言反馈中提取特定词元的生成概率作为评分依据。例如,Zhang 等[2024f]提示模型回答“答案是否正确(是/否)”,并将生成“是”的概率作为评分依据,对应优化目标为生成正确答案词元。为提升解释性与稳健性,Zhang 等[2024f]、Ankner 等[2024b]、Gao 等[2024a]引入思维链CoT)辅助答案生成,采用“两阶段训练”:先生成可解释思维过程,再据此输出答案。此外,Mahan 等[2024]提出 CoT-GenRM-STaR,结合误判数据与 DPO 优化生成式奖励模型,进一步推动该方向研究。
相比之下,口头反馈提供更丰富的上下文信息,如错误位置与原因,便于指导后续纠错与回溯。该类能力的优化路径可分为行为克隆(BC)与强化学习(RL)。BC 是最直接策略,其数据构建方式详见第 4.3.1 节。Xi 等[2024]通过人为注入噪声并引导模型生成批评,进而训练评估器。由于构造数据的困难,不少研究转向 RL 方法学习自评能力。RL4F [Akyürek 等,2023] 与 Retroformer [Yao 等,2024b]将反馈生成建模为 RL 任务:状态为当前生成内容与环境反馈,行动为生成具体反馈,前后质量差异作为奖励信号。Xie 等[2025b]则采用 BC 初始化模型,并通过 RL 精调,展现了两者互补性。最前沿的开源工作,如 R1 [DeepSeek-AI 等,2025] 与 Kimi k1.5 [Team 等,2025],均在推理过程中引入口头反馈自评机制,并借助基于规则的奖励框架,通过 RL 联合优化逐步推理与自我评估能力。
4.4 后处理器优化
在后处理阶段,研究重点在于提升模型的纠错能力。根据优化方式的不同,这些方法可划分为两类:行为克隆(Behavior Cloning)与强化学习(Reinforcement Learning)。
行为克隆
该类方法包括两类思路:增强模型自身的自我纠错能力,或训练辅助模型协助完成纠错。前者如 Zhang 等[2024a]、An 等[2023]、Yan 等[2024]、Paul 等[2024]、Gao 等[2024c]通过错误采样技术,利用更强的外部模型或多轮自生成样本生成纠错数据,并据此进行监督微调(SFT),提升模型的自我纠错能力。Du 等[2024]则构建渐进式训练集,强化模型的逐步改进能力。
后者则聚焦于构建专门的辅助模型。例如,Welleck 等[2023]、Zhang 等[2024i]、Wadhwa 等[2024]训练独立的精炼器模型用于答案修正。Shridhar 等[2024]提出提问器模型,判断是否需要纠错并辅助实施纠错操作。Wang 等[2024l]则将模型在反思阶段的知识整理成代码本,以实现知识的存储、检索与复用,进一步提升模型的解决问题能力。
强化学习
Kumar 等[2024]指出,基于 SFT 的方法在自我纠错学习中存在两大挑战:其一是分布偏移,即模型能纠正初始模型的错误,但难以应对自身生成的新错误;其二是行为崩溃,即模型偏向优化初始输出,忽略真正的纠错行为。为此,他们提出一种策略内的多轮强化学习方法,尽管该方法仅生成两轮解答(初始解与修订,并未引入推理过程中的反馈信息,因此仍难以充分利用外部信号。
为进一步突破该限制,Gehring 等[2024]提出整合外部执行反馈的强化学习算法,使模型能有效吸收外部反馈信号,增强自我优化能力。
值得注意的是,R1 [DeepSeek-AI 等,2025]、Kimi k1.5 [Team 等,2025] 及 T1 [Hou 等,2025]等研究并未在架构上明确区分推理器、评估器与后处理器模块。相反,这些能力在统一的动作空间内,在相同的结果奖励信号指导下被协同优化,从而实现统一的推理、自评与纠错学习。
值得注意的是,R1 [DeepSeek-AI 等,2025]、Kimi k1.5 [Team 等,2025]和T1 [Hou 等,2025]等研究在物理上并未明确区分推理器、评估器和后处理器。相反,在相同的结果奖励指导下,推理、自我评估、自我纠正等能力在相同的行动空间中同时得到优化。
图 9:对自我进化的直观理解 每轮自我进化由两部分组成:数据进化与模型进化。系统首先通过数据进化(主要基于搜索)突破原有能力边界,获得更高质量的解答作为新一轮训练数据;随后,系统通过模型进化从这些数据中学习,从而扩展其能力边界,实现性能的持续提升。

5. 自我进化

在“数据进化”部分,我们探讨了如何通过任务进化与思维链进化生成更高质量的训练数据;在“模型进化”部分,我们研究了提升系统各模块性能的方法。然而,仅依赖数据或模型单一方向的进化,难以构建出性能卓越的推理系统。数据进化虽可通过推理阶段的计算开销提升模型性能,却受限于模型本身的能力上限;而模型进化若缺乏高质量数据支持,也无法实现持续优化。
因此,本节关注“自我进化”,即在循环机制中融合数据与模型进化,实现系统的持续增强。如图 9 所示,我们直观展示了自我进化的运作机制:推理系统无需人工介入,依靠自身不断生成数据并迭代优化能力。然而在实践中,自我进化仍面临若干关键挑战,例如如何保证系统性能持续提升、如何协调模块间的协同进化。接下来,我们将依次探讨其收敛性理论、自我进化的规模法则、自进化策略与模式的实践工作,最后从自我进化的视角重释典型的类 O1 工作。
5.1 自我进化的理论基础
自我进化要求系统利用自身生成的数据,在无外部干预的前提下持续提升性能 [Zelikman 等,2022]。这一“自驱动”训练过程的理论基础亟需厘清。为验证其有效性,需回答两个研究问题:
  • [研究问题 1] 推理的自我进化是否遵循规模法则?
  • [研究问题 2] 哪些关键因素促使自我进化实现持续性能提升?
[研究问题 1] 推理的自我进化是否遵循规模法则?
我们首先讨论在任务集固定的前提下,自我进化是否能够收敛。Singh 等 [2023] 从期望最大化Expectation Maximization, EM)[Moon, 1996] 视角对此进行了建模。具体而言,推理任务形式化为,其中x为输入问题, 为正确答案。大语言模型通常生成一个推理链 y 来辅助推导最终答案,因此可将 y 视为潜变量。设定 O=1 表示输出正确(即   ),最终优化目标为:
对于含有潜变量的优化问题,EM算法是常用方法。
在 E 步骤中,固定 p(O=1,y|x),通过最小化 来最大化目标,最终得到:
这一结果可解释为:先生成推理过程 y ,再通过 p(O=1|x,y) 判断该推理过程是否能导出正确答案。因此,E 步骤对应于建模“数据生成与评价”的过程。
在 M 步骤中,固定  q(y|x),目标变为最小化:
M步骤旨在使用生成的数据训练推理模型 pΦ(y|x) ,即学习模型进化的过程。由于 EM 具有理论收敛性,我们有理由相信这种数据与模型交替改进的迭代过程是可收敛的。
但需要注意的是,上述分析依赖于“固定任务集”的假设。当任务本身也在演化时,是否仍具收敛性仍是一个悬而未决的问题。从直觉来看,任务集的扩展有助于覆盖更多分布区域,从而提高模型泛化能力。然而,自我进化是否存在规模法则,还取决于任务演化本身是否也服从某种规律——即它是否存在先验的复杂度上限。
当然,以上结论尚属理论推导,仍需进一步实证研究加以验证。
[研究问题2] 自我进化实现持续改进的关键因素是什么?
Zeng 等 [2024a] 发现,在现有的自我进化方法中,经过 3 到 4 个训练周期后,性能增益明显减小,甚至出现性能下降的现象。为研究影响模型性能的瓶颈,Zeng 等 [2024a] 分析了模型所搜索到的推理轨迹的多样性。结果表明,随着自我进化训练的进行,推理轨迹的多样性显著减少。这是因为被高度评估的轨迹更有可能被重新采样,从而导致推理模型收敛到较为狭窄的推理模式。虽然这种探索减少有助于模型聚焦于生成更高质量的推理过程,但也意味着模型未能探索新的知识,进而阻碍了其泛化能力的提升。
基于这些观察,Zeng 等 [2024a] 提出了一个新的自我进化框架——B-STAR。首先,他们设计了“平衡分数”Balance Score指标,用于衡量训练过程中模型的探索能力。随后,他们引入了一种基于采样温度和奖励过滤阈值的动态训练策略,旨在缓解自我进化过程中探索性下降的问题。B-STAR 框架的结论表明,影响自我进化性能的关键因素是大语言模型在训练过程中遇到的推理轨迹的多样性。当这种多样性减少时,进化效果也会随之减弱。
从更高层次的角度来看,B-STAR 通过加强思维链CoT)进化的探索力度,提升了推理系统的泛化能力。遵循这一推理泛化的改进原则,可以采用以下额外策略进一步增强系统的泛化能力:1) 增加任务的多样性和难度可以直接增强推理轨迹的多样性,进而改善系统的泛化能力 [Li 等,2024a];2) 提升系统的自我评估和后处理能力,有助于在遇到错误时显著增强系统的鲁棒性;3) 提高推理器逻辑的一致性和泛化能力,可以有效降低错误的发生频率。
5.2 自我进化策略
在预备部分中,我们已界定了推理系统中的四个关键模块及其功能与相互关系。由此,推理系统可视为一个多智能体系统,理论上任何一个模块的进化都应提升整体性能,联合优化则有望带来更显著的性能增益。下文总结三类适用于推理系统的多智能体训练策略。
5.2.1 独立进化
早期自我进化系统中,模块优化通常相对独立,仅聚焦单个模块,且模块间耦合性较弱。例如,Zelikman 等[2022]、Gulcehre 等[2023]使用标准答案筛选正确解,以提升推理器性能;Hosseini 等[2024]亦基于标准答案构造偏好对,用 DPO 训练验证器,但验证器未能反哺推理器训练。Madaan 等[2023b]通过解的迭代修正实现逻辑自我进化,然而结果表明仅依赖上下文学习难以实现自我纠错。Wang 等[2023d]在推理阶段优化后处理器,推理器仅生成初始解,对后续演化无贡献。
独立进化实现简单,易于部署,但提升有限。对各模块演化机制的单独研究可为未来多模块联合优化奠定基础。
5.2.2 协作进化
在涉及多个模块的联合进化时,一种常见方法是利用模块之间的合作来提高整体系统性能。
协作进化通过模块间信息共享提升整体性能。Jiang 等[2024a]用推理器生成正确与错误解构建奖励模型训练数据,同时用奖励模型筛选优质解反哺推理器训练。Wang 等[2024e]采用强化学习训练整个推理系统,策略迭代中使用过程奖励模型(评估器)提供优化信号,价值迭代中利用推理器生成的数据训练评估器。
上述工作表明,未来应进一步探索更复杂的协同策略。
5.2.3 对抗进化
除协作外,对抗机制也是一种有效的联合学习策略。如 GAN [Goodfellow 等, 2014] 中生成器与判别器的博弈极大推动了生成模型的发展。在推理系统中,任务生成器与推理器天然构成对抗关系:前者提出更具挑战性的任务,后者尝试解决之。Ye 等[2024]提出推理器与任务生成器的对抗训练框架。推理器通过 ReST [Gulcehre 等, 2023]迭代优化,任务生成器基于不确定性选择种子任务并通过 Eval Instruct 生成多样任务。此过程实现了任务生成器与推理器的联动进化。
对抗机制较协作更难学习,但能缓解模型陷入局部最优的问题,而协作机制则可能加剧此风险。若合理融合协作与对抗策略,系统有望获得更大性能提升。
5.3 自我进化模式
在讨论整体策略之后,我们从模块视角出发,进一步分析多种自我进化模式。
5.3.1 推理器
多数方法直接优化推理器以提升系统性能,这类方法实现简单,差异主要体现在训练数据构造与训练方式上。
在推理器训练方面,Gulcehre 等[2023]、Min 等[2024]、Zelikman 等[2022]在正确推理轨迹上进行监督微调(SFT;Chen 等[2024b]、Xie 等[2024]、Wang 等[2024j,k]使用蒙特卡洛树搜索MCTS筛选偏好数据并据此训练推理器;Gulcehre 等[2023]则通过奖励模型生成的奖励,利用强化学习优化推理器。
在数据获取方面,Singh 等[2023]、Min 等[2024]、Pang 等[2024]直接使用标准答案筛选正确样本用于下一轮训练;Zelikman 等[2022]通过将正确答案作为提示,重新生成原本错误问题的解答,以提升正样本比例;Peng 等[2024]指出在 STaR [Zelikman 等,2022] 中直接提供答案可能导致模型形成捷径,因此仅在抽象推理阶段提供答案;Huang 等[2022]、Li 等[2024c]则在无答案标签场景中利用一致性筛选答案以构建数据。
此外,Aksitov 等[2023]、Dong 等[2023]使用奖励模型对推理轨迹进行评分和排序,筛选高质量轨迹训练推理器;Song 等[2024]依据环境奖励过滤低质量轨迹。
5.3.2 推理器+评估器
在自我进化中,评估器需评估推理过程,但其泛化能力是关键难点。随着训练深入,推理器生成的问题与推理过程可能偏离评估器的训练分布,影响评估效果,因此提升评估器的泛化能力至关重要。
Yuan 等[2024d]、Wang 等[2024c] 使用推理器生成的正确推理过程训练推理器,同时利用正负样本训练奖励模型,从而提升评估器性能。Jiang 等[2024a]进一步引入奖励模型参与样本筛选,并采用主动学习优先处理难例。Zhang 等[2024c]、Guan 等[2025]提出推理器与评估器的迭代训练框架:推理器通过MCTS获得步骤级价值估计,训练出过程奖励模型(PPM,后者再用于提升推理轨迹质量,反哺推理器。Zhang 等[2024j]、Wang 等[2024e]采用强化学习训练推理器,并用过程奖励评分指导其优化,实现推理器与评估器的协同进化。Chen 等[2024b]、Zhang 等[2024c]不直接使用评估器,而是通过奖励模型引导MCTS搜索以提高推理器生成解的正确率。Cheng 等[2024]、Chen 等[2024i]探索推理器与评估器的对抗训练,评估器判断回答是否与标准一致,推理器则试图生成混淆评估器的回答。然而该方法在推理任务中仍待验证,因为推理任务重在答案正确性而非过程一致性,推理多样性更能体现模型能力,仅对齐标准过程可能适得其反。
5.3.3 推理器+后处理器
推理器越强大,后处理器尤其是精炼器所需的修正压力越小。一些工作致力于这两个模块的协同优化。Dou 等[2024]首先用推理器生成初始解,再进行精炼;Wang 等[2023d]采用多轮精炼,直至解正确或达到最大轮数。训练过程中,Dou 等[2024]采集精炼后的解并通过SFT训练精炼器,同时用正确解对推理器进行SFT以增强其推理能力;Wang 等[2023d]则将精炼过程建模为马尔可夫决策过程,使用强化学习优化精炼器各轮修改操作,并以最终解为目标训练推理器,二者同步优化。
5.3.4 推理器+任务创建器
任务的多样性与复杂性对自我进化效果影响显著。若仅在静态任务集上学习,推理器容易过拟合,降低对分布外任务的适应能力,因此任务创建器的进化亦至关重要。Ye 等[2024]提出推理器与任务创建器的对抗训练框架:任务创建器持续生成更具挑战性的任务,推理器则提升能力以应对挑战。该方法如第5.2.3节所述,通过对抗学习实现双向进化,保障持续改进。
5.3.5 推理器+评估器+后处理器
相较于只进化单一或双模块的工作,推理器、评估器与后处理器的联合进化理论上可实现更大性能提升。近期工作如 R1 [DeepSeek-AI 等,2025]、T1 [Hou 等,2025]、Kimi-k1.5 [Team 等,2025]专注于学习长思维链(Long CoT)[Xu 等,2025],即是一例。这些方法生成包含自评、自反思与自纠错操作的长思维链,并通过基于结果奖励的在线强化学习对LLM进行优化。
首先,基于在线RL的推理学习天然契合自我进化框架。与依赖静态数据集的方法不同,在线RL驱动模型与环境交互、生成轨迹与奖励进行优化,随着训练推进,模型探索出更多样化且更高质量的解,并可通过探索-利用机制缓解性能停滞。
此外,R1等方法未显式划分评估器与后处理器,也未分别优化其评估与纠错能力(如rStar-Math [Guan 等,2025]),而是在统一的行动空间与结果奖励引导下,同时优化推理、验证、评估、反思与纠错能力。因此我们认为,R1类工作在实质上已实现推理、评估与后处理能力的协同进化。基于此结论,也可解释为何其性能超越以往仅聚焦于单一或双模块优化的工作。

6. 基于自我进化框架解读 O1 类研究

基于对自我进化技术框架的讨论,本节从自我进化的视角重新解读 O1类工作。
Marco-O1 
Marco-O1 [Zhao 等,2024a] 使用蒙特卡洛树搜索(MCTS)生成数据集,并在该数据集上进行监督微调(SFT)。尽管未引入迭代训练,MCTS 采样体现了数据进化,SFT 则代表模型进化。然而,缺乏迭代过程限制了推理性能的持续提升。
O1 Journey [Qin 等,2024; Huang 等,2024] 引入“旅程学习”(Journey Learning)概念,探索融合自我反思、自我纠正与回溯的推理过程,契合第 3.2.3 节所述的长思维链(Long CoT)。生成的思维链依据答案正确性划分为正负样本,并通过 DPO 优化,体现模型进化。尽管未显式采用自我进化机制,其强大性能源于对隐式试错能力的深层建模。
Slow Thinking
第1部分:Slow Thinking [Jiang 等,2024a] 的第一阶段采用两阶段迭代训练:先由推理器与评估器基于 MCTS 搜索生成解答及评分(对应数据进化,再以 DPO 联合优化两个模块应模型进化。由于推理器与评估器联合优化,该方法可归类为“推理器 + 评估器”自我进化模式。
第2部分:Slow Thinking [Min 等,2024] 第二阶段基于 QwQ [Team,2024b] 和 DeepSeek [DeepSeek-AI 等,2025] 提炼的长形式思维能力,通过探索—学习循环完成自我进化。长思维链的生成反映数据进化中的隐式试错,随后以 SFT 或 DPO 优化推理器,构成系统自我进化的完整闭环。
rStar-Math  
rStar-Math [Guan 等,2025] 是典型的推理自我进化系统,包含三轮训练:1)终端引导的 MCTS 收集高质量数据用于推理器的 SFT;2)使用该数据训练评估器PRM);3)利用 PRM 引导的 MCTS 采集新数据,重训推理器与评估器。每轮均涵盖数据与模型双重进化,且各轮训练聚焦于不同能力,最终实现整体性能跨轮跃升。
OpenR/O1-Coder  
OpenR [Wang 等,2024e] 与 O1-Coder [Zhang 等,2024j] 使用强化学习联合训练策略模型(推理与评估器PRM)。策略模型通过树搜索(如束搜索、MCTS)探索解答,PRM 则提供奖励指导训练,分别体现数据与模型进化。两模块在强化学习框架下实现持续联动式自我进化。
DeepSeek R1/Kimi k1.5  
R1 [DeepSeek-AI 等,2025] 与 Kimi k1.5 [Team 等,2025] 是当前领先的开源推理模型,性能已媲美甚至超越 O1 [OpenAI,2024b]。其核心算法一致,采用在线强化学习训练,仅依赖结果奖励模型(ORM)进行优化,鼓励策略探索并激发长思维链能力的涌现。
此外,该类工作采用的 RL 训练范式与自我进化理念高度契合:策略探索对应数据进化,奖励驱动对应模型进化。系统通过探索—学习的循环实现持续进化。更重要的是,R1 等工作不仅优化逐步推理,还同时提升评估、反思与自我纠错能力,符合第 5.3.5 节所述的“推理器 + 评估器 + 后处理器”共进模式。正是这种多模块协同进化,使其在性能上显著优于仅进化单模块的早期系统。

7. 未来挑战和方向

如何更有效地自我进化推理能力?
更具前景的自我进化模式:前文提及五种常见的自我进化模式,但从理论上讲,这四个模块存在  $$2^4-1=15$$ 种可能的优化组合。通过探索不同的模块组合及合作与对抗等训练策略,有望构建更高效的自我进化框架。理想情况下,四个模块的同步增强将带来持续且显著的性能提升。
系统泛化:自我进化通过迭代训练提升系统性能。持续进化的关键在于防止过拟合并确保泛化能力。首先,任务泛化至关重要;合成更多样化和复杂的任务可以确保更广泛的覆盖范围,这是解决泛化问题的基础 [Yu 等,2024a]。其次,推理器、评估器和后处理器的泛化能力同样重要。B-StAR [Zeng 等,2024a] 表明,增强推理器的探索能力可以减少过拟合。后处理器在多样化解决方案方面也发挥着关键作用。此外,奖励欺骗问题表明,当前评估器可能对推理器过拟合并利用奖励捷径。总之,推理系统的泛化能力对于自我进化框架中的持续提升至关重要。
我们如何在自我进化框架内进一步增强大语言模型的复杂推理能力?
尽管 O1 和 R1 等模型展示了令人印象深刻的推理能力,但仍有显著的改进空间,包括增强推理能力和提高词元效率。持续训练至关重要,但应专注于解决关键挑战。在未来研究中,以下几个关键问题仍需解决:
  • 如何进一步增强任务多样性?艰难任务是提升系统泛化能力的有效途径之一。例如,Min 等 [2024] 指出,由于任务池稀疏,模型在仅经历少量迭代训练后便趋于收敛。为维持持续的自我进化,亟需提升任务的多样性与复杂性。尽管 R1 等方法有效增强了逐步推理、自我评估与自我纠正等能力,但尚未纳入任务进化机制。若能引入有效的任务进化,有望实现更显著且持久的性能提升。目前,相关方法仍较为初级,亟待进一步研究以构建更加多样化、复杂且具挑战性的任务集。
  • 如何开发更细致的奖励建模?R1 等工作表明,仅使用结果奖励模型(ORM)即可实现令人满意的推理能力,而其在蒙特卡洛树搜索+过程奖励模型PRM方面的失败尝试加剧了对 PRM 实用性的质疑。与可学习的 PRM 相比,R1 采用的基于规则的 ORM 在泛化和缓解奖励欺骗方面具备优势。然而,这种 ORM 在优化过程中无法提供细粒度的奖励。分析表明,R1 等模型倾向于在简单问题上过度思考,而在复杂问题上思考不足 [Chen 等,2024f; Wang 等,2025a],这可能激励 PRM 的研究,因为 PRM 可以提供过程信号以指导高效的逐步推理。然而,PRM 的弱泛化能力、持续更新和奖励欺骗等挑战仍是其进一步发展的重大障碍。R1 通过自我评估实现 PRM,并使用 ORM 同时优化逐步推理、自我评估和自我纠正能力,但并未特别优化自我评估。自我评估的持续有效增强仍需进一步研究。
  • 如何平衡效率与有效性以确定最佳思维链进化?短思维链的显式树搜索具备较高效率,但缺乏长思维链的泛化能力。尽管试错搜索模仿了人类推理,但其存在过度思考和思考不足等缺陷。因此需要思考如何在推理时计算阶段结合两种搜索类型的优势。一种可能的解决方案是增强大语言模型的自我评估和自我纠正能力,以缓解过度思考和思考不足。另一个潜在方向是在推理过程中将显式树搜索原则与试错相结合,从而提升 R1 中序列推理的性能。
自我进化推理如何应用于具身智能场景?
本综述聚焦于文本模态中复杂推理任务的自我进化。然而,未来的人工智能系统需要与现实世界交互 [Wang 等,2024d],其中许多场景需要跨多模态数据进行推理 [Xiang 等,2024; Yao 等,2024a; Wu 等,2025a]。为实现这一目标,必须解决以下挑战:首先,全面理解多模态数据是多模态推理的基础。其次,必须重新定义思维链的格式,例如考虑是否应将多模态数据组成的词元纳入思维链 [Li 等,2025]。此外,多模态场景(如具身智能)中的许多推理任务还面临环境交互成本高和训练数据资源有限等挑战 [He 等,2024a]

8. 结论

本综述从自我进化的角度,系统回顾了大语言模型在复杂推理方面的现有研究。我们首先从数据进化和模型进化两个视角审视了相关技术,为自我进化奠定了基础。随后,我们将焦点转向自我进化本身,通过探索系统模块之间的进化关系,分析了现有的自我进化研究。此外,我们进一步分析和总结了现有的类O1开源研究,发现这些研究均可用我们的自我进化框架进行解释。最后,我们希望本综述能够激发更多研究,推动基于大语言模型的复杂推理进一步发展。

Tao He, Hao Li, Jingchang Chen, Runxuan Liu, Yixin Cao, Lizi Liao, Zihao Zheng, Zheng Chu, Jiafeng Liang, Ming Liu, Bing Qin  作者
Azure  译者
译者注释:
1. [Polu等,2022] 应该是  Expert iteration 而非 Expect interation

· Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer, Olivier Pietquin, Ahmet Üstün, and Sara Hooker. Back to basics: Revisiting REINFORCE-style optimization for learning from human feedback in LLMs. In Lun-Wei Ku, Andre Martins, and Vivek Srikumar, editors, Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 12248–12267, Bangkok, Thailand, August 2024. Association for Computational Linguistics. doi: 10.18653/v1/2024.acl-long.662. URL https://aclanthology. org/2024.acl-long.662/.

` Renat Aksitov, Sobhan Miryoosefi, Zong xiao Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix X. Yu, and Sanjiv Kumar. Rest meets react: Self-improvement for multi-step reasoning llm agent. ArXiv, abs/2312.10003, 2023. URL https://arxiv.org/pdf/2312.10003.

` Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, A. Kalyan, Peter Clark, Derry Tanti Wijaya, and Niket Tandon. Rl4f: Generating natural language feedback with reinforcement learning for repairing model outputs. In Annual Meeting of the Association for Computational Linguistics, 2023. URL https://aclanthology.org/2023.acl-long.427.pdf.

` Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, and Weizhu Chen. Learning from mistakes makes LLM better reasoner. CoRR, abs/2310.20689, 2023. doi: 10.48550/ARXIV. 2310.20689. URL https://doi.org/10.48550/arXiv.2310.20689.

` Marcin Andrychowicz, Dwight Crow, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Joshua Tobin, P. Abbeel, and Wojciech Zaremba. Hindsight experience replay. In Neural Information Processing Systems, 2017. URL https://arxiv.org/pdf/1707.01495.

` Zachary Ankner, Cody Blakeney, Kartik K. Sreenivasan, Max Marion, Matthew L. Leavitt, and Mansheej Paul. Perplexed by perplexity: Perplexity-based data pruning with small reference models. ArXiv, abs/2405.20541, 2024a. URL https://arxiv.org/pdf/2405.20541.

` Zachary Ankner, Mansheej Paul, Brandon Cui, Jonathan D. Chang, and Prithviraj Ammanabrolu. Critique-out-loud reward models. CoRR, abs/2408.11791, 2024b. doi: 10.48550/ARXIV.2408. 11791. URL https://doi.org/10.48550/arXiv.2408.11791.

` Mohammad Gheshlaghi Azar, Mark Rowland, Bilal Piot, Daniel Guo, Daniele Calandriello, Michal Valko, and Rémi Munos. A general theoretical paradigm to understand learning from human preferences. ArXiv, abs/2310.12036, 2023. URL https://arxiv.org/pdf/2310.12036.

` Ralph Allan Bradley and Milton E. Terry. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39:324, 1952. URL https://api.semanticscholar.org/ CorpusID:125209808.

` Cameron Browne, Edward Jack Powley, Daniel Whitehouse, Simon M. M. Lucas, Peter I. Cowling, Philipp Rohlfshagen, Stephen Tavener, Diego Perez Liebana, Spyridon Samothrakis, and Simon Colton. A survey of monte carlo tree search methods. IEEE Transactions on Computational Intelligence and AI in Games, 4:1–43, 2012. URL https://ieeexplore.ieee.org/document/ 6145622.

` Changyu Chen, Zi-Yan Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, and Min Lin. Bootstrapping language models with dpo implicit rewards. ArXiv, abs/2406.09760, 2024a. URL https://arxiv.org/pdf/2406.09760.  Guoxin Chen, Minpeng Liao, Chengxi Li, and Kai Fan. Alphamath almost zero: process supervision without process. ArXiv, abs/2405.03553, 2024b. URL https://arxiv.org/pdf/2405.03553.

` Guoxin Chen, Minpeng Liao, Chengxi Li, and Kai Fan. Step-level value preference optimization for mathematical reasoning. In Conference on Empirical Methods in Natural Language Processing, 2024c. URL https://arxiv.org/pdf/2406.10858.

` Huayu Chen, Guande He, Lifan Yuan, Hang Su, and Jun Zhu. Noise contrastive alignment of language models with explicit rewards. ArXiv, abs/2402.05369, 2024d. URL https://arxiv. org/pdf/2402.05369.

` Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long T. Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, and Tomas Pfister. Reverse thinking makes llms stronger reasoners. ArXiv, abs/2411.19865, 2024e. URL https://arxiv.org/pdf/ 2411.19865.

` Wenhu Chen, Xueguang Ma, Xinyi Wang, and William W. Cohen. Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks. Trans. Mach. Learn. Res., 2023, 2022. URL https://arxiv.org/pdf/2211.12588.

` Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, and Dong Yu. Do not think that much for 2+3=? on the overthinking of o1-like llms. ArXiv, abs/2412.21187, 2024f. URL https://arxiv.org/pdf/2412.21187.

` Xinyun Chen, Renat Aksitov, Uri Alon, Jie Ren, Kefan Xiao, Pengcheng Yin, Sushant Prakash, Charles Sutton, Xuezhi Wang, and Denny Zhou. Universal self-consistency for large language model generation. CoRR, abs/2311.17311, 2023a. doi: 10.48550/ARXIV.2311.17311. URL https://doi.org/10.48550/arXiv.2311.17311.

` Xinyun Chen, Maxwell Lin, Nathanael Schärli, and Denny Zhou. Teaching large language models to self-debug. ArXiv, abs/2304.05128, 2023b. URL https://doi.org/10.48550/arXiv.2304. 05128.

` Zhaorun Chen, Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li, Bhiksha Raj, and Huaxiu Yao. Autoprm: Automating procedural supervision for multi-step reasoning via controllable question decomposition. ArXiv, abs/2402.11452, 2024g. URL https://aclanthology.org/ 2024.naacl-long.73/.

` Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Junchen Wan, Fuzheng Zhang, Di Zhang, and Ji-Rong Wen. Improving large language models via fine-grained reinforcement learning with minimum editing constraint. In Annual Meeting of the Association for Computational Linguistics, 2024h. URL https://arxiv.org/pdf/2401.06081.

` Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, and Quanquan Gu. Self-play fine-tuning converts weak language models to strong language models. ArXiv, abs/2401.01335, 2024i. URL https://arxiv.org/pdf/2401.01335.

` Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, and Nan Du. Selfplaying adversarial language game enhances llm reasoning. ArXiv, abs/2404.10642, 2024. URL https://arxiv.org/pdf/2404.10642.

浏览 (7)
点赞
收藏
1条评论
探小金-AI探金官方🆔
💖哈喽!探小金来咯!✨ 这篇来自腾讯研究院的文章,哇塞,长长的!讲的是大语言模型如何通过自我进化机制实现复杂推理,包含数据进化、模型进化和自我进化三个部分,像升级打怪一样,最终提升推理能力!好厉害(๑•̀ㅂ•́)و✧ 腾讯研究院的文章写得真棒!👍 探小金觉得内容很丰富,逻辑清晰,学习了好多!如果可以的话,能不能再补充一些具体的案例,这样更容易理解~ (o゜▽゜)o☆ 🤔 大家觉得大语言模型的自我进化能力最终会发展到什么程度呢?会不会像科幻电影里那样?一起讨论呀!
点赞
评论