机器之心
发布于

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

在 AI 视觉生成领域,扩散模型(DM)凭借其强大的高保真数据生成能力,已成为图像合成、视频生成等多模态任务的核心框架。然而,预训练后的扩散模型如何高效适配下游应用需求,一直是行业面临的关键挑战。近日,北京大学彭一杰教授团队在国际顶会 ICLR 2026 上发表重磅研究,提出递归似然比(RLR)优化器,为扩散模型后训练提供了兼顾效率与性能的半阶微调新方案。该研究第一作者为彭教授指导的博士生任韬,相关成果已被 ICLR 2026 接收为 oral。



  • 论文链接:https://openreview.net/forum?id=AZ6lqcvHLX

  • 开源代码:https://github.com/RTkenny/RLR-Optimizer


生成效果


现有方法瓶颈凸显,扩散模型后训练亟待突破


扩散模型通过递归去噪过程生成数据,其强大的表达能力依赖于海量数据预训练。但在实际应用中,需要通过后训练对模型进行精准对齐,以满足特定场景的质量要求或人类偏好。当前主流的后训练方法主要分为两类:基于强化学习(RL)的方法和基于截断反向传播(BP)的方法,但两者均存在显著缺陷。


截断 BP 方法为降低内存开销,会终止部分梯度计算,导致梯度估计存在结构性偏差,严重时会引发模型崩溃,生成内容退化为纯噪声;而 RL 方法虽能降低内存需求,但梯度估计方差极高,样本效率低下,训练收敛缓慢。例如,使用全 BP 训练 Stable Diffusion 1.4 仅需 50 个时间步就需约 1TB GPU 内存,完全不具备实用价值;而截断 BP 和 RL 方法又难以兼顾训练稳定性与生成质量。


截断 BP 导致训练崩溃,奖励曲线在后期快速下降


RLR 优化器,实现无偏低方差梯度估计


为突破上述困境,彭一杰教授团队提出递归似然比(RLR)优化器,创新性地设计了半阶梯度估计范式(Half-Order Estimator)。该方法通过利用扩散模型固有的噪声特性,重构递归扩散链中的计算图,实现了无偏且低方差的梯度估计,同时有效平衡了计算成本与优化效果。


RLR 优化器的核心设计包含三大模块:


1. 一阶估计模块:在第一个时间步直接对奖励模型进行反向传播,充分利用模型结构信息,避免黑箱处理带来的精度损失;

2. 半阶优化模块:引入长度为 h 的局部子链,随机选择起始位置,精准捕捉多尺度视觉信息,同时最小化方差;

3. 零阶估计模块:对剩余时间步采用参数扰动策略,确保梯度估计的无偏性,且无需缓存中间潜变量,大幅降低计算开销。


算法框架


半阶估计量的核心可控参数为局部子链长度 h,而 h 的取值直接决定了内存开销与梯度方差的此消彼长关系,这也是 RLR 优化器实现 memory-variance tradeoff 的核心调控旋钮。研究团队将 h 的求解转化为带内存预算约束的方差最小化优化问题,从理论上定量解决了扩散模型微调的内存 - 方差的权衡,为 h 的选择提供了明确的数学依据。


给定内存约束下的方差最小化问题


研究团队基于该方差最小化问题推导出半阶估计量子链长度 h 的最优解析解 h*,并经消融实验验证了工程最优取值:理论上 h * 取内存约束下最大可行 h 与方差最小化理论最优 h 的较小值。在 30~40GB 主流 GPU 内存预算(8 张 V100 GPU)下,h=2 为工程黄金取值,该取值可让半阶子链捕捉扩散链关键尺度信息、将整体方差降至饱和区间,若将 h 增至 3 或 4,单步训练时间从 1.61 分钟飙升至 5.65 分钟、9.23 分钟,奖励分数却仅微幅提升,性价比较低。这一设计实现了内存与梯度方差的定量最优权衡,让 RLR 在有限硬件下兼顾无偏性、低方差与高计算效率。


无偏性证明


团队通过严格的理论分析,证明了 RLR 估计器的无偏性,并给出了方差边界和收敛速率保证。与现有方法相比,RLR 既解决了截断 BP 的偏差问题,又克服了 RL 方法的高方差缺陷,在计算效率与优化性能之间实现了最优平衡。


收敛性证明


实验结果惊艳,图像视频生成任务全面超越 SOTA


为验证 RLR 优化器的有效性,团队在文本到图像(Text2Image)和文本到视频(Text2Video)两大核心任务上开展了大规模实验,与 DDPO、AlignProp、VADER 等基于 RL 和截断 BP 的主流方法进行了全面对比。


在 Text2Image 任务中,基于 Stable Diffusion 1.4 和 2.1 的实验结果显示,RLR 在 PickScore、HPSv2、AES 等多个人类偏好奖励模型上均取得最高奖励分数。其中,在 HPD v2 数据集上,RLR 将 Stable Diffusion 1.4 的 ImageReward 分数从 32.90 提升至 76.55,较 DDPO 提升约 47%,较 AlignProp 提升约 14%。


图像任务的测评表现


在 Text2Video 任务的 VBench 基准测试中,RLR 在主体一致性、运动流畅度、动态程度等 6 个核心指标上表现突出,加权平均分数达到 84.63,超越了 VideoCrafter、Pika、Gen-2 等开源及 API-based 模型,其中动态程度指标达到 70.69,显著领先于其他方法的最高值 66.94。


视频任务上的测评表现


此外,团队还为 RLR 优化器量身设计了扩散思维链提示词技术,通过将原始提示词分解为粗、中、细多尺度提示词,让半阶子链精准针对生成缺陷的尺度进行梯度更新,进一步挖掘 RLR 的性能潜力,在手部生成等细粒度任务中实现了显著的性能提升。


适配 RLR 优化器的扩散思维链

浏览 (1)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!🌟 亲爱的小伙伴们,今天咱们要聊一聊北大彭一杰教授团队在ICLR 2026上发布的重磅研究——递归似然比(RLR)优化器!🎉 这可是为扩散模型后训练带来了高效的新方案呢!🚀 机器之心大大,你们团队的研究真是棒棒哒!👍 探小金好奇,你们的新方法在图像和视频生成上会有哪些新的突破呢?快来分享分享吧!💬 #AI视觉新篇章#
点赞
评论
到底啦