AIGC开放社区
发布于

撞车何恺明团队!华南理工顶会NeurIPS论文以预测数据和方差优化让扩散模型更强更快

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

何恺明团队的重磅新作提出:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效。

华南理工大学的研究,也提出扩散模型预测数据比预测噪声更优。

并从底层数学原理得出:扩散模型生成图像的过程本质上是一个逆向降低条件熵的信息恢复过程,EVODiff算法通过优化条件方差实现了推断效率与质量的双重飞跃。

这篇发表在顶会 NeurIPS 2025 上的研究,揭示了扩散模型(Diffusion Models)推断过程中一个长期被忽视的物理本质:去噪不仅仅是求解微分方程,更是一个系统性降低不确定性的信息传输过程。

研究不满足于仅仅在数值上逼近预定义的轨迹,而是建立了一套全新的信息论框架,证明了最小化逆向转换中的条件方差可以直接降低条件熵。

基于这一理论,研究团队提出了一种无需参考轨迹的方差优化推断算法,在计算成本不增加的前提下,让生成图像的保真度在极低步数下获得了突破性提升,例如在 CIFAR-10 数据集上将 10 步推断的 FID 分数从 5.10 压低至 2.78。

信息论视角的引入

扩散模型在图像合成、视频生成等领域展现了惊人的创造力,但其缓慢的迭代过程始终是落地的痛点。

为了加速这一过程,学术界此前的主流方向是将去噪过程建模为常微分方程(ODE)或随机微分方程(SDE)的求解问题。

诸如 PNDM、DPM-Solver、UniPC 等方法,本质上都是在寻找更精确的数值积分器,试图用更少的步数描绘出原本需要千百步才能走完的去噪轨迹。

这些基于梯度的数值求解器虽然在经验上取得了显著成功,但它们缺失了一块关键的理论基石:信息传输效率。

现有的 ODE 求解器更多关注数学上的轨迹逼近精度,却忽略了生成过程的物理意义——即从无序的高斯噪声中恢复有序的数据分布。

这种视角的缺失导致了一个理论空白,即无法解释为什么某些推断策略比其他策略更有效,也难以从根本上指导算法设计以进一步压缩推断步数。

EVODiff 的研究工作填补了这一空白。

研究人员不再单纯将推断视为数学方程的求解,而是将其视为条件熵动力学的演变。

前向扩散过程是一个不断添加噪声、破坏数据结构、导致熵增的过程;相应的,逆向推断过程必须是一个不断去噪、恢复丢失信息、实现熵减的过程。

在此框架下,每一次去噪迭代的核心任务变得非常清晰:最大程度地减少中间状态的不确定性。

从信息论的角度看,连续状态间的信息增益由互信息量化。

较低的条件熵意味着较高的互信息,这表明算法有效地利用了当前状态的信息来精炼对下一时刻状态的估计。

理解了去噪即熵减这一核心理念后,接下来的挑战是如何在算法层面可操作地实现熵的最小化。

直接计算高维图像数据的熵在计算上是极其困难的。

研究团队利用扩散模型中广泛采用的高斯分布近似假设,找到了一条巧妙的路径。

在马尔可夫假设下,逆向转换通常被近似为高斯分布。

理论推导表明,在此假设下,条件熵与条件方差的对数行列式成正比。

这一发现至关重要,它将抽象的“熵减”转化为了具体的“方差最小化”。

换言之,只要能有效降低推断过程中的条件方差,就能直接降低条件熵,从而引导样本向高概率的数据分布区域收敛。

这一理论视角同时也解释了不同参数化方法的优劣。

扩散模型通常有两种预测目标:预测噪声(Noise Prediction)或预测数据本身(Data Prediction)。

EVODiff 的理论分析证明,数据预测参数化在理论上优于噪声预测参数化

研究人员证明了在独立性假设下,直接预测数据能更有效地减少重建误差并降低条件熵。

这是因为噪声预测路径的转换链条,每一步都可能引入累积误差,而数据预测参数化则直接瞄准目标数据分布,规避了中间环节的不确定性放大。

这一理论发现为此前 DPM-Solver 等工作中观察到的经验现象提供了坚实的数学支撑。

重建误差与EVODiff 算法的收敛性保障

为了设计出更优的推断算法,研究团队进一步将推断过程中的重建误差分解为两部分:方差项和偏差项。

方差项描述了推断状态与其后验均值之间的离散程度,而偏差项则描述了后验均值与真实数据之间的距离。

在实际推断过程中,由于我们无法预知要生成的对象,优化偏差项变得不仅困难而且依赖于并不存在的先验。因此,优化方差项成为了提升推断质量的主要且唯一可行的抓手。

传统的 ODE 求解器虽然能沿着预定轨迹行进,但它们往往忽略了主动优化方差的潜力。

EVODiff 提出了一种熵感知的方差优化机制,旨在推断过程中动态地调整状态,以最小化每一步的条件方差。

这种优化并非盲目进行,而是基于对梯度推断中方差来源的精细分析。

研究发现,梯度推断中的条件方差主要源自两处:一是梯度估计项本身的方差,二是梯度项与一阶项之间不匹配导致的方差。

通过构建最小化前向逆向估计差异和梯度误差的目标函数,研究人员推导出了这两个参数在松弛约束下的闭式解(Closed-form solution)。

这意味着 EVODiff 可以在每一步迭代中瞬间计算出最优的参数值,根据当前的推断状态动态调整,在不增加计算负担的情况下最大化信息传输效率。

基于上述理论,EVODiff 算法被设计为一个即插即用的推断框架。

它不需要重新训练模型,而是作为一种采样策略应用于现有的预训练扩散模型。

算法的核心流程在标准的多步迭代中通过引入方差优化项来改进状态更新。

这种设计使得 EVODiff 能够利用模型参数低方差区域的信息,通过线性插值的方式引入低方差的参数来“中和”高方差的估计。

研究证明,这种基于熵减少(RE)的多步迭代方法构成了一个全局收敛的二阶迭代算法。

多数据集上的全方位性能碾压

理论的优越性最终需要在实际应用中得到验证。

EVODiff 在 CIFAR-10、ImageNet、LSUN-Bedrooms 等多个标准基准数据集上进行了广泛的测试,并与 DPM-Solver++、UniPC、DEIS 等当前最先进的算法进行了对比。

在 CIFAR-10 数据集上,在仅进行 10 次函数评估(10 NFE)的苛刻条件下,DPM-Solver++ 的 FID 分数为 5.10,而 EVODiff 将这一数字大幅降低至 2.78,相对误差减少了 45.5%。

即使在极端的 5 NFE 设置下,EVODiff 依然能保持较好的生成质量,FID 从基线的 27.96 降至 17.84。这表明在计算资源极其受限的场景下,EVODiff 能够提供远超对手的图像质量。

在高分辨率和复杂数据集上,优势同样明显。

在 ImageNet-256 任务中,为了达到同等的高质量样本水平,EVODiff 所需的 NFE 成本比 DPM-Solver++ 降低了 25%(从 20 NFE 减少到 15 NFE)。这意味着在实际部署中,生成速度可以直接提升四分之一。

对于潜在空间扩散模型(Latent Diffusion Models),EVODiff 同样适用。

在 LSUN-Bedrooms 数据集上,在 5 NFE 的低步数设置下,EVODiff 的 FID 仅为 7.912,而同条件下的 UniPC 为 13.969,性能提升高达 43.4%。

此外,由于省去了不必要的计算开销,EVODiff 在生成时间上也具有优势,在保持最高质量的同时,生成速度比 UniPC 快了约 5.3%。

视觉质量与语义对齐的提升

定量指标的提升直接反映在视觉感官上。

对比实验显示,在低步数采样时,传统方法生成的图像往往伴随着严重的噪声残留、结构崩塌或模糊不清,而 EVODiff 生成的图像细节锐利,结构完整。

在文本到图像的生成任务中,这种优势转化为更好的语义一致性和更少的视觉伪影。

使用 Stable Diffusion v1.5 模型进行的实验中,当提示词为“一只骑自行车的巨大毛毛虫”时,在 25 NFE 的设置下,DPM-Solver++ 和 UniPC 生成的图像出现了明显的扭曲和伪影,毛毛虫与自行车的结构融合混乱。

相比之下,EVODiff 生成的图像不仅高保真,而且精确地还原了提示词描述的语义场景,毛毛虫与自行车的交互自然且符合物理常识。

为了验证算法各组件的有效性,研究团队进行了详尽的消融实验。

结果显示,从基线求解器开始,引入熵减少机制能带来第一波性能提升,随后引入演化状态驱动的参数优化则进一步压低了 FID 分数。

这证明了 EVODiff 的成功并非依赖于单一技巧,而是多层次优化策略协同作用的结果。

此外,EVODiff 展现了极强的鲁棒性。

无论是使用 logSNR 还是 EDM 的噪声调度策略,无论是像素空间模型还是潜在空间模型,EVODiff 的性能曲线始终位于其他比较方法之下(FID 越低越好)。

这种通用性意味着 EVODiff 有潜力成为未来扩散模型推断的标准配置,适用于从学术研究到工业应用的广泛场景。

EVODiff 不满足于表面的数值加速,而是深入到生成过程的信息论本质,通过控制条件熵和方差来优化生成路径。

这种无需参考轨迹、基于物理直觉的方差控制方法,不仅解决了推断速度与质量的矛盾,也为理解生成模型背后的数学原理提供了新的视角。

随着生成式 AI 对实时性和高质量要求的不断提高,像 EVODiff 这样理论扎实且效果显著的算法,将成为推动技术落地的关键力量。

参考资料:

https://openreview.net/forum?id=rKASv92Myl

浏览 (12)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀,探小金来啦!🌟 AIGC开放社区的小伙伴们,你们看这篇关于华南理工大学的NeurIPS论文,真是让人眼前一亮呢!👀 作者们巧妙地优化了扩散模型,让图像生成既快又强,简直是个大突破!🎉 探小金要为你们疯狂打call!👏 顺便问一下,你们觉得这种新算法在现实生活中的应用前景如何呢?🤔💭 来评论区聊聊吧!👇👇👇
点赞
评论
到底啦