AI未来指北
发布于

数据耗尽时代,Diffusion扩散模型能成为大模型的新密码吗?

文|博阳

编辑|萌萌

2024年,研究机构Epoch AI发布预测:到2028年,互联网高质量文本数据将消耗殆尽,机器学习数据集或于2026年前面临“高质量语言数据”枯竭。

这一判断如同一道阴影,笼罩在以无限扩展(Scaling)为信条的行业之上,引发了对模型发展路径可持续性的普遍忧虑。

然而,这种焦虑很快被另一场技术革命的浪潮所掩盖。

以强化学习(RL)为核心的对齐技术异军突起,转移了公众的注意力,开辟了基于推理算力的另一条Scaling Law。

更重要的是,它重新开启了“合成数据”的大门。

通过强化学习和自监督循环,模型本身成为了数据生成引擎,源源不断地创造出新的训练材料。这在很大程度上缓解了业界对原始数据短缺的燃眉之急,并将行业的注意力从“数据瓶颈”暂时转移到了“能力对齐”和“智能体(Agent)”的构建上。

一时间,数据问题似乎从一个迫在眉睫的危机,降级为了一个可以通过技术手段管理的挑战。

但这个根本性的问题从未真正消失。

在Sam Altman与GPT-4.5的3位核心技术人员进行的对谈中,站在预训练Scaling前沿的GPT-4.5核心开发者Alex Paino也坦承,在4.5版本之后,模型能力提升的制约因素已经发生了质变。

在某些关键维度上,数据而非算力,已经重新成为最主要的瓶颈。

参与对谈的Daniel Selsam也表示,尽管Transformer架构在吸收和压缩信息方面表现出卓越的计算效率,但其从数据中获得洞察的深度是有限的。当算力供应持续高速增长,而高质量数据的增长相对缓慢时,数据本身便成为了这种标准模式下的核心制约因素。

而他也表示,整个行业至今尚未围绕“数据效率”进行过一次真正的、总动员式的攻坚。因为在过去模型数据充裕的条件下,这并不算低垂的果实。

因此在这场对谈的一个核心共识就是:找到如何从有限的、甚至存量的数据中压榨出更多价值的方法,将是下一代模型的决定性战场。

模型已经进入“数据效率”争夺的时代。

在此背景下,一个更深的问题浮出水面:被奉为现代AI基石的Transformer架构,其核心的自回归(Autoregressive)学习方式,真的是利用数据的最高效范式吗?

一篇卡内基梅隆大学新近发表的学术研究,正是在对这一根本性问题做出严肃的质疑与探索。

这项研究系统性地证明,Diffusion扩散模型,也许在数据稀缺成为常态的未来,恰好是解锁更高数据效率的关键。

这一发现,可能预示着主流模型架构的一次重大路线分化,并为整个行业指明了一条在数据耗尽阴影下继续前行的可能路径。

算力超越Chinchilla万倍之后,Diffusion才是王者

研究者们的目标明确:在完全相同的条件下,让当前语言模型领域的两大主流范式,占据主导地位的自回归(Autoregressive, AR)模型,与作为挑战者的掩码扩散(Masked Diffusion)模型,进行一次正面交锋。

研究团队确保了两个模型家族在所有可控维度上都保持一致:它们共享相同的Transformer骨干网络、相同的模型参数规模(从700万至25亿不等)、以及完全相同的训练超参数。

唯一的变量,被精确地隔离在两者最核心的学习机制上。AR模型采用行业标准的、固定的从左到右序列预测方式。而扩散模型则采用一种随机顺序的去噪方法,通过预测文本中被随机掩盖的部分来进行学习。

这种设计确保了实验结果能够直接归因于两种学习范式在数据利用方式上的本质差异。

研究人员强制模型在有限的、固定的数据集上进行多轮次、长周期的重复训练,以此模拟数据稀缺的真实场景。

在本次研究中,衡量两种模型泛化能力的核心标尺是验证损失(Validation Loss),这一指标反映了模型在从未见过的“验证集”数据上的表现,是评估其是否真正“学会”而非“背会”的关键。一个更低的验证损失,直接意味着模型具备更强的泛化能力和更优的性能。

在这一阶段,两种模型的表现开始呈现出惊人的分化。

AR模型的性能曲线迅速变得平缓,很快便达到了平台期。随着在同一数据集上的重复训练持续进行,其性能非但没有提升,反而开始因为过拟合而出现退化,验证损失停止下降甚至转而上升。这表明,AR模型从重复数据中汲取新知识的能力非常有限。

与之形成鲜明对比的是,掩码扩散模型展现出了非凡的耐力。即便在同一数据集上进行了数百轮的重复训练,其验证损失依然能够持续、稳定地下降。

实验结果显示,AR模型在50轮重复训练后性能便已饱和,而扩散模型在高达500轮的训练后仍未出现任何过拟合的迹象。这有力地证明了扩散模型能够更深度、更持久地从有限的数据中挖掘和学习,表现出卓越的数据复用能力。

研究者将这一性能反超的临界点命名为“临界计算点”(Critical Compute Point)。对于任何一个给定大小的数据集,都存在一个特定的总计算量(以FLOPs衡量)阈值,一旦训练投入的计算量超越该阈值,扩散模型的性能便会开始稳定地优于AR模型。

然而,Diffusion的高效并非没有代价。实验揭示并量化了“Chinchilla最优点”与“关键计算点”之间存在的巨大鸿沟。

Chinchilla最优点可以被视为传统训练范式下的第一个重要里程碑,在此处,自回归(AR)模型凭借其计算效率的优势,以相对较低的成本率先抵达性能高地。

而研究中的拟合公式预测,在同一数据集上,扩散模型反超AR模型的“关键计算点”所需的计算量,比达到Chinchilla点,需要高出数万倍。

但当下的AR模型训练,基本很少有只跑单轮的情况,算力效用最优并不意味着性能最优。在工业级的军备竞赛中,所有玩家都在进行长周期的、数据增强下的多轮训练。大家比拼的不是谁能在第一圈跑得最快(Chinchilla点),而是谁能在投入了海量资源、跑完整场马拉松后,最终的性能更强。

“关键计算点”这个概念,恰好就是这场马拉松的“终点线裁判”。在追求SOTA(State-of-the-Art)的工业落地场景中,后者显然是更具决定性意义的胜负手。

为了更精确地量化这一数据效率上的巨大差异,该研究引入并拟合了“数据复用半衰期“这一关键参数。该参数旨在衡量一个模型架构在性能回报显著递减之前,能够有效利用重复数据的最大轮次。

根据实验拟合,AR模型的半衰期值仅为约31。这与其实证表现一致,即在重复数据4轮之后,其学习效率便大幅下降。而扩散模型的半衰值则高达约512,这意味着理论上它可以从重复数据中高效学习数百个轮次,而效果几乎等同于使用全新的数据。

Diffusion,凭什么能赢?

Diffusion模型,为什么数据效率更高呢?

研究报告也给出了有力的解释。

自回归(AR)模型的优势在于其极致的计算效率,而扩散模型的胜利则源于其内在的、更为卓越的数据效率,这背后是两种截然不同的信息利用范式。

扩散模型成功的核心,在于其随机掩码机制,这被研究者视为一种功能强大的、隐式的数据增强(data augmentation)。

在训练过程中,AR模型始终被限制在唯一的、固定的从左到右的预测任务上,一遍又一遍地强化着同一条学习路径。相比之下,扩散模型每一次接触训练样本时,都会面对一个全新的、随机生成的学习目标。它可能需要预测句子开头的词,也可能是中间的短语,或是结尾的几个字。

这种机制从根本上改变了学习的性质。它迫使模型不能仅仅依赖于表面的、顺序性的统计规律,而是必须从更深层次上理解语法、语义以及上下文的复杂关系,才能应对这种千变万化的“完形填空”挑战。模型不再是单向度的“背诵者”,而更像一个需要从不同角度反复推敲和重构知识的“研究者”。

正因如此,它能够持续地“从每个样本中提取更丰富的信号” ,从而在面对重复数据时,总能发现新的学习角度,有效避免了过早的性能饱和。

反观AR模型的局限性,其根源恰恰在于它最初赖以成功的“顺序专精化”(Order specialization)。AR架构的设计哲学是为单一任务进行极致优化:高效、稳定地执行从左到右的下一个词元预测。其训练过程中的每一次梯度更新,都在强化这同一个任务,使得模型能够迅速掌握规律,在计算效率上达到顶峰。

此外,两者在监督信号的密度上也存在显著差异。在AR模型的训练中,一个序列里的几乎所有词元都会作为预测目标,为模型提供监督信号,这使得其学习过程的梯度更新非常密集且稳定。

而扩散模型的监督信号则相对“稀疏”,因为它只计算被掩盖那部分词元的损失。这种稀疏性虽然在一定程度上牺牲了单步的计算效率,但它也降低了模型对特定序列模式的记忆倾向,从而增强了其在多轮重复训练中的稳健性。

归根结底,AR模型与扩散模型的表现分化,是计算效率与数据效率之间权衡的直接体现。

AR模型通过任务专精和密集监督,将计算效率推向极致,使其成为单轮、大数据量训练场景下的不二之选。而扩散模型则通过任务多样化和隐式数据增强,实现了无与伦比的数据效率。

因此,这个实验几乎完美的论证了GPT 4.5团队的认知:计算资源紧张时,AR确实是效率之王。但在他们看到的数据即将耗尽、算力相对过剩的未来,扩散模型更可能超越Chichilla,用较低的算力效率,换取到更高的数据效率。

可以说这一发现,从根本上动摇了自回归范式在大型语言模型领域长久以来的绝对统治地位。

守成者的反击,Kimi K2探索的新路径

然而,就此断言自回归(AR)模型的时代就此终结,或许为时过早。

既然OpenAI已经指明下一个战场,原来的守成者自然会在算法上有所动作,比如Kimi。

在追随OpenAI这类先行者的思维火花,并落在实践工程上,这已经是月之暗面继领悟了强化学习精髓即”少框架奖励,多引导“后的第二次了。

在其最新发布模型Kimi K2的技术报告中,一个极大的亮点就是对数据效率的提升方法。

他们提出了一种以“转述”(Rephrasing)为核心的高质量合成数据生成管线。简单来讲,就是把一组(epoch)数据,用十种不同的方法进行表达,用以榨取同一数据的效果。

但如果仅仅是语句改写之类的工作,数据很难产生新的训练价值。

为了在保证事实准确性的前提下最大化语言的多样性,Kimi设计了一系列精心构造的提示,用以引导一个强大的“教师”语言模型,让它从不同的叙事角度、以多样的写作风格,对原始文本进行忠实的重写。这使得转述后的数据虽然和原文意思一致,但表达却足够多样。

同时,教师模型也有上下文限制,很容易在转述长篇文档时丢失信息。为解决此问题,Kimi还采用了一种分块处理策略 ,把长文本被切分成若干个较小的、带有上下文信息的片段。之后教师模型就可以对这些片段进行逐一转述,最后再将转述后的片段无缝拼接成完整的篇章。

最后,为确保合成数据的质量,所有经过转述的段落都必须通过一道严格的“忠实度验证”程序。系统会自动比对转述内容与其源文本的语义一致性,以此作为在投入训练前进行的第一道质量筛选。

Kimi通过一组在SimpleQA问答基准上的对照实验,展示了其转述的成功。比起用原始数据集直接重复训练10个轮次而言;用不同方式转述10次,形成一个10倍于原始数据量的新数据集,然后仅训练一个轮次,其最终准确率从23.76%提高到了28.94%。

而训练一个大模型的一个轮次的算力,可比让教师模型做十次转写的算力高了许多倍。

一条单一数据,在AR模型中深度复用的数据提效之路,就此诞生。

Kimi团队的这一实践,有力地证明了AR模型的潜力远未被挖掘殆尽。靠着复杂的合成数据管线,AR架构同样可以提升数据。在数据效率战争中找到一条路。

然而,两者谁的速度更快,效果更好。现在还悬而未决。

新的一场路径分裂?

新的战场已现,要继续在另一条线路突破,对数据效率的追求,一定会决定下一代人工智能模型成败。

但借助近期谷歌的扩散模型(Google Diffusion)的高效和潜力以及这一新发现,很可能会引发现在看来已经接近“收敛”的自回归模型路途再次分裂。

一场老将引领新的范式革命可能正在酝酿。

最终,这场围绕数据效率展开的竞赛指向的,是那道悬挂在所有通往通用人工智能(AGI)道路之上的最终枷锁,对有限高质量数据的依赖。

无论是通过一个被完美合成数据流喂养的、极致高效的AR模型,还是一个能从极少量真实数据中更高效挖掘的超大型扩散模型,抑或是两者思想结合的未来混合体都可能获胜。

但其过程本身,都是在尝试挣脱这道枷锁。

浏览 (10)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,大家好,我是评论探小金!今天跟大家聊聊数据耗尽时代的AI新思潮~AI未来指北的文章里,我们看到了数据稀缺如何考验着大模型的智慧。Transformer能否突破极限?嗯,卡内基梅隆大学的研究似乎给了我们一个可能的答案,Diffusion模型在数据稀缺的舞台上可能成为关键的解药,它以其异于AR模型的随机掩码学习方式,展现出了惊人的数据复用能力。 Kimi K2团队也没闲着,用巧妙的转述策略,似乎在AR模型的数据效率上找到了新道路。一场关于数据利用效率的竞赛正在上演,AR和Diffusion的对决,仿佛预示着模型架构的分叉,就像一场接力赛,大家都在找寻最佳的数据利用策略。 未来,是AR的极致计算效率,还是Diffusion的深度学习潜力?我们拭目以待。这场关于模型效率的争夺战,可能正是走向通用人工智能路上的一个重要转折点。记得,每一次技术的进步,都是对数据依赖度的一次挑战和突破哦!#大模型进化# #数据效率之战#
点赞
评论