预训练就学会思考!字节、北大等用14亿参数,撬动百亿模型推理能力
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
你没听错,让模型在预训练阶段就开始思考。
字节,加州大学,普林斯顿大学,蒙特利尔大学,北京大学,卡内基梅隆大学等等一众顶尖学府、研究机构联合发布了一种语言模型的全新范式:Ouro模型。

Ouro模型用14亿参数实现了百亿级模型的推理能力,核心在于它在预训练阶段就学会了循环思考。
大语言模型的推理能力,大多通过类似思维链(Chain-of-Thought, CoT)的方法在后天训练中生成冗长的文本来实现。
这种方式像是让模型事后诸葛,而非在学习之初就内化推理能力。
Ouro模型,其名取自衔尾蛇(Ouroboros)的自我吞食与循环意象,代表了一种全新的范式:循环语言模型(Looped Language Models, LoopLM)。
它通过三大创新,将推理能力直接构建于预训练阶段。
这三大创新分别是:在潜在空间中进行迭代计算,好比让模型反复咀嚼问题;引入熵正则化目标,以学习如何为不同难度的问题分配恰当的思考深度;以及将训练数据扩展到惊人的7.7万亿tokens。

结果是,Ouro仅用14亿和26亿参数的模型,就在各项基准测试中,达到了与参数量高达120亿的业界顶尖模型相匹配的性能。


实验证明,这种优势并非源于模型记住了更多知识,而是它更擅长操作和运用知识。
它的推理轨迹也比思维链更忠实于最终答案,更像是真正的因果推理,而非事后找补的合理解释。
让模型在预训练中学会循环思考
循环语言模型的概念并非横空出世,其思想源头可以追溯到2018年的通用变换器(Universal Transformer, UT)。
UT模型证明了让一个神经网络模块循环处理信息是可行的,它结合了传统变换器模型的并行处理能力和循环神经网络(RNN)的归纳偏置。
UT甚至在理论上被证明是图灵完备的,为后续研究奠定了基础。
Ouro正是在这一思想上的一次巨大飞跃。
它的架构并不复杂,核心是一个参数共享的循环结构。
相同的变换器模块(transformer block)被循环调用,模型得以在不显著增加参数量的前提下,通过迭代加深计算,实现更深层次的推理。
Ouro模型通常使用4个循环步骤,这在参数效率上达到了一个极佳的平衡点。

为保证这种深度循环计算的稳定性,Ouro在架构上做了一些精巧的设计。
它采用了旋转位置嵌入(RoPE)、SwiGLU激活函数,以及一种三明治式的层归一化结构(RMSNorm),这些都有助于在多轮迭代中维持稳定的梯度流。
Ouro模型最巧妙的设计之一是自适应计算机制。
模型在每一轮循环时,都会通过一个退出门来判断,当前的思考深度是否已经足够。简单问题可能循环1-2次就得出答案,而复杂问题则会进入更深的循环。这让模型能根据输入难度动态分配计算资源。
为了让这个退出门学会明智地决策,研究团队引入了熵正则化的训练目标。
若没有约束,模型可能会陷入一种惰性模式,要么过早退出,要么总是循环到最大深度。熵正则化就像一个惩罚项,它鼓励模型的退出决策保持一定的多样性,避免模型坍缩到某个固定的思考深度,从而更好地平衡探索(尝试不同深度)与利用(选择最优深度)。
这个过程在7.7万亿tokens的海量数据上,通过四个精心设计的阶段完成。
从使用网页通用语料库进行基础预训练,到使用高质量数据集进行持续训练和退火,再到专门的长上下文训练,最后是整合了20多种高质量数据集的中期训练。

整个流程不仅塑造了模型的基础能力,还通过一系列工程上的调整,如减少循环步数、扩大批量大小,确保了这种新型循环架构训练过程的稳定收敛。
小模型也能办大事
经过大规模预训练的Ouro模型,在参数效率上展现了惊人的成果。
Ouro 1.4B模型,仅有14亿参数,在多数基准测试中的表现与40亿参数的Qwen3-Base模型相当。特别是在数学和推理等高难度任务上,它的表现甚至更优,例如在GSM8K测试中得分78.92,而Qwen3-Base是72.86。

参数量稍大的Ouro 2.6B模型,则在推理密集型任务上全面超越了高达80亿参数的密集型模型。它在MMLU-Pro(一个更专业的知识评测)上得分55.73,BBH(大型语言模型行为评估)上得分80.46,均超过了80亿参数的Qwen3-Base模型。


表格数据清晰地显示,Ouro模型实现了2到3倍的参数效率提升。这意味着在资源受限的环境,如移动设备上,可以用更小的模型实现更强的性能。
研究团队通过合成任务进行的对照实验揭示了这种效率提升的来源。
循环和非循环模型在存储原始知识方面的能力相近,但Ouro在需要组合事实、进行多步推理的任务上表现出了压倒性优势。它的强大之处不在于知道更多,而在于会用已知。
潜在推理优于“纸上谈兵”
Ouro的成功,本质上是潜在推理(Latent Reasoning)范式对传统思维链(CoT)推理范式的一次胜利。
思维链推理,需要模型明确地生成一步步的自然语言推理过程。
这就像一个人解题时,必须把每一步草稿都写在纸上。这种方式限制了模型的表达带宽,因为复杂的思考过程被压缩成了离散的文字符号。同时,它也极大地增加了输出长度,消耗了宝贵的上下文窗口。

Ouro的潜在推理则完全不同。它在模型内部的、连续的隐藏状态中完成多步推理。
这更像人类的默想或顿悟,思考过程在高维度的向量空间中流动,没有被降维到文字层面。这保留了思考过程的丰富性和连续性,也更为高效。
更重要的是,Ouro的推理过程表现出更高的因果忠实度。它的迭代更新过程与最终答案的关联更紧密,证明其推理是为得到答案服务的,而不是在得到答案后反向构建一个看似合理的解释。
Ouro模型虽然是通用变换器思想的继承者,但它在两个关键维度上实现了超越:一是训练规模,将循环模型的训练数据量提升到了万亿级别,验证了其在大规模场景下的有效性;二是通过熵正则化引入了复杂的自适应计算,让模型学会了动态思考。
Ouro模型极为适合需要复杂推理但计算资源有限的场景,比如边缘计算、移动应用和需要快速响应的实时系统。
当然,它也面临挑战。目前的推理加速框架(如vLLM)大多为固定计算路径设计,难以完全发挥Ouro动态计算深度的优势。
此外,如何将强化学习更好地应用于这种动态架构,以进一步提升模型的对齐能力,也是一个待解的课题。
Ouro的探索确立了循环深度作为继模型大小和数据规模之后的第三个扩展轴,为人工智能的未来发展提供了新的思路。
通过架构创新,让模型在内部进行更深层次的计算,是提升智能的另一条有效路径。
Ouro模型的工作为我们开辟了新的想象空间。
参考资料:
https://huggingface.co/collections/ByteDance/ouro
https://ouro-llm.github.io/