长上下文快2.9倍,解码快6倍:Kimi 用线性注意力实现性能与效率双突破
月之暗面团队的Kimi Linear模型,首次在公平的全面比较中,让一种混合线性注意力架构在上下文和强化学习等所有场景下,超越了传统强大的全注意力(Softmax Attention)机制。

实现了推理速度和性能双突破。

大型语言模型正在从单纯的文本生成器,进化为能够思考和行动的智能体。
这个转变对模型提出了全新的要求。
它们不再只是处理一段静态的文本,而是要在长时间的交互中,处理不断增长的对话轨迹、调用工具的记录,并在复杂的决策空间里进行推理。
这种需求暴露了标准注意力机制的根本缺陷。
传统Transformer架构的核心是Softmax注意力,它的表达能力很强,但代价是巨大的计算和内存开销。
其时间和空间复杂度都是O(n²),n是序列长度。这意味着上下文长度翻倍,计算量和内存就要翻四倍。
这让处理长文本变得异常昂贵,严重制约了模型的吞吐量、上下文窗口的扩展以及实时交互能力。
一个直接的解决方案是线性注意力。它在2020年被提出,通过数学上的变换,巧妙地将复杂度从O(n²)降低到了O(n)。计算效率问题迎刃而解。
可惜的是,早期的线性注意力虽然快,但在性能上一直不如Softmax注意力,即便是在处理短序列时也是如此。它的表达能力有限,像一个记忆力不太好的学生,虽然读书快,但记不住关键细节。
近些年,通过引入门控或衰减机制,以及一种被称为delta规则的在线学习方法,线性注意力的性能追了上来,在中等长度的序列上,已经非常接近Softmax注意力。
但它依然受限于一个根本问题:有限的状态容量。
它的记忆机制本质上是一个固定大小的状态,要把无限长的历史信息压缩进去,这在理论上让精确的长序列建模和上下文检索变得非常困难。
而Kimi Linear是一种混合线性注意力架构,其核心是一种名为Kimi Delta Attention(KDA)的全新模块。它在不牺牲模型质量的前提下,满足智能体时代对效率和长时程推理的苛刻要求。
一种更聪明的记忆机制
要理解Kimi Linear的精妙之处,我们需要从注意力的本质说起。
传统的Softmax注意力机制,可以把它想象成一个信息检索过程:查询(Q)与数据库中所有的键(K)进行匹配,计算出相似度得分,然后用这个得分作为权重,去加权求和所有的值(V)。因为每个查询都要和所有键比较,所以计算量是平方级别的。
线性注意力则走了另一条路:
它通过一个核函数,避免了Q和K直接相乘。从计算过程看,它更像一个循环神经网络(RNN),维护一个不断更新的矩阵状态S。
这个状态S就像一个关联记忆,存储着从键到值的映射。但这个原始的记忆机制有个大问题:它只会累加,从不遗忘。新的键值对会不断强化,而旧的信息即使不再重要,也依然存在,最终导致记忆混乱,在长上下文中产生严重的干扰。
为了解决记忆管理问题,DeltaNet被提了出来。它将这个更新过程重新解释为一种在线学习,用经典的delta规则来更新记忆状态S。
S像一个可学习的记忆,它会根据新的信息不断地自我修正。这个更新规则在数学上是一个秩1更新,结构优美,并且支持硬件高效的并行计算。
DeltaNet稳定了学习,但它依然没有解决遗忘问题,过时的关联信息会被无限期保留。于是,Gated DeltaNet(GDN)在其基础上引入了一个简单的标量遗忘门。
Kimi Linear的核心创新,Kimi Delta Attention(KDA),则将这种遗忘机制提升到了一个全新的维度:细粒度门控。
KDA的数学表达如下:

KDA为记忆的每个维度都配备了一个独立的遗忘旋钮,模型可以根据输入内容,动态地、精细地决定哪些维度的信息需要被重点保留,哪些可以快速遗忘。
这种通道级的独立遗忘率,让模型能够更精确地调控其有限的RNN式记忆,极大地释放了其潜力。
KDA的另一个关键创新在于其硬件高效的并行算法。
它采用了一种被称为Diagonal-Plus-Low-Rank(DPLR)转换矩阵的特化变体,并为此设计了定制的分块并行算法。相比通用的DPLR实现,KDA的计算量大幅减少,同时保持了与经典delta规则的数学一致性。

KDA的算子效率比通用的DPLR公式高出约100%。
它通过巧妙的数学约束,减少了分块计算中的矩阵运算数量,并消除了多个额外的矩阵乘法。
这解决了先前方法在追求细粒度控制时遇到的数值精度和计算效率瓶颈,使得在半精度下进行大规模矩阵乘法成为可能,从而实现了极高的硬件利用率。
一个精心设计的混合体
Kimi Linear的强大并非仅仅来自KDA这一个组件,而是源于一套精心设计的混合架构。

它的整体骨干遵循了Moonlight架构,模型由一系列功能块堆叠而成。
在token混合层,它并没有完全抛弃传统注意力,而是采用了3:1的混合比例,即每3个KDA层之后,会插入1个全注意力层,这里称之为MLA(Multi-head Linear Attention)。
这种设计兼顾了效率与能力。
KDA层作为主力,以其线性复杂度和高效的并行计算能力,处理绝大部分的序列信息,极大地降低了内存占用和计算成本。
而少数的全注意力层则像上帝视角,能够捕捉到KDA这种线性结构可能忽略的、跨越非常长距离的全局依赖关系。实验证明,3:1是在模型质量和推理吞吐量之间取得最佳平衡的黄金比例。
更有趣的是,Kimi Linear中的全注意力层被剥夺了一项传统配置:位置编码(Position Encoding)。
Transformer模型本身无法感知序列的顺序,需要额外的位置编码来告诉模型每个token的位置。RoPE(旋转位置编码)是目前最主流、最有效的方法。
在Kimi Linear中,团队大胆地在全注意力层上应用了NoPE(No Position Encoding)设计。这意味着编码位置信息、建立近期偏见的全部责任,都落在了KDA层身上。
KDA通过其类似RNN的循环结构和数据依赖的门控机制,天然地就能动态捕捉和编码位置信息。
这让KDA成为了模型中主要的位置感知算子。这种设计不仅简化了长上下文训练(无需再为RoPE的各种参数调整而烦恼),更重要的是,它促使模型在不同层之间形成了更平衡的位置偏见分布,从而提高了模型在长距离上的鲁棒性和外推能力。
将不带位置编码的全局注意力与专门的位置感知机制(如此处的KDA)相结合,是一种非常有效的策略,能够产生极具竞争力的长上下文性能。
用实验结果证明一切
Kimi Linear在一系列任务上展示了其卓越的能力。
在考验长上下文能力的合成任务中,KDA的表现堪称优异。
回文任务要求模型精确地反转一个随机序列,这对线性注意力的记忆检索能力是极大的考验。
多查询关联回忆(MQAR)任务则评估模型在上下文中检索多个键值对的能力,这与语言建模的性能高度相关。堆栈任务则测试模型跟踪多个独立状态的能力。

随着序列长度从256增加到2048,KDA在所有任务中都稳定地达到了最高的准确度。尤其是在回文和MQAR任务上,KDA的收敛速度远超其前身GDN。
这充分证明了细粒度衰减机制的优势:模型能够选择性地遗忘无关信息,从而更精确地保留关键记忆。
在真实的语言模型训练中,Kimi Linear的扩展定律(Scaling Law)也展现出优越性。扩展定律描述了模型性能如何随着计算资源、模型大小和数据量的增加而提升。

在计算最优的训练设置下,Kimi Linear相比于全注意力的MLA基线,实现了约1.16倍的计算效率提升。这意味着要达到相同的模型性能,Kimi Linear所需的计算资源更少。
在1.4万亿token的预训练之后,Kimi Linear与两个基线模型——全注意力的MLA和采用GDN的混合模型(GDN-H)——进行了正面交锋。
在通用知识、推理(数学与代码)以及中文任务等多个维度的评测中,Kimi Linear几乎在所有类别中都胜出。

无论是在MMLU、GSM8K等知名基准测试,还是在CEval、CMMLU等中文评测上,Kimi Linear都取得了最高分,展示了其作为全注意力架构有力替代品的强大实力。

经过监督微调(SFT)后,Kimi Linear的优势进一步巩固,在更困难的任务上,如AIME 2025(数学竞赛)、LiveCodeBench(代码生成)等,它都显著超越了两个基线模型。
长上下文性能是Kimi Linear的主场。在128k上下文长度的多个基准测试上,Kimi Linear的表现一骑绝尘。它在RULER和RepoQA等评测上以显著优势获得最高分,并取得了所有任务的最高平均分(54.5),有力地证明了其在长上下文场景中的领先地位。

在要求更强推理和规划能力的强化学习(RL)场景中,Kimi Linear同样表现出色。

在数学问题的RL训练中,Kimi Linear的训练准确度增长率明显高于MLA,并且在测试集上实现了更快、更好的性能提升。这经验性地表明,在需要进行推理密集型长格式生成的RL任务中,Kimi Linear比全注意力模型更具优势。
最后,回到最初的目标——效率。

在处理长序列时,Kimi Linear的预填充(Prefill,对输入上下文的初次处理)速度远超MLA。当序列长度达到100万时,Kimi Linear比MLA快2.9倍。
在解码(Decode,逐个生成新token)阶段,其优势更加惊人。对于100万的上下文长度,Kimi Linear的解码速度是全注意力的6倍。
同时,由于3:1的混合架构,其KV缓存(注意力机制中存储键值对的内存)使用量减少了高达75%。这意味着在同样的硬件上,Kimi Linear能够处理更长的上下文,或者服务更多的用户。
新范式的意义
Kimi Linear的成功,不仅仅是发布了一个更快更强的模型,它更深远的意义在于,为大语言模型架构的设计提供了一种新的范式。
长期以来,线性注意力一直被视为一种为了效率而牺牲性能的妥协方案。
Kimi Linear通过引入细粒度门控的KDA机制,并结合精心设计的混合架构,打破了性能与效率不可兼得的传统观念。
通过巧妙的设计,线性注意力完全有能力在所有场景中超越全注意力。
这项工作也为我们揭示了注意力机制更深层的原理。
KDA本质上可以被看作一种可学习的、数据依赖的位置编码。与RoPE那种固定的、基于频率的编码方式不同,KDA能够根据内容动态地调整其位置感,这可能是其在长上下文外推能力上表现出色的原因之一。
Moonshot AI团队开源了KDA的内核实现、vLLM集成代码以及一系列模型检查点。
这极大地推动整个AI社区在高效长上下文模型方向上的研究和应用。
开发者可以基于这些资源,构建自己的长文本应用;研究者则可以站在巨人的肩膀上,探索下一代更强大的模型架构。
Kimi Linear用精巧的数学和架构设计,让大模型“吃得少,又跑得快”。
参考资料:
https://huggingface.co/papers/2510.26692
https://arxiv.org/pdf/2510.26692
https://github.com/MoonshotAI/Kimi-Linear
https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct