Kimi最新论文,让线性注意力结束妥协时代,进入超越时代
文|博阳
编辑|可君
在 2024 年和 2025 年的中国 AI 牌桌上,线性注意力(Linear Attention)是一个绕不开的词。
阿里、Minimax,以及几乎所有试图在万亿参数游戏中下注的玩家,都面临一个残酷的现实:算力的瓶颈。传统全注意力的复杂度,在算力受限的情况下就是自杀式消耗。序列长度翻倍,计算量和显存需求翻四倍。
线性注意力承诺用 O(N) 的计算量和恒定的推理内存,换取还能接受的性能。中国的 AI 工程师们在这条道路上投入了很多,试图在算力受限的绝境中,"抠"出一条通往 AGI 的新路。
但这条路并不顺利。Minimax 这个最坚定的探索者之一,在最新模型中转回了混合架构。行业开始质疑:线性注意力是不是终究只是个备胎?
这个转向的背后,是线性注意力从精神祖先 RNN(循环神经网络)那里继承来的原罪:有限的状态容量和随之而来的长程检索能力不足。
就在这条技术路线即将被判处死缓之际,Kimi 发布了 Kimi Linear 技术报告,宣称他们找到了破解这个诅咒的钥匙。

这篇论文,也许宣告着线性注意力作为"妥协"的时代已经结束,而超越的时代即将开始。
源自 RNN,却难逃 RNN 的诅咒的线性注意力
要理解 Kimi 做了什么,我们必须先直面线性注意力的最大问题。
全注意力处理 100 万个 Token 时,会把所有词全部摆开,让每个新词都能看到之前的所有词。代价是 100 万 × 100 万 = 1 万亿次巨量计算,以及巨大的 KV 缓存。
线性注意力的核心目标,是把全注意力那个存储了所有历史信息的NXN的巨大矩阵,压缩成一个小巧的、可以持续更新的记忆胶囊。
它维护一个固定大小的状态向量(比如 128 维),每来一个新词就更新这个状态。写入新信息,部分保留旧信息,部分遗忘。无论序列多长,只存储这个固定大小的状态,计算量降到 O(N),内存变成恒定。
这就像一个速记员拿着固定大小的笔记本,每次更新都要擦掉一些旧内容腾出空间。线性注意力相比RNN的优势在于状态更新机制更复杂(有Query/Key/Value三种值),理论上能携带更丰富的信息。但本质上,它还是在用"有损压缩"换取效率。
这种有损压缩带来的核心问题是精确检索困难。当你需要从 100 万个 Token 中精确找回第 3 万个位置的某个关键信息时,那个被压缩了 97 万次的状态,已经很难给你准确答案了。
Kimi 的论文设置了几个经典的"杀手级"测试任务:回文复制(需要精确逆序输出)、多查询关联回忆(散布的键值对检索)、栈状态追踪(64 个独立栈的 PUSH/POP)。
结果,传统的线性注意力方法在这些任务上几乎完全失败,精度接近随机猜测。即使是改进版的 GDN(Gated DeltaNet),虽然有所改善,但收敛速度慢,最终精度也不理想。
当模型无法在长距离上精确回忆起关键信息时,它在长文本问答、代码生成等严肃任务上的表现就会直线下降。
这就是线性注意力一直被视为"妥协"的根本原因。
用精细化遗忘,拯救线性注意力
既然问题出在记忆上,就要从记忆解决。
在讲 Kimi 如何解决这个问题之前,我们需要先理解 Delta Rule。
最早的线性注意力本质上就是一个累加器。每来一个新的键值对,就往状态里加。没有遗忘,没有纠错,只会无限堆积,旧信息和新信息混在一起,无法分辨。
2023年的DeltaNet提出了一项重要改变。把状态更新看作在线梯度下降。它给那个笔记本设置了一个新目标。当前状态乘以当前的 key,应该能准确重构出当前的 value。如果重构不准确,就对状态做一次梯度下降更新,进行纠错。这个更新规则就是经典的 Delta Rule(Householder 变换)。
这让线性注意力从"只会记忆的笔记本"变成了"会学习和纠错的智能助手"。
但DeltaNet虽然会纠错,但不会遗忘。所有旧信息都会被无限期保留,在长序列中依然会导致干扰。
2024年英伟达的Gated DeltaNet为此加入了遗忘门。用一个标量 αt(0 到 1 之间)让模型可以动态决定保留多少旧信息,遗忘多少。

这是从累加到学习,再到选择性学习的进化路径。Delta Rule 是这条路径上的关键转折点。
而 Kimi 的 KDA,则是在这个基础上,进行了最后一次、也是最关键的一次跃迁。
KDA,一次注意力的变革
GDN 虽然引入了遗忘机制,但它的遗忘是粗放的。一个值作用于整个状态矩阵,相当于对所有特征通道一视同仁地打折。
这就像一个速记员,每次更新笔记时,都会对所有内容统一"淡化 30%"。如果模型需要精确记住一个关键实体,同时忘掉一个无关紧要的语气词,这个粗糙的速记员根本做不到。关键信息会在一次又一次"全局遗忘 30%"的冲刷下,变得越来越模糊,最终和那些不重要的信息混在一起,无法分辨。
Kimi 团队的解决方法就是,既然“一刀切”的全局遗忘不行,那我们就给每一个特征通道配一个独立的“遗忘开关”。
这就是 Kimi Linear 架构的核心,KDA(Kimi Delta Attention)注意力机制。它彻底抛弃了那个“全局遗忘 30%”的粗放命令,在注意力头中引入了“通道级别”的细粒度门控机制。

KDA 相当于给这位速记员配备了一个由 128 个独立开关组成的精细控制面板。当模型处理信息时,它可以动态地、可学习地决定本子里哪些行(通道)的内容负责记忆重要的实体词,不能忘。哪些行负责理解上下文语义,要少忘一点。哪些部分只是用来做语气词、语法框架用了,就干脆统统忘了。
这种从粗放遗忘到精细遗忘的转变,允许了模型在有限的内存中,记住更多有用的东西。
这种方法的效果也是立竿见影,效果是立竿见影的。在前面提到的"杀手级"任务上,KDA 在 2048 长度的回文任务上达到近 100% 精度,而 GDN 只有约 60%,Mamba2 完全失败。更重要的是,KDA 的收敛速度远快于 GDN。

然而,Kimi 的野心不止于此。如果 KDA虽然缓解了记忆问题,但性能还是追不上全注意力,那它依然只是一个妥协。而Kimi 的目标是超越。
夹心的混合架构更稳定
为此他们设计了一个新的混合架构,将 KDA 的优势发挥到了极致。
Kimi Linear 并未完全抛弃全注意力。它采用了 3:1 混合比例,每 3 层高效的 KDA 线性层,就穿插 1 层 MLA 全局注意力层 。这个 3:1 的比例,是 Kimi 团队通过大量消融实验找到的黄金比例/它在模型质量和吞吐量之间实现了最佳平衡。

这不是妥协,而是对理论限制的清醒认识。论文明确指出:长上下文精确检索,仍然是纯线性注意力的主要瓶颈。
在这个混合架构中,KDA 负责高效地处理时序信息、压缩上下文、并承担主要的计算负载。靠着它这一项,可以节省了 75% 的 KV 缓存。

而传统的全局注意力MLA 则负责信息巡查员,捡回那些 KDA 压缩时可能丢失的、最精细的全局信息检索。
在这个架构中,KDA 和 MLA 不是主次关系,而是分工协作的平等伙伴。两者结合,才能在效率和性能上同时超越纯全注意力。
革了自家RoPE的命
同时,为了在更极限的压缩,Kimi甚至对自家研究员苏剑林开发出的影响深远的ROPE下了刀。这个混合架构采用了NoPE(No Position Encoding),也就是没有位置编码的形式。
传统的 Transformer 对序列顺序是无感的。你打乱输入顺序,输出依然结果不变。所以我们需要 RoPE(旋转位置编码)这样的机制,来告诉模型"第 100 个词在第 50 个词之后"。
而Kimi 团队发现,KDA 本身就可以作为位置编码使用。KDA用的门控三角法则和通道级遗忘,使其本身就成为了一种位置编码器。在处理信息时,它对序列的顺序和远近有着天生的敏感度,其通道级的多样性甚至比 RoPE 更灵活。
既然 KDA 已经把位置信息处理得明明白白,那穿插进来的 MLA 层干脆就不需要任何位置编码(RoPE)了。
而且这个NoPE设计不仅简化了模型,还解决了长上下文外推的问题。传统 RoPE 在处理比训练时更长的文本时,需要用到复杂的频率调整(如 YaRN),而 NoPE 则完全没有这个烦恼。
KDA 的位置编码因为Delta Rule是动态学习的,它可以自然地外推到更长的序列。只要继续按相同的规则更新状态即可。它证明了线性注意力可以内在地、自适应地学习位置信息。
首次全面超越全注意力,还不是特定场景,而是全维度碾压
论文摘要的第一句话就是:"线性注意力,第一次在公平比赛中性能超越了其他所有注意力机制"。
这个首次的含金量,在于它不是在某个特定场景下的超越,而是在严格公平对比下(相同参数量、相同训练数据 1.4T),在所有评估维度上的全面领先。
在传统的短上下文任务上,Kimi Linear 在 13/14 项任务中取得最佳成绩。

在长上下文中,特别是在 1M 上下文的 RULER 测试中,最终版的 Kimi Linear 达到了 94.8 分——这是一个在如此长上下文下极为罕见的高分。

最令人意外的,是 Kimi Linear 在 RL 训练阶段的表现。在相同的 RL 训练设置下,Kimi Linear 展现出了显著更快的收敛速度和更高的最终性能。

一个可能的解释是,KDA 的细粒度状态管理,天然适合增强学习中的 credit assignment问题。
而且在效率上,它更是实现了碾压。计算复杂度降低 75%,内存占用减少 75%,在 1M 长下文解码时,Kimi Linear 的吞吐量(速度)是全注意力的 6.3 倍。

Kimi 团队还进行了 Scaling Law 实验,训练了 5 个不同规模的模型(653M 到 1.7B 激活参数)。
结果显示,Kimi Linear 的 Scaling Law 曲线比 MLA 更陡,在相同的 FLOPs 预算下能达到更低的损失。计算效率提升约 1.16 倍。

Kimi Linear 用这份报告证明,线性注意力不再是“妥协”。它在 KDA 细粒度门控的加持下,配合精妙的混合架构设计,已经成为一个在性能和效率上双重超越全注意力的新范式。
范式革新,也有代价
既然 Kimi Linear 这么强,后面所有大厂是否都可以立即做全线切换了?
然而,考虑到KDA地狱级的工程难度。即使切换,也得扒层皮。
因为KD最大的理论优势(通道级门控),在工程上给它带来了最大的噩梦:数值稳定性。
KDA 的数学公式,涉及到了大量的累积乘法和(隐式的)除法运算。当你在 GPU 上使用半精度浮点数(FP16/BF16)追求极致速度时,这些运算会变得极不稳定。因为一个数字除以一个接近零的数,计算结果就会是 NaN,这会使整个训练过程瞬间崩溃。
之前的研究(如 GLA)为了绕开这个地雷,被迫在对数域里进行计算,并且使用更慢的全精度(FP32)。但这又导致它们无法充分利用现代 GPU 专为半精度设计的张量核心(Tensor Cores),速度大打折扣。
因此Kimi Linear 的论文花了不少篇幅解释 KDA 的 DPLR(对角加低秩)变体。简单来说,Kimi 团队通过将两个关键变量都绑定到k值上,在数学层面将除法转化为乘法,让稳定性的问题被解决。

但这种全新的算法,意味着你无法用 PyTorch 或 TensorFlow 的标准库 pip install 来实现它。所以用 KDA,必须要手写定制化GPU核心,不能用标准库。
这还不是全部。KDA 这种“RNN-Transformer 混合体”,在训练过程和推理过程还得切换模式。训练时在“分块并行”(Chunkwise-Parallel)模式下,这样它才能像 Transformer 一样,利用 GPU 的并行性,一次性处理海量数据。而在推理时,它必须切换到“循环”(Recurrent)模式。这样它才能实现 KDA带来的恒定内存占用,享受 RNN 的极致推理效率。
要构建一个系统(比如在 vLLM 这样的框架中集成),让这两种截然不同的计算 Kernel 天衣无缝地协同工作,其工程复杂度同样相当高。
同时,KDA引入的许多新的超参数,其之间有复杂的相互作用,需要大量实验才能找到最优配置。论文中提到,他们的 Scaling Law 还有优化空间。这意味着即使是 Kimi 团队自己,也还没有完全"榨干" KDA 的潜力。
范式革命虽好,但代价也不菲。
不过,在 GPU 被“卡脖子”的时代,购买顶级硬件是一个无解的、不确定的问题。而 Kimi Linear 所代表的新范式,它的成本是有限的。它需要的是顶尖的工程人才、是时间、是深厚的算法功底。这些东西虽然稀缺,但它们是可以被解决的。
更重要的是,Kimi 团队已经开源了 KDA 的 Kernel 实现和 vLLM 集成,降低了后来者的门槛。
这不仅仅是对线性注意力的“救赎”。在 2025 年这个特殊的节点,这可能是 Kimi 为整个 AI 行业指出的一条,用“软件的确定性”去对抗“硬件的不确定性”的、真正可行的道路。
比起买不到的卡,用代码“造”出 6.3 倍的效率,这笔账,谁都算得过来。
线性注意力的妥协时代已经结束。超越的时代,正式开始。
论文地址:
https://github.com/MoonshotAI/Kimi‑Linear