MiniMax M1技术闭门会深度解析:万亿参数时代,效率才是最终护城河
文|库丘林
编辑| 沈月
2025年的夏天,大模型领域的竞争已然白热化,以DeepSeek为代表的新兴力量以惊人的性能和开源姿态搅动市场,使得包括智谱AI、月之暗面、百川智能在内的“大模型六小虎”纷纷调整战略,加速技术迭代与商业化落地,力求在这场“百模大战”的深水区中站稳脚跟。
中国大模型“六小虎”之一的MiniMax就是其中近期表现相当活跃的一家。7月14日,据《晚点》报道,MiniMax即将完成新一轮近3亿美元的融资,投后估值将超过40亿美元。近日,MiniMax召开了M1全球技术闭门会。
在这场汇集了香港科技大学、滑铁卢大学、Anthropic、Hugging Face等顶尖技术专家的闭门会上,MiniMax揭秘了其全球首个开源大规模混合架构推理模型M1背后的“闪电注意力机制”与“System 2”推理能力。
除此之外,其议题还直指当前大模型发展的痛点与前沿:混合架构如何平衡效率与性能?强化学习(RL)的真正能力边界在哪里?百万级长上下文的杀手级应用场景是什么?模型是否开始具备真正的“思考”能力?
M1模型详解:混合架构的胜利与计算效率的极致追求
闭门会的技术探讨,始于对MiniMax-M1模型的深入剖析。
MiniMax-M1是全球首个开源的大规模混合架构(Hybrid Architecture)推理模型。其总参数量达4560亿,采用了先进的混合专家(MoE)架构,每个token仅激活459亿参数。
其原生支持100万(1M)token的上下文输入。支持业内最长的8万token推理输出。输入长度与闭源模型谷歌Gemini 2.5 Pro一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40K和80K。
M1成功的关键,在于其创新的闪电注意力机制(Lightning Attention)。这是一种混合线性注意力(Hybrid Linear Attention)机制,旨在高效扩展模型在推理(Inference)阶段的计算能力。
M1选择以闪电注意力为代表的线性注意力架构,其目标非常明确:突破传统注意力机制在处理超长文本时的效率瓶颈。
传统Transformer的计算量随文本长度平方增长,处理十万甚至百万级别的上下文时会变得慢得无法接受。而线性注意力的计算量仅随文本长度线性增长,这使得处理海量信息成为可能,是实现“广泛思考”的技术前提。
然而,M1团队在将这一前沿技术推向极限时,遇到了一个尖锐的工程和科学难题。当他们将模型扩展到能处理数万token的上下文长度,并进行强化学习(RL)训练时,发现了一个棘手的现象:训练过程很快停滞不前。模型的奖励信号在仅仅几百步迭代后就不再增长,这表明模型无法从训练中有效学习。
深入探究后,他们将问题根源归结为线性注意力架构在这种规模下固有的训练不稳定性。具体表现为:在模型的某些层,神经元的激活值会变得异常巨大,导致梯度计算失效,模型无法正常更新权重。
为了解决这个问题,M1并非简单地使用现成的闪电注意力,而是对其进行了关键的优化和改造,采用了所谓的“混合线性注意力(Hybrid Linear Attention)”架构。将线性注意力的效率优势与其他更稳健的机制相结合。从而在保持极高效率的同时,显著提升大规模训练的稳定性和可靠性。这可以看作是对闪电注意力的一次“驯服”,使其能真正应用在超大规模的复杂任务中。
正是在解决上述技术挑战的过程中,M1团队发现了一个根本性的权衡,并基于此提出了一个颠覆性的评估新标准。
这个权衡是:以M1为代表的高效架构,其单位token的计算成本极低,但要达到与高成本的全注意力模型相同的性能,往往需要生成更多的token,即走一条更长的“思考路径”。
这就暴露了传统评估方法的巨大缺陷。以往,行业内评测大模型,通常采用“固定输出长度”的范式:给定一个任务,让所有模型都生成一段固定长度的回答(比如1000个token),然后比较这些回答的质量。这种方法天然地偏袒那些“每一步都精打细算”、计算成本高昂但效果直接的全注意力模型。它完全忽略了不同模型为了生成这1000个token所付出的天差地别的计算代价。
因此,M1团队提出了一个更公平、也更符合实际应用场景的新评估标准:“基于固定总计算预算的性能评估”。其核心逻辑是不再限制输出的长度,而是限制总的“花费”——即给每个模型分配一个固定的计算预算(例如,一定的FLOPs或在特定硬件上的运行时间)。
在这个固定的成本“天花板”下,M1可以充分利用其低单位成本的优势,生成比对手多得多的token。比如,在对手只能生成1000个token的预算内,M1或许能生成4000个token。
最终比较的是M1这4000个token的完整答案和对手那1000个token的答案,谁的质量更高、解决问题更彻底。
这个新标准将评估的焦点从单纯的“性能”转向了“性价比”或“效能成本比”。它强调,对于需要处理长输入和进行广泛思考的复杂任务,一个真正优秀的模型,不仅要聪明,更要“算得起账”。
闭门会上另一个核心话题是,M1这样的推理模型是否已经具备了“System 2”推理和自我反思能力?
MiniMax研究人员首先提出了一个核心观点:我们所观察到的、类似人类“系统2”的深度推理和自我反思能力,并非是模型内部产生了某种神秘的“意识”或“自我”,而应被理解为一种从其基础原理中涌现出的、可被观测的行为模式。
这个观点将讨论从哲学层面拉回到了工程和科学层面,即我们关注的不是模型“是什么”,而是它“做什么”以及“为什么能这么做”。它强调,这些高级能力的出现,并非因为模型被预先设计了一个“反思模块”,而是另有其更根本的驱动力。
这个根本驱动力,就是有效利用更大计算资源来换取更优性能的能力。
我们可能以为,模型是因为“会思考”才能解决复杂问题;但研究人员认为,真相是模型被允许动用海量的计算资源去“琢磨”一个问题时,那些我们称之为“思考”或“推理”的复杂行为模式才得以涌现。就好比给人更多的时间和草稿纸,人就能解决更复杂的问题一样。
为模型提供更多的计算预算,本质上就是给了它更长的“思考时间”和更广阔的“思考空间”,让复杂的、多步骤的解决方案得以形成。
那么,模型是如何利用这些计算资源进行“思考”的呢?研究人员将其精辟地概括为一种“自动化的Prompt Engineering”。在过去,为了引导模型进行复杂推理,人类用户需要手动编写详尽的、分步式的提示(Prompt),比如著名的“让我们一步一步地思考”(Let's think step-by-step)。而现在,先进的模型已经学会了为自己生成这种内部的思考过程或推理路径,从而取代了人类的引导。
自动深化和结构化用户问题的能力体现。这是从“能回答”到“会思考”的关键一步。
三大话题,讨论AI前沿
除去对M1本身技术的解构,Minimax 的专家还在会上讨论了三个AI前沿相关的主要话题。
强化学习(RL)的再思考:从提升效率到数据多样性的挑战
首先,专家们将RL的核心价值被重新定义为在有限资源下增强模型能力的“效率放大器”。它并不总是赋予模型从0到1解决新问题的能力,而更多的是优化解决问题的方式。
这个观点的核心在于,理论上,任何能用自然语言描述的问题,模型都能通过足够多次的随机尝试(采样)来找到答案。RL的真正价值,是优化这个寻找答案的过程。它通过调整模型输出答案的概率分布,显著减少找到正确解所需的“思考长度”。例如,一个在预训练后需要模型生成10万个词元(token)才能解决的问题,经过RL的针对性微调后,可能只需要10000个词元就能给出高质量的答案。对于上下文窗口有限的模型来说,这种效率的飞跃,就等同于能力的实质性增强。
这也催生了更精细化的能力评估指标pass@k。k值的选择,直接取决于我们如何定义“能力”:如果我们关心模型“至少有一次能解决问题”的理论上限,就应该用一个尽可能大的k值;但如果实际应用要求模型必须在4次尝试内解决问题,那么pass@4才是那个有意义的指标。
然而,探讨并未止步于此,而是深入到了RL与预训练的共生关系。尽管从理论上看,任何监督学习都可以被视为RL的特例,但在当前阶段,预训练的价值无可替代。其根本原因在于,预训练能让模型接触到范围远为广阔、多样性无与伦比的数据分布和人类知识。相比之下,当前用于RL训练的数据来源,无论在广度还是深度上都显得相对狭窄。
这种数据上的“窄化”带来了严峻的挑战。专家明确指出,如果只用数学和代码等逻辑性强但领域单一的数据进行RL训练,模型在SimpleQA(事实问答)、MMLU(多学科问答)等通用基准上的性能会显著下降,甚至更容易在不擅长的领域产生幻觉。因此,行业的当务之急,是构建一个更强大的RL数据生态。这包括创建像WebInstruct-verified这样更大规模、覆盖全领域的RL训练数据集(MiniMax已将其扩展至50万量级),并探索将RL融入模型“中期训练”(Mid-training)的新范式,从而在更丰富的场景下,更早地教会模型如何进行高质量的推理和行动。
混合架构的必然性:算法与硬件结合,从理论走向现实
专家们分析了现有架构的根本局限:纯线性注意力因其固定状态大小,在长序列建模中存在根本缺陷;而全注意力(Full Attention)虽然强大,但其与序列长度成平方关系的计算复杂度和线性增长的KV缓存,使其在面对超长上下文时,训练和推理成本变得高昂,难以规模化部署。
因此,混合架构成为了兼顾性能与效率的最佳平衡点。它旨在融合全注意力的强大表达能力和线性注意力的超高效率。更重要的是,这场讨论强调了一个关键现实:脱离硬件的纯算法研究正在失去意义。一项技术如果不能在GPU/TPU等加速器上高效运行、无法规模化部署,就难以形成真正的行业影响力。这要求算法研究者必须具备底层硬件知识和编程能力。
然而,混合架构的普及也面临着基础设施的瓶颈。从工程实现上看,它带来了新的挑战,如需要设计更复杂的混合KV缓存管理器(Hybrid Allocator),以及解决不同计算模式导致的GPU利用率不平衡问题。通过批处理重叠(Batch Overlapping)等先进的Pipeline策略进行优化,是确保混合架构在生产环境中发挥其速度优势的关键。这一系列讨论,清晰地描画出从一个架构理念到生产部署所需跨越的、复杂的工程鸿沟。
应用的新大陆:长上下文解锁Agent,隐性推理探索视觉
超长上下文,被视为Agent从“玩具”进化为生产力工具的破局点。当前的Agent之所以能力有限,很大程度上是因为它们是“健忘的”,只能处理孤立、单步的任务。
而M1模型所代表的百万级上下文窗口,将彻底改变这一现状。它允许Agent在执行一项复杂任务时,一次性将整个代码库、所有API参考文档、漫长的历史对话记录等全部“尽收眼底”。这种完整的上下文感知能力,是质的飞跃。例如,在法律行业,它不再需要繁琐地分块喂投文件,避免了因信息割裂而错过埋藏在某一页关键细节的风险,而是能一次性处理整个案件历史和所有相关判例,实现真正全面的分析。
而在更前沿的视觉领域,探讨则超越了当前主流的“图文对话”范式。专家们批判性地指出,目前将视觉部分固化为一个ViT编码器,然后依赖文本进行思维链(CoT)推理的做法,本质上只是增强“感知”能力的权宜之计,因为现有视觉编码器在处理高分辨率图像时依然力不从心。
真正的突破在于让模型能从根本上改变和操纵图像信息,例如在几何问题中“画出辅助线”。这种能力需要解决两大瓶颈:如何更有效地编码视觉像素,以及如何在抽象的潜在空间(Latent Space)中进行真正的视觉推理。
隐性推理(Latent Reasoning)被认为是一个极具潜力的方向,尤其是在机器人和具身智能领域,许多空间推理过程本质上是无法用语言清晰描述的。这预示着AI的推理能力将从文本空间,向更广阔、更底层的多模态空间迈进。
六小虎,为下半场找定位
2025年的夏天,对于曾被光环笼罩的“大模型六小虎”而言,无疑是一个清醒而残酷的转折点。
昔日支撑其高估值的单一叙事,无论是长上下文的突破、开源社区的声望,还是应用层的短暂火爆,都在严峻的现实面前显现出其脆弱性。
上半场,它们凭借各自的初步优势抢占山头;而进入更为务实和残酷的下半场,任务不再是证明“我能做什么”,而是清晰地回答“我是谁,我的最终价值是什么”。这要求每一位玩家都必须在坚持过往沉淀优势的基础上,为自己找到一个更落地、更聚焦、更具商业穿透力的战略定位。
我们正在目睹一场集体性的战略进化。
月之暗面Kimi在长上下文的深厚积累之上,正全力向“Agent智能体”这一更具行动力的方向突围,试图将其信息处理能力转化为任务执行能力。这并非对长上下文的抛弃,而是为其寻找的最具想象力的应用场景。
同样,MiniMax的转型也遵循着这一逻辑。它并没有放弃在视频生成、多模态交互等AIGC领域建立的认知和坚持,而是选择了以一种更可持续的方式去参与这场长跑。
M1模型的发布,与其说是MiniMax“回归”基础模型,不如说是它在为自己长久以来的多模态雄心,打造一个全新的“经济学引擎”。
M1及其背后的“计算经济学”哲学,是他们选择先停下来,解决最根本的“成本与效率”问题。这是为了给未来的视频生成、实时交互等多模态应用,提供一个足以支撑其在下半场激烈竞争中脱颖而出的“更好身姿”。
他们要确保,当再次发力应用层时,自己站在一个成本更低、效率更高的基础上。
不论是用了MLA的 Kimi K2,还是这次新架构的M1,包括他们的前辈DeepSeek V3,这可能都是进入下半场六小虎,必须作出的改变。