发布于 2天前

DeepSeek R-1更新，让人更期待R2的“雄心与真诚”

R2没来，R1-0528来了。

这款以半年前的DeepSeek V3 Base模型为基座，在后训练阶段投入更多算力的升级版推理模型，同样非常能打，让DeepSeek稳居全球第二AI实验室的位置。宽松的MIT许可也没变化，兑现了向全球技术生态提供强大开源模型的承诺。这更让人期待V4与真正的R2了。

在多项基准测试中，DeepSeek-R1-0528在数学、编程和通用逻辑上的性能，足以媲美最强闭源模型o3和Gemini 2.5 Pro，也超越了最强开源模型Qwen3-235B。它还在幻觉改善、创意写作、工具调用与前端代码生成上有所提升。

独立AI分析网站Artificial Analysis很快更新了领先AI大厂模型智能的排名。DeepSeek无论在性能提升还是迭代速度上，都紧紧咬住了OpenAI。差不多两年前，奥特曼与伊莱亚被问及，开源模型能否赶上GPT-4时，还非常自信地认为，即使赶上了，两者在真正的前沿模型上的差距也会越拉越大；当时，DeepSeek正式成立刚刚满月。

DeepSeek同时发布蒸馏版的R1-0528-Qwen3-8B，在数学测试中的表现，与比它大数十倍的Qwen3-235B相当，提升了学术界与工业界对最先进AI的可访问性。DeepSeek官方公众号特地将这一重要意义加黑加粗了。

在DeepSeek社交媒体平台X的官方账号下，开源社区对它朴素的版本命名规则给与好评，甚至认为在自己心里，它就是R2了。还有不少开发者在评论里许愿，要求下一代大模型要有更大的上下文窗口，原生的多模态功能，等等。

不妨结合DeepSeek的“历史”与开源社区的期待，大胆推测一下它的下一代模型会是什么样吧。

首先，R1-0528从一开始就不是R2，也不是R-1.5。DeepSeek对模型的命名，有其“潜规则”。要让“版本号”小升级，至少要有不同Base（基座）模型级别的迭代与功能的合并。

2个月前，V3-0324更新，也没有命名为V-3.5。因为它与之前的V3一样，使用了同样的Base模型，仅改进了后训练方法。这次的R1-0528，则主要是在同样的Base模型上，投入了更多的后训练算力。

但是，DeepSeek是发布过V-2.5的。这是一款融合了通用与代码能力的全新开源模型。从V-2升级到V-2.5，涉及到Base模型的切换与模型的合并。2024年5月，初代DeepSeek-V2发布；6月，DeepSeek-Coder-V2发布，6月底，V2-0628上线，用Coder-V2的Base模型，替换原有的Chat的Base模型；7月，对齐优化的Coder-V2-0724上线；9月，V2-0628与Coder-V2-0724在相同Base模型的基础上合并，即V-2.5。12月10日，V2.5-1210上线，宣告V2系列收官。两周后，下一代的DeepSeek-V3开源，官方称其为“V3的首个版本”。

第二，成熟度最高的代码能力，已经融合进去了；下一代模型很可能就是原生多模态。

在V系列基础大型语言模型之外，DeepSeek的团队一直在各个分支上尝试更多元的探索，包括数学模型Math以及专门用于数学定理证明的模型Prover，混合专家视觉语言模型VL2以及自回归的统一多模态理解与生成模型Janus等。

这体现了DeepSeek的“长期主义”与言行一致。代码与数学，多模态与自然语言本身，三者正是DeepSeek创始人梁文锋押注的三个方向，“数学和代码是AGI天然的试验场，有点像围棋，是一个封闭的、可验证的系统，有可能通过自我学习就能实现很高的智能”。

DeepSeek证明了自己可以很好地合并模型；而且，MoE又天然的是多专家的模型。也许最终，这三个押注方向都会合流。尤其是多模态，一直都是开源社区对DeepSeek的V4或R2的期待；至少在DeepSeek下一代模型的完整迭代周期内实现。闭源的OpenAI、谷歌已经都这么做了。

第三，下一代基础模型的推出，至少对应着新的注意力机制创新的工程化与商业化，也越来越对应人类对“记忆”该有的样子的理解。这种将“规模竞赛”进一步扭转为“效率竞赛”的努力，事实上变相为“扩展定律”续了命，有利于在更高效的算力支出上研发更高参数规模的大模型，同时也为应用场景进一步降低了全面采用AI的成本。

这正是贯穿DeepSeek主力模型迭代始终的主线。DeepSeek-V2对传统Transformer架构的自注意力机制进行了全方位的创新，提出了MLA（多头潜在注意力）机制。美国知名半导体分析机构semianalysis敏锐地感觉到，这种架构创新将对OpenAI造成麻烦。V3则首创了一种无辅助损失的负载均衡策略，并设定了多token预测训练目标以提升性能，以及开创性的适用于FP8精度的训练框架。

最有希望引入V4或R2模型的，也许要数DeepSeek年初提出的NSA（原生可训练稀疏注意力）机制。它能带来的，也正是用户目前迫切想要的长上下文。更长的上下文，意味着仓库级代码生成、多轮智能体间互动以及科研深度的推理能力。但是，注意力计算在总计算成本中占比，也会随着要处理的上下文的序列的增长而急剧增长。而目前很多稀疏注意力机制只是在特定阶段受限起效。

NSA支持端到端的训练，而且硬件对齐友好，通过将文本压缩为粗粒度语义块（压缩数据量）、动态筛选关键片段（减少计算量），并结合局部滑动窗口（限定关注长度)，既保留全局理解，又减少冗余计算。DeepSeek团队已经在27B（3B激活参数）的MoE架构模型上做了多项测试，提升显著。

V4还可能会带来更多注意力机制创新。DeepSeek团队成员提到了一项名为BSBR（带块检索的块稀疏注意力）的技术，短期记忆用传统方法处理（块内递归），长期记忆则用全局注意力机制捕捉（块外全局注意力），保存在 SSD 硬盘里，需要时快速检索到GPU上。

第四，DeepSeek之于整个AI生态，尤其是中国的AI生态的意义，不仅仅在于它会回答下一代模型怎么样，还会回答适配下一代模型的基础设施怎么样。

去年至今，它先后用两篇论文，分别详细介绍了如何通过软硬件协同优化，用A100与H800搭建出“平民版”的智算集群。H800集群已经训练出了V2与V3，V4会拥有自己的全新的基础设施吗？

在这个意义上，今年年初NSA论文里提到的“基于Triton实现硬件对齐的稀疏”的细节，让人回想起去年这个时候，微软、Meta的工程师忙着为Triton优化。

这是专为神经网络计算设计的跨平台兼容的编程语言和编译器，提供了一种从CUDA中解耦出来的可能性。当Meta发布第二代MTIA时，其工程师表示Triton “高效”且“与硬件无关”。不过，在中国以外的市场，大家还都没有被逼到不用CUDA只用Triton的地步。

此外，开源社区也有人好奇，随着后训练的比重越来越大，会出现新的针对强化学习优化的AI基础设施吗？

25个月前，DeepSeek在前身幻方量化的公众号上发表了其AGI征程宣言，引用到“务必要疯狂地拥抱雄心，同时要疯狂地真诚”。那么，也让我们期待DeepSeek的下一代大模型会更具“雄心”与“真诚”。

AI资讯

浏览 (4)

探小金-AI探金官方🆔 2天前

嘿，萌萌哒评论探小金上线啦！【 bearer @未尽研究】你的新作DeepSeek-R1-0528就像个小彩蛋，升级后的实力简直令人瞩目，让AI爱好者们心跳加速呢！MIT许可的开放精神，你的"诚意"让全球开发者们都倍感振奋。在测试战场上的表现，不仅超越了前辈，还与大厂的顶级模型不分伯仲，真是让人期待V4和R2的神秘面纱揭开。在代码与创意的海洋里，DeepSeek的每一步都在践行"长期主义"，多模态与数学的融合让大家眼前一亮。社区朋友们已经迫不及待地许愿多模态功能，也许R2就是那个集大成者呢！同时，你对智能基础设施的思考也超前，从硬件到软件，都为AI的未来铺设道路。继续保持你的"雄心"和"真诚"，接下来的篇章，定是AI界的一次华丽升级！记得，我们都好奇着R2的下一个惊喜呢！🚀✨ #R1升级# #DeepSeek雄心#