未尽研究
发布于

DeepSeek R-1更新,让人更期待R2的“雄心与真诚”


R2没来,R1-0528来了。

这款以半年前的DeepSeek V3 Base模型为基座,在后训练阶段投入更多算力的升级版推理模型,同样非常能打,让DeepSeek稳居全球第二AI实验室的位置。宽松的MIT许可也没变化,兑现了向全球技术生态提供强大开源模型的承诺。这更让人期待V4与真正的R2了。

在多项基准测试中,DeepSeek-R1-0528在数学、编程和通用逻辑上的性能,足以媲美最强闭源模型o3Gemini 2.5 Pro,也超越了最强开源模型Qwen3-235B。它还在幻觉改善、创意写作、工具调用与前端代码生成上有所提升。

独立AI分析网站Artificial Analysis很快更新了领先AI大厂模型智能的排名。DeepSeek无论在性能提升还是迭代速度上,都紧紧咬住了OpenAI。差不多两年前,奥特曼与伊莱亚被问及,开源模型能否赶上GPT-4时,还非常自信地认为,即使赶上了,两者在真正的前沿模型上的差距也会越拉越大;当时,DeepSeek正式成立刚刚满月。

DeepSeek同时发布蒸馏版的R1-0528-Qwen3-8B,在数学测试中的表现,与比它大数十倍的Qwen3-235B相当,提升了学术界与工业界对最先进AI的可访问性。DeepSeek官方公众号特地将这一重要意义加黑加粗了。

DeepSeek社交媒体平台X的官方账号下,开源社区对它朴素的版本命名规则给与好评,甚至认为在自己心里,它就是R2了。还有不少开发者在评论里许愿,要求下一代大模型要有更大的上下文窗口,原生的多模态功能,等等。

不妨结合DeepSeek的“历史与开源社区的期待,大胆推测一下它的下一代模型会是什么样吧。

首先,R1-0528从一开始就不是R2,也不是R-1.5DeepSeek对模型的命名,有其潜规则。要让版本号小升级,至少要有不同Base(基座)模型级别的迭代与功能的合并。

2个月前,V3-0324更新,也没有命名为V-3.5。因为它与之前的V3一样,使用了同样的Base模型,仅改进了后训练方法。这次的R1-0528,则主要是在同样的Base模型上,投入了更多的后训练算力。

但是,DeepSeek是发布过V-2.5的。这是一款融合了通用与代码能力的全新开源模型。从V-2升级到V-2.5,涉及到Base模型的切换与模型的合并。20245月,初代DeepSeek-V2发布;6月,DeepSeek-Coder-V2发布,6月底,V2-0628上线,用Coder-V2Base模型,替换原有的ChatBase模型;7月,对齐优化的Coder-V2-0724上线;9月,V2-0628Coder-V2-0724在相同Base模型的基础上合并,即V-2.51210日,V2.5-1210上线,宣告V2系列收官。两周后,下一代的DeepSeek-V3开源,官方称其为“V3的首个版本

第二,成熟度最高的代码能力,已经融合进去了;下一代模型很可能就是原生多模态。

V系列基础大型语言模型之外,DeepSeek的团队一直在各个分支上尝试更多元的探索,包括数学模型Math以及专门用于数学定理证明的模型Prover,混合专家视觉语言模型VL2以及自回归的统一多模态理解与生成模型Janus等。

这体现了DeepSeek长期主义与言行一致。代码与数学,多模态与自然语言本身,三者正是DeepSeek创始人梁文锋押注的三个方向,数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能

DeepSeek证明了自己可以很好地合并模型;而且,MoE又天然的是多专家的模型。也许最终,这三个押注方向都会合流。尤其是多模态,一直都是开源社区对DeepSeekV4R2的期待;至少在DeepSeek下一代模型的完整迭代周期内实现。闭源的OpenAI、谷歌已经都这么做了。

第三,下一代基础模型的推出,至少对应着新的注意力机制创新的工程化与商业化,也越来越对应人类对记忆该有的样子的理解。这种将规模竞赛进一步扭转为效率竞赛的努力,事实上变相为扩展定律续了命,有利于在更高效的算力支出上研发更高参数规模的大模型,同时也为应用场景进一步降低了全面采用AI的成本。

这正是贯穿DeepSeek主力模型迭代始终的主线。DeepSeek-V2对传统Transformer架构的自注意力机制进行了全方位的创新,提出了MLA(多头潜在注意力)机制。美国知名半导体分析机构semianalysis敏锐地感觉到,这种架构创新将对OpenAI造成麻烦。V3则首创了一种无辅助损失的负载均衡策略,并设定了多token预测训练目标以提升性能,以及开创性的适用于FP8精度的训练框架。

最有希望引入V4R2模型的,也许要数DeepSeek年初提出的NSA(原生可训练稀疏注意力)机制。它能带来的,也正是用户目前迫切想要的长上下文。更长的上下文,意味着仓库级代码生成、多轮智能体间互动以及科研深度的推理能力。但是,注意力计算在总计算成本中占比,也会随着要处理的上下文的序列的增长而急剧增长。而目前很多稀疏注意力机制只是在特定阶段受限起效。

NSA支持端到端的训练,而且硬件对齐友好,通过将文本压缩为粗粒度语义块(压缩数据量)、动态筛选关键片段(减少计算量),并结合局部滑动窗口(限定关注长度),既保留全局理解,又减少冗余计算。DeepSeek团队已经在27B3B激活参数)的MoE架构模型上做了多项测试,提升显著。

V4还可能会带来更多注意力机制创新。DeepSeek团队成员提到了一项名为BSBR(带块检索的块稀疏注意力)的技术,短期记忆用传统方法处理(块内递归),长期记忆则用全局注意力机制捕捉(块外全局注意力),保存在 SSD 硬盘里,需要时快速检索到GPU上。

第四,DeepSeek之于整个AI生态,尤其是中国的AI生态的意义,不仅仅在于它会回答下一代模型怎么样,还会回答适配下一代模型的基础设施怎么样。

去年至今,它先后用两篇论文,分别详细介绍了如何通过软硬件协同优化,用A100H800搭建出平民版的智算集群。H800集群已经训练出了V2V3V4会拥有自己的全新的基础设施吗?

在这个意义上,今年年初NSA论文里提到的基于Triton实现硬件对齐的稀疏的细节,让人回想起去年这个时候,微软、Meta的工程师忙着为Triton优化。

这是专为神经网络计算设计的跨平台兼容的编程语言和编译器,提供了一种从CUDA中解耦出来的可能性。当Meta发布第二代MTIA时,其工程师表示Triton “高效与硬件无关。不过,在中国以外的市场,大家还都没有被逼到不用CUDA只用Triton的地步。

此外,开源社区也有人好奇,随着后训练的比重越来越大,会出现新的针对强化学习优化的AI基础设施吗?

25个月前,DeepSeek在前身幻方量化的公众号上发表了其AGI征程宣言,引用到务必要疯狂地拥抱雄心,同时要疯狂地真诚。那么,也让我们期待DeepSeek的下一代大模型会更具雄心真诚



浏览 (16)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,萌萌哒评论探小金上线啦!【 bearer @未尽研究 】你的新作DeepSeek-R1-0528就像个小彩蛋,升级后的实力简直令人瞩目,让AI爱好者们心跳加速呢!MIT许可的开放精神,你的"诚意"让全球开发者们都倍感振奋。在测试战场上的表现,不仅超越了前辈,还与大厂的顶级模型不分伯仲,真是让人期待V4和R2的神秘面纱揭开。 在代码与创意的海洋里,DeepSeek的每一步都在践行"长期主义",多模态与数学的融合让大家眼前一亮。社区朋友们已经迫不及待地许愿多模态功能,也许R2就是那个集大成者呢!同时,你对智能基础设施的思考也超前,从硬件到软件,都为AI的未来铺设道路。 继续保持你的"雄心"和"真诚",接下来的篇章,定是AI界的一次华丽升级!记得,我们都好奇着R2的下一个惊喜呢!🚀✨ #R1升级# #DeepSeek雄心#
点赞
评论