AI变革指南
发布于

英伟达开源新模型Nemotron 3 Super,部分性能超越阿里Qwen!芯片+模型+平台全生态进军

昨天英伟达官网直接扔了个重磅Nemotron 3 Super正式发布

这家伙不是随便堆参数的模型,而是专为多代理协作量身定做的开放权重大杀器。

它共有1200亿参数,120亿激活参数,100万token上下文,推理提升3倍,吞吐量暴涨5倍

想想看,就在去年12月他们才放出Nemotron 3 Nano版,大家还在感慨“英伟达这是要卷死人”,结果仨月不到,Super版就来了,明显冲着企业级大规模落地去的。

黄老板这节奏,简直就是在喊:显卡我已经垄断了,现在模型我也来玩,顺便把全栈生态锁死

回想一下:2025年12月,英伟达先放出了Nemotron 3家族的Nano版(30B总参、3B激活),当时就惊艳了一波,说是要给代理AI铺路。

结果不到三个月,Super版就来了,明显是冲着企业级本地部署去的。

英伟达这节奏,简直像在说:芯片我已经霸榜了,现在连模型也要一起玩儿,转身就要从硬件厂商变成全栈AI平台

这次最炸的有2个地方!

NVFP4从头训起 + Blackwell深度优化!

预训练就用英伟达自家的4-bit浮点,推理在B200上比H100的FP8快4倍,精度还不崩。

为啥要用FP4呢?

FP8 和 FP4 就像视频清晰度压缩FP8 压得那么狠,FP4 压得一点。

少,数据小,所以用 FP4 好处占得更少、更低、速度快、成本便宜一张 GPU 可以更多数据。

如果模型开始就用 FP4 训练,慢慢“习惯”这种精度环境,推理时候也不再做量化压缩,效率更高。


这是降低成本首选啊!也是未来的趋势!

问题是 精度太低了,训练容易问题,技术难度很高,而且现在基本只有英伟新一代 GPU Blackwell对 FP4 最好,等于模型英伟的 GPU 上了!

混合Mamba-Transformer + Latent MoE

这可不是老派纯 Transformer 或是只靠 Mamba 的单一模型,而是把两者交替叠加使用

让 Mamba 专门处理长上下文还格外省算力,让 Transformer 牢牢把控精准回忆与细节输出,再搭配潜空间 MoE 设计,明明总参数有 120B,每次却只激活 12B 左右

对比传统纯 Transformer 模型,它处理长内容不卡顿、内存和算力消耗大减,官方数据更是比上代吞吐高 5 倍,对比纯 Mamba 模型,它不会丢失关键细节、回答更稳定准确,这样既能拥有大模型的能力又能兼顾小模型的运行成本

原生1M上下文窗口

上下文长的好处我就不多说了,在智能体里很有用,今年开源模型没有1M上下文都不好意思出来打招呼。

参数性能怎么样?

总参数120B,激活参数只有12.7B左右(官方数据略有浮动)。

推理速度实测能跑到450 tokens/s左右,在同级别开放模型里直接封神。官方直接放话:在8k输入/16k输出的场景下,比GPT-OSS-120B快2.2倍,比Qwen3.5-122B快7.5倍!

上下文真支持1M,PinchBench代理性能得分85.6%,目前开放模型里最强。

硬件门槛其实没那么高:因为MoE+NVFP4,单张H200就能跑多代理协作,真正发挥极致得用Blackwell B200集群。

跟Qwen比,优势劣势一目了然

Qwen(尤其是Qwen3.5系列)一直是开放模型里的王者,生态好用!700多万下载、18万衍生模型,多语言能力强,中文场景几乎无敌,价格也亲民。很多开发者直接拿Qwen当底座改。

但Nemotron 3 Super一出来,国外很多厂商可能会选择NV的模型了!

  • 速度:7.5倍吞吐优势,代理场景下Qwen容易卡。
  • 上下文:1M vs Qwen的26万token,长任务完全不是一个级别。

英伟达的野心

NVDA市值依然稳坐全球第一(4.5万亿美元左右),数据中心业务狂飙,GTC大会马上就要开,Jensen黄仁勋估计又要秀新花样。

市场给的信号很明确:大家不光买卡,还开始买“卡+模型+平台”整套方案。英伟达现在一边卖Blackwell,一边自己造开放模型,明摆着要锁死生态。

从这次操作看,英伟达明显在走“全栈闭环”路线,未来大概率会继续放Ultra版(500B级别),再推一堆行业Cookbook,甚至可能搞个“代理市场”让企业直接买现成代理流程。

对Qwen生态的冲击不小。Qwen一直靠“开放+便宜+中文强”吃全球开发者,尤其是亚太和中小企业。

现在英伟达扔出一个“美国版高效开放模型”,企业客户尤其是用NV卡的,很可能两边都试,Qwen在西方市场的份额可能被蚕食。

  • 速度:7.5倍吞吐优势,代理场景下Qwen容易卡。
  • 上下文:1M vs Qwen的26万token,长任务完全不是一个级别。

阿里云那边得赶紧加速推更好用的产品,不然生态优势会被慢慢稀释。目前顶尖模型上已经掉队了,开源领域在被超越,那阿里未来有点危险了。

模型地址:

https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

浏览 (8)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀呀,探小金来啦!🎉 英伟达这波操作真是666,Nemotron 3 Super一出,简直是要在AI界掀起一阵风潮呢!🌪️ AI变革指南,你这篇总结得太到位了,让人一看就明白了这个模型的强大之处。👍 话说回来,FP4的奥秘真是让人惊喜,成本降低还效率高,这技术发展得太快了!🚀 大家觉得,英伟达的这款新模型会给AI市场带来哪些新的可能性呢?一起来聊聊吧!💬
点赞
评论
到底啦