发布于 6小时前

阿里发布Qwen3-Coder-Next！不震惊、不颠覆、实打实看看到底如何！

大家好！就在昨晚，阿里 Qwen 团队甩出了一个重磅炸弹——Qwen3-Coder-Next

我也第一时间去扒了 GitHub 和相关的技术博客。这篇内容，我结合官方资料，给大家好好看看一下这个新模型到底怎样，配置要求如何，以及咱们普通开发者或者团队到底该怎么用。看看阿里这次拿出来的东西到底能不能打。

这玩意儿到底是干嘛的？

简单一句话：Qwen3-Coder-Next 是一款专为 “编程智能体” 和 “本地开发” 设计的开源权重语言模型。

Qwen3-Coder-Next是阿里第一个用MoE（混合专家）架构做的代码模型。

它的核心定位不是简单地堆参数，而是专攻编程代理。训练时特别强化了可执行任务、环境交互反馈、工具调用、长程推理，以及从执行失败中自我恢复的能力。

简单说，它不是那种只会写Hello World的模型，而是真正能像一个“程序员助手”一样，接手复杂任务、调用工具、甚至在出错后自己调整。

咱先看硬指标，别整那些虚的：

参数规模: 总参数80B，激活参数约3B（高度稀疏MoE，每步推理只激活极小部分专家）。

上下文长度: 原生支持超长上下文（256K+，可通过技术扩展更长），仓库级代码理解轻松。

编程语言支持：官方称覆盖数百种主流和专业语言。

之前很多人担心 80B 跑不动，这次官方数据出来了，门槛比想象中低，但也绝对不低：

显存/内存门槛，4-bit 量化（GGUF/GPTQ），需要约 46GB 的显存或统一内存。FP8 高精度：需要约 96GB。

企业级部署：至少320G显存才能保证并发

推荐配置：土豪方案：双卡 RTX 3090 / 4090（24G x 2 = 48G），刚好能跑 4-bit 版本，速度飞快。

Mac党方案：Mac Studio / MacBook Pro (M3/M4 Max)，内存选 64GB 或更高，这是最优雅的本地方案。

因为激活参数只有 3B，只要你显存塞得下，它的 Token 生成速度会让你怀疑人生——极快。它解决了大模型 “跑得慢” 的千古难题。

性能到底怎么样？看数据说话

咱不聊那些"我感觉"、"据说"，直接上benchmark：

上面图张图是 Qwen3-Coder-Next（图中紫柱）在各大主流 Coding Agent（编程智能体） 评测集上的表现。

对手也都是狠角色：DeepSeek-V3.2、GLM-4.7 和 MiniMax M2.1。我仔细盘了一下这张图，咱们不吹不黑，客观地拆解一下它的真实水平。

大家把目光聚焦到图中间那个 SWE-Bench Pro (w/ SWE-Agent)。

数据表现：Qwen3-Coder-Next 拿到了 44.3% 的高分。

解读：这是这张图里含金量最高的一个数据。SWE-Bench Pro 通常比 Verified 版本更难，涉及更复杂的工程逻辑和长链路任务。

Qwen3 在这里大幅领先（领先第二名近 4 个百分点），说明了一个核心事实：在处理复杂、高难度的实际工程问题时，它的逻辑链条是最稳的。 它是真的能干“重活”。

稍显弱势：标准任务与辅助工具

再看两边的 SWE-Bench Verified 和 Aider，这里的情况就很有意思了。

SWE-Bench Verified测评分数，Qwen3 (70.6%) 居然排在末尾，虽然和 DeepSeek (70.2%) 半斤八, 但输给了 GLM-4.7 (74.2%) 和 MiniMax (74.8%)。

解读：在经过人工验证的、相对标准的 Issue 修复任务上，Qwen3 并没有展现出统治力，反而是 MiniMax 这种黑马表现抢眼。这说明在“标准题”上，各家模型差异不大，甚至 Qwen3 还有点“偏科”。

Aider 评测上，Qwen3 (66.2%) 输给了 DeepSeek-V3.2 (69.9%)。

解读：Aider 是非常流行的命令行编程工具。这个分数低一点，可能意味着在代码编辑的指令跟随或者diff 生成的格式准确性上，DeepSeek 目前的手感还是要更顺滑一些。

Qwen3-Coder-Next在当前开源Coding Agent模型中，属于稳扎稳打的第一梯队偏上位置。

它不是“全面最强”，但凭借MoE的高效设计，在资源消耗远低于对手的情况下，拿到了极具竞争力的分数——尤其在难度最高的Pro基准上领先，证明了“小激活参数也能打硬仗”的潜力。

如果你追求绝对峰值性能和最均衡表现，DeepSeek-V3.2或GLM-4.7可能更稳；

但如果你更看重本地部署效率 + 复杂任务实战能力，Qwen3-Coder-Next目前是性价比最高的选择之一。

它的定位很清晰：不是堆参数争榜首，而是用最低成本接近顶级Agent效果，这点做得相当成功。

兄弟们，这才是基于最新官方数据的理性判断。有不同测试体验的欢迎留言，咱们一起讨论。继续关注后续更新，看它能不能在弱项上再优化一波。

浏览