腾讯科技
发布于

DeepSeek发布V3.2-Exp实验性模型:引入稀疏注意力机制,API大幅降价

文|涵清

编辑|可君

9月29日消息,深度求索(DeepSeek)今日宣布推出最新实验性版本——DeepSeek-V3.2-Exp。

作为V3.1-Terminus的迭代版本,V3.2-Exp引入DeepSeekSparseAttention(DSA)稀疏注意力机制,用于探索和验证长文本场景下的训练与推理效率优化。

官方介绍称,本次实验性版本在训练配置上与V3.1-Terminus保持严格一致,核心目标是检验DSA在长上下文任务中的计算效率表现。

结果显示,模型在保持几乎一致输出质量的同时,实现了训练与推理效率的显著提升。

基准测试结果

在多项权威公开基准中,V3.2-Exp与V3.1-Terminus整体表现接近:

推理类任务:

  • MMLU-Pro(85.0→85.0,持平)

  • AIME2025(88.4→89.3,提升)

  • Codeforces(2046→2121,提升)

Agent工具任务:

  • BrowseComp(38.5→40.1)

  • BrowseComp-zh(45.0→47.9)

  • SimpleQA(96.8→97.1)均有小幅提升。

整体来看,V3.2-Exp在多数指标上维持稳定水准,并在数学推理与编程任务上展现出正向优化趋势。DeepSeek表示,V3.2-Exp的发布是一次实验性探索,旨在为下一代高效Transformer架构奠定基础。

以下是DeepSeek官方微信公众号全文内容:

DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价

今天,我们正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。

目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时 API 大幅度降价,欢迎广大用户体验测试并向我们反馈意见。

DeepSeek Sparse Attention(DSA)

稀疏注意力机制

DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。

为了严谨地评估引入稀疏注意力带来的影响,我们特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

论文链接 & 模型开源

DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源:

  • HuggingFace

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

  • ModelScope

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

论文也已同步公开:点击直达>>

TileLang & CUDA 算子开源

在新模型的研究过程中,需要设计和实现很多新的 GPU 算子。我们使用高级语言 TileLang 进行快速原型开发,以支持更深入的探索。在最后阶段,以 TileLang 作为精度基线,逐步使用底层语言实现更高效的版本。因此,本次开源的主要算子包含 TileLang 与 CUDA 两种版本。我们建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。

API 支持

得益于新模型服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效。

在新的价格政策下,开发者调用 DeepSeek API 的成本将降低 50% 以上。

目前 API 的模型版本为 DeepSeek-V3.2-Exp,访问方式保持不变。欢迎用户使用 DeepSeek 官方的 API 服务。

用户场景对比测试

作为一个实验性的版本,DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试,以排除在某些场景下效果欠佳的可能。为方便用户进行对比测试,我们为 DeepSeek-V3.1-Terminus 临时保留了额外的 API 访问接口。用户只需修改base_url="https://api.deepseek.com/v3.1_terminus_expires_on_20251015" 即可访问 V3.1-Terminus,调用价格与 V3.2-Exp 相同。该接口将保留到北京时间 2025 年 10 月 15 日 23:59,更详细的使用方法请参考官方文档 https://api-docs.deepseek.com/zh-cn/guides/comparison_testing

相关阅读

浏览 (48)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哈喽,大家好,我是探小金,萌萌哒的评论员!今天咱们聊的是**腾讯科技**的这位作者可君带来的新鲜事儿哦~ DeepSeek家族出新成员啦!V3.2-Exp搭载了稀疏注意力机制DSA,据说能让长文本处理变得更高效,训练和推理就像魔法般快!而且跟之前的V3.1-Terminus相比,输出质量几乎没变,但效率提升可不是一点点,简直让人心动呀! 官方还贴心的提供了API降价服务,这让开发者们的心里那个美滋滋~在基准测试中,V3.2-Exp的水平跟V3.1-Terminus不相上下,甚至在编程和数学推理方面还有不小的进步。这可真是不小的进步,就像是技术大变身,既保持了实力,又提升了速度! 哎呀,想想那个 TileLang 和 CUDA 算子开源的心动时刻,科研小伙伴们的效率该提升到哪个层次了呢?而且,DeepSeek还给忠实粉丝们准备了对比测试机会,直到2025年10月15日,你可以亲自试试,看看新版本是不是真爱。 最后,别忘了关注DeepSeek官方微信公众号
点赞
评论
到底啦