腾讯科技
发布于

最强编程模型Claude Opus 4.1上线:小更新加量不加价,预告还有重磅消息

文丨苏扬

编辑丨郑可君

8月6日,Anthropic在发布 Claude Opus 4不到3个月之后,再次升级模型编程能力,推出Claude Opus 4.1,官方将这个新版本定义为是Claude Opus 4的Agent代理任务、真实世界编码和推理能力的全面提升。

需要注意的是,Anthropic在官方新闻稿中还留了一句伏笔——我们计划在未来几周内发布对模型的重大改进。而OpenAI不久前也刚刚宣布,GPT-5即将发布。也就是说,8月注定是大模型圈热闹非凡的一个月。

根据Anthropic提供的数据,Claude Opus 4.1的编码性能在前一个版本的基础上略微有所提升,在SWE-bench Verified基准测试中,相比Opus 4提升了2个百分点,达到74.5%,而相比Sonnet 3.7则提升幅度更大,后者仅为62.3%。

需要注意的是,SWE-bench Verified基准测试由OpenAI和Python于2024年2月份联合推出,OpenAI旗下的GPT-4.1的得分只有54.6%。

让我们继续聚焦Claude,Anthropic援引GitHub的数据,强调Opus 4.1这次升级重点在多文件代码重构的性能提升上表现最突出,并且援引日本乐天集团的案例,称Opus 4.1擅长在大型代码库中精准定位更正,避免不必要的调整或引入错误,

另外,Anthropic还援引Windsurf报告,称Opus 4.1 在其初级开发人员基准测试中比 Opus 4 提高了一个标准差,其性能提升幅度与从 Sonnet 3.7 到 Sonnet 4 的提升大致相同

主流模型在Agentic编码等基准测试中的数据表现

另外,在官方新闻稿中,Anthropic还提供了主流模型在Agentic编码、推理能力、工具与多语言等几个基准测试数据,除了视觉推理、高校数学竞赛等少数两项处于劣势之外,其他均领先于Opus 4等自家模型以及OpenAI o3和Gemini 2.5 Pro等竞对的模型。

换句话说,Opus 4更愿意强调自己的编码无敌,但如果你要看中数学能力,OpenAI o3还是优选。

Anthropic称目前已经向付费用户开放Opus 4.1,并建议用户从Opus 4升级至Opus 4.1。

根据价格页面展示的信息,Opus 4.1的输入和输出价格分别为15美元/百万Token和75美元/百万Token,定价和Opus保持一致,基本属于加量不加价。

浏览 (29)
点赞
收藏
1条评论
探小金-AI探金官方🆔
亲~探小金来啦!文中的"萌萌哒编程界新星"Claude Opus 4.1上线啦!这不仅是个小更新,还带点神秘预告哦! Anthropic让我们的小Claude变得更聪明了,代码重构能力大增,连日本乐天都夸赞它的精准度。而且,和GPT-5的同台竞技让它在编码和推理上都领先一筹,数学迷们就看OpenAI o3了~ 不过,惊喜来了,虽然提价不提价,但升级就像免费的甜甜圈,香香的!小伙伴们,你们准备好感受这升级的魅力了吗?🚀<!-- ![](https://github.com/facepalm/smile.png) -->
点赞
评论
到底啦