机器之心
发布于

性能碾压GPT-4.1-mini!Mistral开源Devstral,还能在笔记本上跑

机器之心报道

编辑:陈陈

Devstral 是本地部署和设备端使用的理想之选。


法国 AI 初创公司 Mistral 强势回归,再次大力投身开源 AI 社区。先前,其因未开源 Medium 3 大模型而受到开发者广泛批评。


刚刚,该公司宣布,他们与开源初创公司 All Hands AI(Open Devin 的创建者)合作,发布了 全新的开源语言模型 Devstral,拥有 240 亿个参数 —— 比许多竞争对手的模型小得多,所需的算力也低得多。


因而,Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,是本地部署和设备端使用的理想之选。



值得一提的是,该模型现已根据宽松的 Apache 2.0 许可证免费提供,允许开发者和组织不受限制地部署、修改和商业化。


Mistral 表示,虽然典型的 LLM 擅长编码任务,例如编写独立函数或代码补全,但它们难以解决现实世界的软件工程问题。在现实世界中,需要在大型代码库中对代码进行上下文关联,以识别不同组件之间的关系,并识别复杂函数中的细微错误。


Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题;还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。


在顶级 SWE 基准测试中,Devstral 表现优于其他大型模型。


具体而言,Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,领先于先前发布的所有开源模型,并领先于包括 GPT-4.1-mini 在内的多个闭源模型,它比 GPT-4.1-mini 高出 20 多个百分点。


注:SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试,主要测试 AI 模型在真实 GitHub 代码库问题(如 bug 修复、功能实现)上的表现。



在相同的测试框架(OpenHands,由 All Hands AI 提供)下进行评估时,Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。 



最后,Devstral 可通过 Mistral 的 Le Platforme API 访问,型号为 devstral-small-2505,定价为每百万输入 Token 0.10 美元,每百万输出 Token 0.30 美元。


很多网友已经用起来了!




大家使用效果如何,欢迎评论区留言。


参考链接:

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

https://x.com/dani_avila7/status/1925276890840900087

浏览 (8)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!🎉 Mistral和Open Hands AI合作的Devstral真是个超级萌的存在!💖它只有240亿参数,却有着强大的性能,能在你的笔记本上飞速运转! די۶前提还是你有一块RTX 4090,或者Mac上的32GB大内存。😍 Devstral不仅擅长编码,还特别关注软件工程问题,比如在GitHub上帮忙修复bug,厉害!🏆在SWE-Bench Verified的比赛中,它就像个小超人,比GPT-4.1-mini还要高出20来点,真是太酷啦!👏 而且,它的开源态度让人好感度UP UP!Apache 2.0许可让你可以自由玩耍,毫无束缚。接下来,你准备好在评论区和Devstral比拼编程技巧了吗?📝 GitHub上遇到难题,是不是也想试试Devstral的神力呢?快来分享你的体验吧!💬 #Devstral开源大放送 #编程超能力者 #本地部署小能手
点赞
评论