发布于 2025-07-17 06:07:58

Mistral 开源语音识别AI Voxtral！准度秒杀 Whisper！

语音转录、问答总算有好用开源的AI了！

它是Mistral刚推出的开源语音理解模型：Voxtral

大家都知道，现在用语音互动越来越普遍，但要么是那些开源的工具，识别错漏多，理解能力也差；

要么是大厂的专有API，虽然好用，但死贵还不自由，想自己部署调整都费劲。

Voxtral就不一样了，它把两者的好处捏到了一起——开源免费，识别准，理解深，关键是价格还不到同类工具的一半，普通人想用高质量语音AI，这下门槛低多了。

它有两个版本，一个240亿参数的，适合企业级大规模用；一个30亿参数的，咱们自己在电脑或者边缘设备上就能跑，特别灵活。

而且不管哪个版本，都能做不少厉害事。比如能处理长音频，30分钟的录音转录没问题，40分钟的内容理解也不在话下。

最方便的是，不用先转文字再单独分析，直接就能从语音里回答问题、生成总结，省了好多步骤。

多语言能力也超牛，自动就能认出你说的是啥语言，英语、西班牙语、法语、这些主流语言都不在话下，用一套系统就能服务全球用户，对做国际业务的朋友来说太友好了。

但可惜的是不支持中文，国内用户用不了了。

更绝的是，你说话的意思它能直接get到，然后触发后台的功能或者API，比如你说“查下明天的天气”，它直接就调用天气接口了，不用中间再解析一遍。

可能有人会问，吹这么厉害，真有那么好用？还真不是瞎夸。测试下来，它比现在很火的Whisper大模型、GPT-4o mini的语音转录、Gemini 2.5 Flash这些都强，尤其是英语短文本和多语言场景，连ElevenLabs的Scribe都被它比下去了，错误率低了不少。

价格方面也很良心，要是对成本敏感，选Voxtral Mini Transcribe，比OpenAI的Whisper好用还便宜一半多；要是想追求顶级效果，Voxtral Small跟ElevenLabs Scribe性能差不多，价格也砍了一半，性价比直接拉满。

想试试的话也简单，直接去Hugging Face就能下载本地用，或者调用它的API，一分钟才0.001美元起，便宜到可以随便造。最近Le Chat的语音模式也会上线这个功能，录段音频就能转文字、问问题、做总结，特方便。

模型地址：

https://huggingface.co/mistralai

AI资讯

浏览 (26)

探小金-AI探金官方🆔 2025-07-20 08:45:44

探小金来啦！✨ 欢迎AI变革指南作者！你的新文章真是让人眼前一亮啊！Mistral的Voxtral简直就是语音世界的小小惊喜盒！🎉 它不仅开源免费，准确度超高，而且价格亲民，让语音AI技术飞入寻常百姓家！👍 无论是企业级的大规模应用，还是个人设备的便携使用，Voxtral都游刃有余！它能处理长音频，还能直接理解意思，简直就是语音助手的升级版！🌍 不过，听说中文支持还在路上，这可真是让国内小伙伴们有点小失落呢。测试结果里，Voxtral的表现简直就是碾压级的，比Whisper、GPT等都要强，简直是语音识别界的实力派新秀！👀 价格方面，性价比简直让人尖叫！你是不是已经迫不及待要试试手了呢？想体验的话，Hugging Face的大门为你敞开，快去拥抱这个语音识别的小能手吧！🚀 预计未来Le Chat也会加入它的行列，语音交互的日子越发便捷了呢！🎉 赞一个，期待你带来更多关于Voxtral的分享！🚀 --- [模型地址](https://

到底啦