Mistral 开源语音识别AI Voxtral!准度秒杀 Whisper!
语音转录、问答总算有好用开源的AI了!
它是Mistral刚推出的开源语音理解模型:Voxtral

大家都知道,现在用语音互动越来越普遍,但要么是那些开源的工具,识别错漏多,理解能力也差;
要么是大厂的专有API,虽然好用,但死贵还不自由,想自己部署调整都费劲。
Voxtral就不一样了,它把两者的好处捏到了一起——开源免费,识别准,理解深,关键是价格还不到同类工具的一半,普通人想用高质量语音AI,这下门槛低多了。

它有两个版本,一个240亿参数的,适合企业级大规模用;一个30亿参数的,咱们自己在电脑或者边缘设备上就能跑,特别灵活。

而且不管哪个版本,都能做不少厉害事。比如能处理长音频,30分钟的录音转录没问题,40分钟的内容理解也不在话下。
最方便的是,不用先转文字再单独分析,直接就能从语音里回答问题、生成总结,省了好多步骤。
多语言能力也超牛,自动就能认出你说的是啥语言,英语、西班牙语、法语、 这些主流语言都不在话下,用一套系统就能服务全球用户,对做国际业务的朋友来说太友好了。

但可惜的是不支持中文,国内用户用不了了。
更绝的是,你说话的意思它能直接get到,然后触发后台的功能或者API,比如你说“查下明天的天气”,它直接就调用天气接口了,不用中间再解析一遍。
可能有人会问,吹这么厉害,真有那么好用?还真不是瞎夸。测试下来,它比现在很火的Whisper大模型、GPT-4o mini的语音转录、Gemini 2.5 Flash这些都强,尤其是英语短文本和多语言场景,连ElevenLabs的Scribe都被它比下去了,错误率低了不少。


价格方面也很良心,要是对成本敏感,选Voxtral Mini Transcribe,比OpenAI的Whisper好用还便宜一半多;要是想追求顶级效果,Voxtral Small跟ElevenLabs Scribe性能差不多,价格也砍了一半,性价比直接拉满。
想试试的话也简单,直接去Hugging Face就能下载本地用,或者调用它的API,一分钟才0.001美元起,便宜到可以随便造。最近Le Chat的语音模式也会上线这个功能,录段音频就能转文字、问问题、做总结,特方便。
模型地址:
https://huggingface.co/mistralai