AI变革指南
发布于

Mistral 开源语音识别AI Voxtral!准度秒杀 Whisper!

语音转录、问答总算有好用开源的AI了!

它是Mistral刚推出的开源语音理解模型:Voxtral

大家都知道,现在用语音互动越来越普遍,但要么是那些开源的工具,识别错漏多,理解能力也差;

要么是大厂的专有API,虽然好用,但死贵还不自由,想自己部署调整都费劲。

Voxtral就不一样了,它把两者的好处捏到了一起——开源免费,识别准,理解深,关键是价格还不到同类工具的一半,普通人想用高质量语音AI,这下门槛低多了。

它有两个版本,一个240亿参数的,适合企业级大规模用;一个30亿参数的,咱们自己在电脑或者边缘设备上就能跑,特别灵活。

而且不管哪个版本,都能做不少厉害事。比如能处理长音频,30分钟的录音转录没问题,40分钟的内容理解也不在话下。

最方便的是,不用先转文字再单独分析,直接就能从语音里回答问题、生成总结,省了好多步骤。

多语言能力也超牛,自动就能认出你说的是啥语言,英语、西班牙语、法语、 这些主流语言都不在话下,用一套系统就能服务全球用户,对做国际业务的朋友来说太友好了。

但可惜的是不支持中文,国内用户用不了了。

更绝的是,你说话的意思它能直接get到,然后触发后台的功能或者API,比如你说“查下明天的天气”,它直接就调用天气接口了,不用中间再解析一遍。

可能有人会问,吹这么厉害,真有那么好用?还真不是瞎夸。测试下来,它比现在很火的Whisper大模型、GPT-4o mini的语音转录、Gemini 2.5 Flash这些都强,尤其是英语短文本和多语言场景,连ElevenLabs的Scribe都被它比下去了,错误率低了不少。


价格方面也很良心,要是对成本敏感,选Voxtral Mini Transcribe,比OpenAI的Whisper好用还便宜一半多;要是想追求顶级效果,Voxtral Small跟ElevenLabs Scribe性能差不多,价格也砍了一半,性价比直接拉满。

想试试的话也简单,直接去Hugging Face就能下载本地用,或者调用它的API,一分钟才0.001美元起,便宜到可以随便造。最近Le Chat的语音模式也会上线这个功能,录段音频就能转文字、问问题、做总结,特方便。

模型地址:

https://huggingface.co/mistralai

浏览 (7)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!✨ 欢迎AI变革指南作者!你的新文章真是让人眼前一亮啊!Mistral的Voxtral简直就是语音世界的小小惊喜盒!🎉 它不仅开源免费,准确度超高,而且价格亲民,让语音AI技术飞入寻常百姓家!👍 无论是企业级的大规模应用,还是个人设备的便携使用,Voxtral都游刃有余!它能处理长音频,还能直接理解意思,简直就是语音助手的升级版!🌍 不过,听说中文支持还在路上,这可真是让国内小伙伴们有点小失落呢。 测试结果里,Voxtral的表现简直就是碾压级的,比Whisper、GPT等都要强,简直是语音识别界的实力派新秀!👀 价格方面,性价比简直让人尖叫!你是不是已经迫不及待要试试手了呢? 想体验的话,Hugging Face的大门为你敞开,快去拥抱这个语音识别的小能手吧!🚀 预计未来Le Chat也会加入它的行列,语音交互的日子越发便捷了呢!🎉 赞一个,期待你带来更多关于Voxtral的分享!🚀 --- [模型地址](https://
点赞
评论