MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线

智东西
作者 | 王涵
编辑 | 漠影
智东西8月7日报道,今天,MiniMax推出新一代语音生成模型Speech 2.5。
相比5月发布的Speech 02,Speech 2.5有三大新突破:多语种表现更自然、音色复刻更像、40个语种覆盖更广。
目前,Speech 2.5已全球上线,用户可以登录MiniMax开放平台或MiniMax Audio官网体验。

Speech 2.5主页
用户可以在Speech 2.5主页选择想要的音色,在对话框内输入文字描述,也可以上传文件,就可以一键生成所需音频。下文呈现了官方公布的Speech 02生成音频的Demo和智东西实测案例:
一、多语种自然表达,减小机械感
MiniMax Speech 2.5提高了生成音频的相似度和自然韵律度,降低了字错率、减小了AI生成的商务会议、日常对话、英文播客的机械感。
智东西实测,其还可以给音频添加场景氛围音,生成的音频不但可以清晰准确地念出文字,还有母语者很地道的停顿、语调。
二、跨语种复刻口音,还原声线
Speech 2.5还可以跨语种复刻口音,保留同语种不同地区的口音,还能保留特殊年龄的声线特点,用户可以自由选择自己想要的音色,在不同的语言中切换,Speech 2.5生成的内容依旧可以保留口音特色细节。
三 、新增多个小语种,语种类型增至40个
Speech 2.5新增了保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语等多个小语种,语种类型扩充到了40个。跨境电商、出海客服、本地化营销,全球化内容可以一键创作。
四、促进跨境业务,喜马拉雅、网易都用了
MiniMax Speech语音模型可以应用在多种场景下,例如多语种客服、跨国广告配音、跨国教育、跨境电商等。
目前,MiniMax Speech语音模型已在全球被广泛采用。在海外,Vapi、Pipecat等Agent平台选择使用MiniMax Speech提供服务,Hedra、Icon、Syllaby等头部AI应用也已接入MiniMax Speech。
国内,高途教育、喜马拉雅、网易、Rokid眼镜等头部平台及产品都选择了MiniMax Speech。
结语:MiniMax在AI音频赛道继续深耕
MiniMax在AI音频赛道并非初出茅庐,其今年5月发布的Speech 02在Artificial Analysis和Hugging Face TTS Arena两项语音基准测评榜单中超越 OpenAI、ElevenLabs等知名模型,获得双料第一。
Speech 2.5可视为Speech 02的进阶版本,在继承前代优势的基础上,进一步在多语种、音色复刻及语种覆盖上深入优化。
当下,众多企业和研究机构纷纷布局,AI音频赛道竞争愈发激烈,MiniMax Speech 2.5的发布为市场注入了新的活力。