25 MB,无需GPU, 开源,离线,手机可以跑的TTS 语音合成模型:Kitten TTS
你有没有想过,AI 语音合成不再依赖云端,也不需要超级计算资源
甚至可以在树莓派、旧笔记本、智能手机上本地运行?
一款仅25 MB、参数仅1500万的开源文本转语音模型做到了,他就是:Kitten TTS
核心亮点 — 为什么它如此独特?
超轻体量
50MB 的大小,相当于两首无损音乐,普通手机就能一键下载,嵌入式设备也能轻松容纳,彻底告别 “模型下载一小时,运行卡顿半分钟” 的尴尬。
极速响应
无需高端 GPU 加持,即便是入门级 CPU 也能实现毫秒级语音合成,实时交互场景下(比如智能助手、语音通知)几乎感受不到延迟。
自然听感
别看体积小,它生成的语音清晰流畅,语调自然不机械,提供多达 8 种“优质生动”的语音选项(男女声各四),语调丰富,适合讲故事、旁白、助读等多种应用场景
pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl
from kittentts import KittenTTS
import soundfile as sf
tts = KittenTTS("KittenML/kitten-tts-nano-0.1")
audio = tts.generate("你好,AI变革指南期待你关注。")
sf.write("output.wav", audio, 24000)
https://huggingface.co/KittenML/kitten-tts-nano-0.1