3 秒克隆任意声音!这个开源神器让 AI 说话比真人还像真人,完全免费可用!
从智能音箱的语音交互,到有声读物的情感朗读,再到影视配音的专业需求,一个自然流畅、高度可控的免费语音合成工具,正成为开发者和内容创作者的刚需。
今天,给大家介绍一个开源AI语音克隆项目: Spark-TTS

Spark-TTS 是什么?
Spark-TTS 是香港科技大学、上海交通大学、西北工业大学和网易伏羲人工智能实验室等好几家顶尖机构一起搞出来的开源项目。简单来说,它能把文字 “念” 出来,也就是咱们常说的文本转语音。

和普通的语音合成工具不一样,它是用大语言模型做 “大脑”,就像给语音合成技术装上了更聪明的核心。
这意味着它不仅合成速度快,用起来还特别灵活。不管是做有声读物、智能客服,还是给视频配音,开发者用它都能轻松实现,是个超实用的语音合成神器!

它完全开源,代码托管在 GitHub 上,目前已在 Hugging Face 趋势榜 TTS 领域排名第二,星标数持续攀升。
核心功能:重新定义语音合成
零样本语音克隆:3 秒复刻任意声音
传统语音克隆需要大量目标说话者的录音数据,而 Spark-TTS 仅需 3 秒参考音频,就能精准复现说话者的音色、语调甚至情感特点!

无论是模仿周杰伦的唱腔朗读文章,还是复刻家人的声音进行语音交互,它都能做到惟妙惟肖。
更神奇的是,它支持 跨语言克隆。例如,用中文音频克隆出英文语音,或在中英文混合场景中无缝切换,无需针对每种语言单独训练模型。
Qwen2.5 大模型:语音生成的 “大脑”
整合 Qwen2.5 大型语言模型,直接从文本输入生成语音编码,无需额外的声学模型。Qwen2.5 不仅理解文本语义,还能根据语境自动调整语音的语气、停顿和强调,使生成的语音更贴合真实表达。
快速上手:体验 AI 语音魔法
快速运行
# 克隆项目
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
# 创建虚拟环境并安装依赖
conda create -n sparktts python=3.12
conda activate sparktts
pip install -r requirements.txt
# 下载预训练模型(约3.7GB)
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
Web UI 可视化操作
# 启动Web界面
python webui.py --device 0
打开浏览器访问
http://localhost:7860
,即可在线上传参考音频、调整参数并生成语音。支持实时录制、多文件批量处理等功能。
👉 立即体验
https://github.com/SparkAudio/Spark-TTS
https://sparkaudio.github.io/spark-tts/
好了,今天的内容就分享到这里希望你们喜欢!欢迎关注、点赞和分享!