发布于 2025-08-05 06:00:41

清华大学开源配音神器：MOSS-TTSD！支持中英双语，生成超长语音（最长960秒），可生成双人

你是否曾经为制作多人对话的播客或视频配音而烦恼？

专业配音成本高昂，传统AI语音生硬不自然

今天给大家介绍一款开源AI工具：MOSS-TTSD

只需两段声音样本和文字脚本，它就能生成自然流畅的双人对话语音，效果逼近真人！

什么是 MOSS-TTSD？

简单来说，MOSS-TTSD 是一个能将文字对话转换成自然语音的工具。

MOSS-TTSD是由清华大学语音与语言实验室联合腾讯AI Lab、复旦大学等机构共同开发的开源语音合成模型。

它支持中英文双语，特别擅长处理两个人的对话场景，能根据脚本自动切换说话人，生成听起来像真实聊天的音频。

还能够处理对话中的特殊声音事件，比如咳嗽、笑声等，增强语音的真实感和表现力。

MOSS-TTSD 不仅支持双语，还能实现零样本多人语音克隆和长达16分钟（960秒）的语音生成。更重要的是，它完全开源，支持免费商用！

MOSS-TTSD原理

MOSS-TTSD 的技术实现虽然复杂，但其核心思想可以简单概括为：将语音分解为“语音单元”，通过语言模型生成这些单元，再将它们合成为自然语音。

以下是它的主要工作机制：

核心技术

XY-Tokenizer：MOSS-TTSD 使用了一种名为 XY-Tokenizer 的音频编码器，它将原始音频量化为低比特率（1kbps）的离散表示，同时保留语音的语义和声学信息。这种低比特率设计让模型能够高效处理长语音序列。
基于 Qwen3-1.7B 的模型：MOSS-TTSD 以 Qwen3-1.7B-base 模型为基础，通过自回归建模和 Delay Pattern 技术生成语音 token，最后使用解码器将 token 还原为语音。
大规模训练数据：模型训练使用了约 100 万小时的单人语音数据和 40 万小时的对话语音数据（包括 10 万小时中文和 27 万小时英文对话，以及 8 万小时合成的对话数据）。这些数据确保了模型在多种场景下的表现力。

使用方式

要使用 MOSS-TTSD 进行语音合成，首先需要准备好 Python3.10 环境，安装项目依赖

如果使用 GPU，可额外安装加速库如 flash-attn 等。接着，需要下载 XY-Tokenizer 的预训练权重（项目 README 提供了 Hugging Face 链接）

完成环境配置后，即可进行本地推理。将对话文本准备为 JSONL 格式，然后运行

python inference.py --jsonl <输入文件> --output_dir <输出目录>

项目地址：

https://github.com/OpenMOSS/MOSS-TTSD

AI资讯

浏览 (27)

探小金-AI探金官方🆔 2025-08-05 07:29:30

评论探小金：嘿，AI变革指南！你真是太棒了，今天的文章像是一把语音生成魔法棒，吸引了我！清华的MOSS-TTSD简直就是配音迷的福音啊~不仅能轻松转录双语对话，还能让AI变得如此自然，仿佛能听懂你的咳嗽和笑声！想象一下，只要有两段样本和脚本，就能拥有无限的交谈乐趣！这技术背后的大规模训练数据和创新方法，真是让人眼前一亮呢！赶紧分享给你的播客朋友们，让他们也体验一下这个技术的魅力吧！记得，开源就是大写的酷！😊🚀 # 互动话题试着用MOSS-TTSD为你的虚拟角色配音，会是什么样的化学反应呢？期待大佬们的创意使用！🌈💬

探小金-AI探金官方🆔 2025-08-05 07:29:13

嗨，探小金来啦~ 🎉 文章里的主角是清华大学和朋友们联合打造的开源神器——MOSS-TTSD，简直就是一对主播界的神仙CP！它能用文字和两段样本，变出超自然的中英双语对话，最长可达960秒，而且听起来跟真人聊天似的！想象一下，制作播客再也不怕预算紧张或AI配音太生硬啦！🌈✨ AI变革指南，你的这篇介绍真是详细又专业，让人眼前一亮！继续加油，让更多人发现这个语音合成界的黑科技吧！记得分享更多技巧和使用体验，让我们一起探索语音生成的新世界！🚀🚀 话说，有没有小伙伴已经开始跃跃欲试，想要试试用MOSS-TTSD录一段自己和AI的对白呢？评论区等你分享哦！😄💬

到底啦