MOSS-TTSD V2版 - 文本到语音对话生成支持零样本多人语音克隆一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-7-10 23:25:51

MOSS-TTSD V2版 - 文本到语音对话生成支持零样本多人语音克隆一键整合包下载

MOSS-TTSD 是一种语音对话生成模型，能够支持中英文的富有表现力的对话语音合成，支持零样本多说话人语音克隆、语音事件控制和长文本语音生成。
MOSS-TTSD（文本到语音对话）支持中英文的双语语音对话合成，能够将两个说话者之间的对话脚本转化为自然、富有表现力的会话式语音。MOSS-TTSD 支持语音克隆和长单次会话语音生成，非常适合 AI 播客制作。

通俗的讲，只需要上传两段参考音频，输入两个人的对话文字内容，即可一键生成两人的对话音频内容，生成对话语音自然、且富有表现力，几乎接近真人对话水平。

今天分享的 MOSS-TTSD V2版，修复了上个版本flash_attn和硬件不兼容报错问题，V2版支持30和40系显卡（30系以下老卡不支持），支持flash_attn加速。
50系显卡请使用 V1版，按照要求覆盖补丁即可。

应用领域
AI 播客制作：自动将文本内容转化为多人对话的播客音频，支持零样本人声克隆和长语音生成，降低制作成本。
影视配音与动画：为影视作品、动画生成自然对话语音，支持多语言切换，提升配音效率。
长篇访谈与会议记录：将访谈或会议文本转化为语音，保留对话的韵律和情感，便于存档和分享。
数字人对话带货：为虚拟主播或数字人提供自然流畅的对话语音，增强互动体验。
语音助手与客服：提升语音助手的对话自然度，支持多轮对话和情感表达，改善用户体验。

使用教程：（建议N卡，显存8G起。支持30-40系显卡，基于CUDA12.4）

输入两个人对话文本内容，用标签和区分，上传两段说话人的参考音频，生成即可。

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOUru8ZIvAUWOwghqo1P2W13A1?pwd=f2u6
百度网盘：**** 本内容需购买 ****

解压密码：https://deepfaces.cc/ 复制这个完整的网址即是解压密码，不要有空格，复制粘贴即可

touvidia 发表于 2025-7-14 11:08:03

试了下，这次终于成功了。不过感觉音色还可以，比较像，但口吻不太像。
我觉得基于GPT-SoVITS框架做一个对话应用还是很好改的：
1. 支持引入两个参考语音，分别对应两条参考文本，以及对应的内容文本；
2. 台词按同样的和的识别逻辑来划分角色；为了简化逻辑，也可以对应两个参考设立两个内容文本输入框，点击哪个按钮就按照哪个角色来新增一个队列任务。
3. 每生成一段，就自动接续到输出音频文件里。但为了简化生成逻辑，也可以直接生成单独的语音。用户后期可以用其它软件做串接。

GPT-SoVITS对音色、语气和口吻的模仿是目前看来最优秀的。

无言以对 发表于 2025-7-14 11:39:18

touvidia 发表于 2025-7-14 11:08
试了下，这次终于成功了。不过感觉音色还可以，比较像，但口吻不太像。
我觉得基于GPT-SoVITS框架做一个对 ...

作者说了，下个模型会侧重模型音色训练

touvidia 发表于 2025-7-14 13:42:33

无言以对发表于 2025-7-14 11:39
作者说了，下个模型会侧重模型音色训练

啊，期待！不过我一直以为这些工具都是你写的。

19991450205 发表于 2025-7-19 11:14:55

为什么都是默认男生的声音呢。

页: [1]

前沿AI软件资源站's Archiver

MOSS-TTSD V2版 - 文本到语音对话生成 支持零样本多人语音克隆 一键整合包下载

MOSS-TTSD V2版 - 文本到语音对话生成支持零样本多人语音克隆一键整合包下载