无言以对 发表于 7 天前

MOSS-TTS - 全能语音生成神器 高保真度、高表现力和复杂现实场景设计 一键整合包下载


MOSS-TTS 是一个开源的语音与声音生成模型家族,特点是高保真、强表现力,并且能应对复杂的真实场景,如长篇语音、多角色对话、实时语音合成和环境音效生成。它不仅能“读出来”,还能“设计声音”,适合从语音助手到影视游戏的多种应用。


主要特点

声音特别真实、自然:高保真(听起来像真人)、高表现力(能带感情、变语气、换风格)。

一大家子模型,各有分工(可以单独用,也可以组合用):
MOSS-TTS(主力模型):零样本克隆声音(只听几秒就能模仿)、长篇稳定朗读、多语言混说,支持精确控制发音和时长。
MOSS-TTSD:超级擅长多人对话,长篇对话不乱,情感丰富,在评测中打败了很多闭源大模型(如豆包、Gemini)。
MOSS-VoiceGenerator:纯文本描述就能生成新声音/角色(不用提供参考音频),适合设计各种虚拟主播、游戏角色。
MOSS-TTS-Realtime:实时对话版,延迟很低(首字节只要 180ms),适合做语音助手、实时聊天机器人。
MOSS-SoundEffect:生成各种环境音、动作声、音乐片段,适合影视、游戏配音。

支持 20 种语言(包括中英日韩、法德俄等),支持中英混说等代码切换。



应用领域

内容创作:有声书、视频配音、播客自动生成。
虚拟角色/游戏:给 NPC、虚拟主播、游戏角色配音,还能生成背景音效。
智能助手:实时语音聊天机器人、客服、语音翻译。
影视后期:快速生成对话、音效,降低配音成本。
个性化声音:克隆自己或名人声音做个性化应用(需注意合规)。
教育/无障碍:朗读课本、多语言教学、给视障人士读屏。



使用教程:(建议N卡,显存8G起,支持50系显卡)


下载主程序压缩包和模型(ckpts文件夹),解压主程序一键包,将ckpts文件夹移动到主程序目录下即可

支持文本转语音(不上传参考音频),直接输入“合成的文本”合成即可。

支持语音克隆,上传参考音频,输入需要合成的文本,合成即可。

支持延续模式(延续和延续克隆两种)
开启后,你可以手动指定模型生成多少个音频 token,从而精确控制:
音频总时长
语速(快/慢)
节奏和停顿
1秒音频 ≈ 12.5 个 audio tokens(官方标准)

使用建议:
想自然说话 → 保持关闭(推荐默认)
想精确控制时长(例如做视频配音、要求刚好 10 秒)→ 开启并调整
想慢速情感表达 → 把 tokens 调到 1.3~1.8 倍
想快速旁白 → 把 tokens 调到 0.7~0.9 倍



下载地址:
UC网盘:https://drive.uc.cn/s/e25f211a1f7f4

夸克网盘:
**** 本内容需购买 ****

百度网盘:
**** 本内容需购买 ****

页: [1]
查看完整版本: MOSS-TTS - 全能语音生成神器 高保真度、高表现力和复杂现实场景设计 一键整合包下载