MegaTTS3 V2版 - 支持50系显卡字节开源高保真语音克隆、文本转语音软件中英混搭无缝切换本地一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-4-12 18:43:58

MegaTTS3 V2版 - 支持50系显卡字节开源高保真语音克隆、文本转语音软件中英混搭无缝切换本地一键整合包下载

MegaTTS3 是字节跳动开源的文本转语音（TTS）模型，以0.45B参数规模实现高质量中英双语合成与语音克隆。MegaTTS3 不仅能在普通的设备上流畅运行，还能生成自然、逼真的语音，支持中英混合场景和灵活的口音控制。真正实现了轻量化和高质量两者兼得的特点。

今天分享的 MegaTTS3 V2版，新增50系显卡支持，同步官方最新源代码，修复了上个版本标点符号停顿不生效的问题、修复了长文本生成问题。

项目特点
高效轻量级 TTS：仅 0.45B（4.5 亿）参数，相比大规模 TTS 模型，更轻量、更易部署。
高质量语音克隆：可模拟目标说话人的音色、语气、节奏，生成高度拟真的合成语音。
中英文混合更自然：解决“英式腔调 vs. 美式腔调”不自然切换问题，让不同语言的切换更丝滑。
口音强度控制：允许调整口音强度，让用户根据需要选择更偏母语或更偏目标语言的发音方式。

应用场景‌ ‌
个性化语音生成‌语音助手、虚拟主播等场景中生成与特定人物音色一致的语音‌。 ‌
多媒体内容创作‌自动化生成影视配音、有声读物，降低人工录制成本‌。 ‌
实时交互系统‌结合低延迟流式处理技术，适用于在线教育、客服机器人等实时语音交互需求‌。 ‌
跨语言服务‌中英双语支持可应用于全球化产品（如跨国企业客服、多语言导航系统）

使用教程：(建议N卡，显存6G起。基于CUDA12.8)
上传参考音频和NPY文件，官方介绍，处于安全目的，目前只支持固定的示例音色生成，暂不支持上传自己的音色（可以把参考音频提交给官方，由官方审核通过，生成NPY才能使用）
最后生成。
优点实测效果非常惊艳，几乎是一比一的复刻。这也是为什么不支持自定义音色的原因吧。缺点是不支持上传自定义音色。
内置的几种音色保存在一键包目录下的assets里

自定义音色获取npy上传地址：https://drive.google.com/drive/f ... FhUX_OW5MbcFuB7J5Cl
审核通过后，可以在这里找到对应的npy文件：https://drive.google.com/drive/f ... jgqZX1YM3I6i9u4oNlr

下载地址：
夸克网盘：https://pan.quark.cn/s/52f1d8d727a6
百度网盘：**** 本内容需购买 ****

解压密码：https://deepface.cc/ 复制这个完整的网址即是解压密码，不要有空格，复制粘贴即可

cyizb425 发表于 2025-4-13 00:16:44

有更新了，先来试试~

cyizb425 发表于 2025-4-15 10:58:33

还是用回V1版了。V2版的python310.dll报木马病毒。

datoudongdong 发表于 2025-4-17 09:09:00

是不是在运行时需要访问国外的服务器？两个版本我都试用了，一直在运转无法生成，是不是版主忘了说需要网络翻墙？

datoudongdong 发表于 2025-4-17 09:16:26

cyizb425 发表于 2025-4-15 10:58
还是用回V1版了。V2版的python310.dll报木马病毒。

为什么我的一直在生成，却出不了结果？你的网络能翻墙吗？

lujun1996 发表于 2025-5-27 14:03:33

字节也有这款高效的AI语音，真是有福了

页: [1]

前沿AI软件资源站's Archiver

MegaTTS3 V2版 - 支持50系显卡 字节开源高保真语音克隆、文本转语音软件 中英混搭无缝切换 本地一键整合包下载

MegaTTS3 V2版 - 支持50系显卡字节开源高保真语音克隆、文本转语音软件中英混搭无缝切换本地一键整合包下载