无言以对 发表于 2025-3-31 14:49:17

MegaTTS3 - 字节开源高保真语音克隆、文本转语音软件 中英混搭无缝切换 本地一键整合包下载



MegaTTS3 是字节跳动于2025年3月开源的文本转语音(TTS)模型,以0.45B参数规模实现高质量中英双语合成与语音克隆。MegaTTS3 不仅能在普通的设备上流畅运行,还能生成自然、逼真的语音,支持中英混合场景和灵活的口音控制。真正实现了轻量化和高质量两者兼得的特点。

项目特点
高效轻量级 TTS:仅 0.45B(4.5 亿)参数,相比大规模 TTS 模型,更轻量、更易部署。
高质量语音克隆:可模拟目标说话人的音色、语气、节奏,生成高度拟真的合成语音。
中英文混合更自然:解决“英式腔调 vs. 美式腔调”不自然切换问题,让不同语言的切换更丝滑。
口音强度控制:允许调整口音强度,让用户根据需要选择更偏母语或更偏目标语言的发音方式。

应用场景‌ ‌
个性化语音生成‌语音助手、虚拟主播等场景中生成与特定人物音色一致的语音‌。 ‌
多媒体内容创作‌自动化生成影视配音、有声读物,降低人工录制成本‌。 ‌
实时交互系统‌结合低延迟流式处理技术,适用于在线教育、客服机器人等实时语音交互需求‌。 ‌
跨语言服务‌中英双语支持可应用于全球化产品(如跨国企业客服、多语言导航系统)


使用教程:(建议N卡,显存6G起。基于CUDA11.8)
上传参考音频和NPY文件,官方介绍,处于安全目的,目前只支持固定的示例音色生成,暂不支持上传自己的音色(可以把参考音频提交给官方,由官方审核通过,生成NPY才能使用)
最后生成。
优点实测效果非常惊艳,几乎是一比一的复刻。这也是为什么不支持自定义音色的原因吧。缺点是不支持上传自定义音色。
内置的几种音色保存在一键包目录下的assets里


下载地址:
夸克网盘:https://pan.quark.cn/s/7fb16205f1e0
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

cyizb425 发表于 2025-3-31 14:56:36

期待!目前其他的TTS都或多或少有点问题,在中英文混杂的情况下,阿拉伯数字、特殊字符、英文简称等都转得不太好。

touvidia 发表于 2025-4-1 18:35:21

主界面除了让上传音频之外,还让上传一个.npy文件,这个是啥呢?
我试着不上传这个文件去生成,他就提示我说 Please provide latent_file in WaveVAE decoder-only mode。

来日方长 发表于 2025-4-1 22:36:48

touvidia 发表于 2025-4-1 18:35
主界面除了让上传音频之外,还让上传一个.npy文件,这个是啥呢?
我试着不上传这个文件去生成,他就提示我 ...

帖子内容你是一句不看啊

datoudongdong 发表于 2025-4-3 08:26:39

来日方长 发表于 2025-4-1 22:36
帖子内容你是一句不看啊

能不能介绍一下,这个上传给官方审核通过怎么操作?

来日方长 发表于 2025-4-4 22:21:43

datoudongdong 发表于 2025-4-3 08:26
能不能介绍一下,这个上传给官方审核通过怎么操作?

官方提供了一个网盘,谷歌网盘,你把音频上传到网盘,等他给你生成一个对应的npy音色文件

touvidia 发表于 2025-4-8 09:44:50

来日方长 发表于 2025-4-4 22:21
官方提供了一个网盘,谷歌网盘,你把音频上传到网盘,等他给你生成一个对应的npy音色文件 ...

原来如此。那这样看来这个软件用起来还不是那么便捷。而且是不是还得爬梯子?

来日方长 发表于 2025-4-11 19:28:46

touvidia 发表于 2025-4-8 09:44
原来如此。那这样看来这个软件用起来还不是那么便捷。而且是不是还得爬梯子? ...

说是安全考虑,简直就是脱裤子放屁
页: [1]
查看完整版本: MegaTTS3 - 字节开源高保真语音克隆、文本转语音软件 中英混搭无缝切换 本地一键整合包下载