无言以对 发表于 2025-5-27 17:38:54

MegaTTS3 V3版 - 去除上传npy限制 真开源! 字节高保真语音克隆、文本转语音软件 支持50系显卡 本地一键整合包下载


MegaTTS3 是字节跳动开源的文本转语音(TTS)模型,以0.45B参数规模实现高质量中英双语合成与语音克隆。MegaTTS3 不仅能在普通的设备上流畅运行,还能生成自然、逼真的语音,支持中英混合场景和灵活的口音控制。真正实现了轻量化和高质量两者兼得的特点。

今天分享的 MegaTTS3 V3版,去除无法使用自定义音频生成限制,无需提交音频文件给官方获取npy文件,真开源 (官方版本使用自定义的音频克隆,需要提交音频文件给官方,等官方生成的npy音色文件才能使用。今天的V3版限制彻底去除上传npy限制,直接提交参考音频即可)。
新增50系显卡支持,同步官方最新源代码,修复了上个中文句号标点引发的生成问题。

项目特点
高效轻量级 TTS:仅 0.45B(4.5 亿)参数,相比大规模 TTS 模型,更轻量、更易部署。
高质量语音克隆:可模拟目标说话人的音色、语气、节奏,生成高度拟真的合成语音。
中英文混合更自然:解决“英式腔调 vs. 美式腔调”不自然切换问题,让不同语言的切换更丝滑。
口音强度控制:允许调整口音强度,让用户根据需要选择更偏母语或更偏目标语言的发音方式。

应用场景‌ ‌
个性化语音生成‌语音助手、虚拟主播等场景中生成与特定人物音色一致的语音‌。 ‌
多媒体内容创作‌自动化生成影视配音、有声读物,降低人工录制成本‌。 ‌
实时交互系统‌结合低延迟流式处理技术,适用于在线教育、客服机器人等实时语音交互需求‌。 ‌
跨语言服务‌中英双语支持可应用于全球化产品(如跨国企业客服、多语言导航系统)


使用教程:(建议N卡,显存6G起。CPU亦可,速度较慢。支持50系显卡,基于CUDA12.8)

上传参考音频,设置参数,最后点 生成。
优点实测效果非常惊艳,几乎是一比一的复刻。


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOSNmv9999cSiDuhiJnK-UIjA1?pwd=cx6x
百度网盘:**** 本内容需购买 ****

解压密码:https://deepfaces.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

JohnTeddy 发表于 2025-5-27 19:27:39

6666,这个好!!!!

cyizb425 发表于 2025-5-27 23:22:46

上个版本已经很好了,这个应该更不错~

dkjueshi 发表于 2025-5-28 03:22:43

你好,请问这个怎么解决
The name specified is not recognized as an internal or external command,
operable program or batch file.
Press any key to continue . . .

无言以对 发表于 2025-5-28 08:12:05

dkjueshi 发表于 2025-5-28 03:22
你好,请问这个怎么解决
The name specified is not recognized as an internal or external command,
oper ...

没下载完整或者下载破损
或者没解压完整

andrewtangcm 发表于 2025-5-28 11:12:05

語氣的確像了,但好像對粵語或方言無效!

lujun1996 发表于 2025-5-28 21:06:02

字节真是有良心的产品啊,必须要支持,只可惜昨天刚刚下载了V2版

0879sazabi 发表于 2025-6-1 09:30:44

LLVM ERROR: Symbol not found: __svml_cosf8_ha
老哥,运行后出现这个提示,这个要怎么解决啊?

无言以对 发表于 2025-6-1 10:12:39

0879sazabi 发表于 2025-6-1 09:30
LLVM ERROR: Symbol not found: __svml_cosf8_ha
老哥,运行后出现这个提示,这个要怎么解决啊? ...

顶部导航,新人必看里找

0879sazabi 发表于 2025-6-1 16:35:12

老哥,按新人必看里都全部重新安装了一遍,还是报错,郁闷啊!
F:\MegaTTS3-V3\deepface\lib\site-packages\torch\nn\utils\weight_norm.py:143: FutureWarning: `torch.nn.utils.weight_norm` is deprecated in favor of `torch.nn.utils.parametrizations.weight_norm`.
WeightNorm.apply(module, name, dim)
| loaded 'model_gen' from './checkpoints\wavvae/model_only_last.ckpt'.
| Missing keys: 0, Unexpected keys: 0
2025-06-01 16:33:16,513 WETEXT INFO found existing fst: F:\MegaTTS3-V3\deepface\lib\site-packages\tn\zh_tn_tagger.fst
2025-06-01 16:33:16,513 WETEXT INFO                     F:\MegaTTS3-V3\deepface\lib\site-packages\tn\zh_tn_verbalizer.fst
2025-06-01 16:33:16,513 WETEXT INFO skip building fst for zh_normalizer ...
2025-06-01 16:33:16,764 WETEXT INFO found existing fst: F:\MegaTTS3-V3\deepface\lib\site-packages\tn\en_tn_tagger.fst
2025-06-01 16:33:16,764 WETEXT INFO                     F:\MegaTTS3-V3\deepface\lib\site-packages\tn\en_tn_verbalizer.fst
2025-06-01 16:33:16,764 WETEXT INFO skip building fst for en_normalizer ...
LLVM ERROR: Symbol not found: __svml_cosf8_ha
页: [1] 2
查看完整版本: MegaTTS3 V3版 - 去除上传npy限制 真开源! 字节高保真语音克隆、文本转语音软件 支持50系显卡 本地一键整合包下载