MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型本地一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2024-11-1 09:08:47

MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型本地一键整合包下载

近期，趣丸科技发布了名为MaskGCT的全新语音合成（TTS）模型，该模型在语音质量、相似度和可控性方面取得了显著突破，直接颠覆了传统语音合成(TTS)的玩法，让AI彻底摆脱了对人工标注的依赖，实现了真正意义上的“自学成才”。

由趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。

秒级超逼真的声音克隆：提供 3 秒音频样本即可复刻人类、动漫、「耳边细语」等任意音色，且能完整复刻语调、风格和情感。更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。

高质量多语种语音数据集：训练于香港中文大学（深圳）和趣丸科技等机构联合推出的 10 万小时数据集 Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，精通中英日韩法德 6 种语言的跨语种合成。

据介绍，MaskGCT在三个TTS基准数据集上都达到了SOTA效果，性能超过当前最先进的同类模型，某些指标甚至超过人类水平。显著特点如下：　　1、秒级超逼真的声音克隆：提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感。　　2、更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。　　3、高质量多语种语音数据集：训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，精通中英日韩法德6种语言的跨语种合成。
MaskGCT的另一个牛逼之处在于，它可以像人一样灵活地控制语音的时长，想快就快，想慢就慢。这对于需要进行配音或语音编辑的场景来说，简直是福音。实验结果也证明了MaskGCT的实力。在语音质量、相似度、韵律和清晰度方面，它都吊打了现有的各种TTS系统，甚至达到了可以跟真人媲美的水平。更可怕的是，MaskGCT不仅能生成高质量的语音，还能模仿不同说话者的风格，甚至可以跨语言进行语音翻译，简直就是一个六边形战士。当然，MaskGCT目前还有一些局限性，比如在处理大幅度面部姿势的语音合成时，可能会出现一些瑕疵。但瑕不掩瑜，MaskGCT的出现，无疑为TTS领域开辟了新的天地，也为我们未来的人机交互体验带来了无限的想象空间。
官方案例：

参考音频

生成案例1（同语种）

生成案例2（跨语种）

说明：主体环境和模型都已经打包，但是还是需要手动安装一个三方辅助软件，并手动配置环境变量。适合喜欢折腾的人，有动手能力的小伙伴可以尝试，动手能力差的就建议别轻易尝试。

手动操作步骤：
1、双击安装一键包里的 espeak-ng-X64.msi 文件，无脑下一步完成，不要更改路径；
2、手动添加环境变量，变量名 PHONEMIZER_ESPEAK_LIBRARY ，值 C:\Program Files\eSpeak NG\libespeak-ng.dll ；
手动添加环境变量教程：https://jingyan.baidu.com/article/af9f5a2d5ecb8502150a4522.html （以win11为例，win10操作类似）

下载地址：
夸克网盘：https://pan.quark.cn/s/896876a21cfc
百度网盘：
**** 本内容需购买 ****

nsctt 发表于 2024-11-1 10:38:56

期待一键包

ffgyooo 发表于 2024-11-1 10:55:24

听起来似乎不错

tdwfwsk 发表于 2024-11-1 21:00:15

听说对显存有点要求，几天前B站好像有人发一键包，不知是否一样，还是名字接近。

szfjm 发表于 2024-11-3 18:41:50

我在B站上下到一个，8G显存还是运行不了

leibing9816 发表于 2024-11-16 23:50:42

这个能用吗？

页: [1]

前沿AI软件资源站's Archiver

MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型 本地一键整合包下载

MaskGCT - 媲美人声的语音大模型，零样本语音克隆，文本转语音大模型本地一键整合包下载