MaskGCT - 5 秒语音实现跨语言声音克隆新突破,零样本语音克隆,文本转语音大模型 本地一键整合包下载 ... ...
近期,趣丸科技发布了名为MaskGCT的全新语音合成(TTS)模型,该模型在语音质量、相似度和可控性方面取得了显著突破,直接颠覆了传统语音合成(TTS)的玩法,让AI彻底摆脱了对人工标注的依赖,实现了真正意义上的“自学成才”。
由趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。
秒级超逼真的声音克隆:提供 3 秒音频样本即可复刻人类、动漫、「耳边细语」等任意音色,且能完整复刻语调、风格和情感。更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。
高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的 10 万小时数据集 Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德 6 种语言的跨语种合成。
据介绍,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,性能超过当前最先进的同类模型,某些指标甚至超过人类水平。显著特点如下: 1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。 2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。 3、高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。
MaskGCT的另一个牛逼之处在于,它可以像人一样灵活地控制语音的时长,想快就快,想慢就慢。这对于需要进行配音或语音编辑的场景来说,简直是福音。 实验结果也证明了MaskGCT的实力。在语音质量、相似度、韵律和清晰度方面,它都吊打了现有的各种TTS系统,甚至达到了可以跟真人媲美的水平。 更可怕的是,MaskGCT不仅能生成高质量的语音,还能模仿不同说话者的风格,甚至可以跨语言进行语音翻译,简直就是一个六边形战士。 当然,MaskGCT目前还有一些局限性,比如在处理大幅度面部姿势的语音合成时,可能会出现一些瑕疵。但瑕不掩瑜,MaskGCT的出现,无疑为TTS领域开辟了新的天地,也为我们未来的人机交互体验带来了无限的想象空间。
官方案例:
参考音频
icl_10.mp3
(659.66 KB, 下载次数: 0)
生成案例1(同语种)
icl_11.mp3
(865.42 KB, 下载次数: 0)
生成案例2(跨语种)
icl_12.mp3
(1.1 MB, 下载次数: 0)
说明:主体环境和模型都已经打包,但是还是需要手动安装一个三方辅助软件,并手动配置环境变量。适合喜欢折腾的人,有动手能力的小伙伴可以尝试,动手能力差的就建议别轻易尝试。
手动操作步骤:
1、双击安装一键包里的 espeak-ng-X64.msi 文件,无脑下一步完成,不要更改路径;
2、手动添加环境变量,变量名 PHONEMIZER_ESPEAK_LIBRARY ,值 C:\Program Files\eSpeak NG\libespeak-ng.dll ;
手动添加环境变量教程:https://jingyan.baidu.com/article/af9f5a2d5ecb8502150a4522.html (以win11为例,win10操作类似)
下载地址:
夸克网盘:https://pan.quark.cn/s/896876a21cfc
百度网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源 立即购买
|