MaskGCT - 媲美人声的语音大模型,零样本语音克隆,文本转语音大模型 本地一键整合包下载
近期,趣丸科技发布了名为MaskGCT的全新语音合成(TTS)模型,该模型在语音质量、相似度和可控性方面取得了显著突破,直接颠覆了传统语音合成(TTS)的玩法,让AI彻底摆脱了对人工标注的依赖,实现了真正意义上的“自学成才”。
由趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。
秒级超逼真的声音克隆:提供 3 秒音频样本即可复刻人类、动漫、「耳边细语」等任意音色,且能完整复刻语调、风格和情感。更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。
高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的 10 万小时数据集 Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德 6 种语言的跨语种合成。
据介绍,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,性能超过当前最先进的同类模型,某些指标甚至超过人类水平。显著特点如下: 1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。 2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。 3、高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。
MaskGCT的另一个牛逼之处在于,它可以像人一样灵活地控制语音的时长,想快就快,想慢就慢。这对于需要进行配音或语音编辑的场景来说,简直是福音。实验结果也证明了MaskGCT的实力。在语音质量、相似度、韵律和清晰度方面,它都吊打了现有的各种TTS系统,甚至达到了可以跟真人媲美的水平。更可怕的是,MaskGCT不仅能生成高质量的语音,还能模仿不同说话者的风格,甚至可以跨语言进行语音翻译,简直就是一个六边形战士。当然,MaskGCT目前还有一些局限性,比如在处理大幅度面部姿势的语音合成时,可能会出现一些瑕疵。但瑕不掩瑜,MaskGCT的出现,无疑为TTS领域开辟了新的天地,也为我们未来的人机交互体验带来了无限的想象空间。
官方案例:
参考音频
生成案例1(同语种)
生成案例2(跨语种)
说明:主体环境和模型都已经打包,但是还是需要手动安装一个三方辅助软件,并手动配置环境变量。适合喜欢折腾的人,有动手能力的小伙伴可以尝试,动手能力差的就建议别轻易尝试。
手动操作步骤:
1、双击安装一键包里的 espeak-ng-X64.msi 文件,无脑下一步完成,不要更改路径;
2、手动添加环境变量,变量名 PHONEMIZER_ESPEAK_LIBRARY ,值 C:\Program Files\eSpeak NG\libespeak-ng.dll ;
手动添加环境变量教程:https://jingyan.baidu.com/article/af9f5a2d5ecb8502150a4522.html (以win11为例,win10操作类似)
下载地址:
夸克网盘:https://pan.quark.cn/s/896876a21cfc
百度网盘:
**** 本内容需购买 ****
期待一键包 听起来似乎不错 听说对显存有点要求,几天前B站好像有人发一键包,不知是否一样,还是名字接近。 我在B站上下到一个,8G显存还是运行不了 这个能用吗?
页:
[1]