找回密码
 立即注册
查看: 2145|回复: 5

MaskGCT - 媲美人声的语音大模型,零样本语音克隆,文本转语音大模型 本地一键整合包下载

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2024-11-1 09:08:47 | 显示全部楼层 |阅读模式

MaskGCT - 5 秒语音实现跨语言声音克隆新突破,零样本语音克隆,文本转语音大模型 本地一键整合包下载 ... ...

MaskGCT - 5 秒语音实现跨语言声音克隆新突破,零样本语音克隆,文本转语音大模型 本地一键整合包下载 ...  ...


近期,趣丸科技发布了名为MaskGCT的全新语音合成(TTS)模型,该模型在语音质量、相似度和可控性方面取得了显著突破,直接颠覆了传统语音合成(TTS)的玩法,让AI彻底摆脱了对人工标注的依赖,实现了真正意义上的“自学成才”。

由趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。

秒级超逼真的声音克隆:提供 3 秒音频样本即可复刻人类、动漫、「耳边细语」等任意音色,且能完整复刻语调、风格和情感。更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。

高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的 10 万小时数据集 Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德 6 种语言的跨语种合成。


据介绍,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,性能超过当前最先进的同类模型,某些指标甚至超过人类水平。显著特点如下:

  1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。

  2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。

  3、高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。


MaskGCT的另一个牛逼之处在于,它可以像人一样灵活地控制语音的时长,想快就快,想慢就慢。这对于需要进行配音或语音编辑的场景来说,简直是福音。

实验结果也证明了MaskGCT的实力。在语音质量、相似度、韵律和清晰度方面,它都吊打了现有的各种TTS系统,甚至达到了可以跟真人媲美的水平。

更可怕的是,MaskGCT不仅能生成高质量的语音,还能模仿不同说话者的风格,甚至可以跨语言进行语音翻译,简直就是一个六边形战士。

当然,MaskGCT目前还有一些局限性,比如在处理大幅度面部姿势的语音合成时,可能会出现一些瑕疵。但瑕不掩瑜,MaskGCT的出现,无疑为TTS领域开辟了新的天地,也为我们未来的人机交互体验带来了无限的想象空间。


官方案例:

参考音频
icl_10.mp3 (659.66 KB, 下载次数: 0)

生成案例1(同语种)
icl_11.mp3 (865.42 KB, 下载次数: 0)

生成案例2(跨语种)
icl_12.mp3 (1.1 MB, 下载次数: 0)


说明:主体环境和模型都已经打包,但是还是需要手动安装一个三方辅助软件,并手动配置环境变量。适合喜欢折腾的人,有动手能力的小伙伴可以尝试,动手能力差的就建议别轻易尝试。


手动操作步骤:
1、双击安装一键包里的 espeak-ng-X64.msi 文件,无脑下一步完成,不要更改路径;
2、手动添加环境变量,变量名 PHONEMIZER_ESPEAK_LIBRARY ,值 C:\Program Files\eSpeak NG\libespeak-ng.dll ;
手动添加环境变量教程:https://jingyan.baidu.com/article/af9f5a2d5ecb8502150a4522.html (以win11为例,win10操作类似)


下载地址:
夸克网盘:https://pan.quark.cn/s/896876a21cfc
百度网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源立即购买

DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

158

回帖

244

积分

江湖少侠

积分
244
发表于 2024-11-1 10:38:56 | 显示全部楼层
期待一键包

签到天数: 1 天

[LV.1]初来乍到

0

主题

34

回帖

214

积分

江湖少侠

积分
214
发表于 2024-11-1 10:55:24 | 显示全部楼层
听起来似乎不错

该用户从未签到

0

主题

19

回帖

126

积分

无名之辈

积分
126
发表于 2024-11-1 21:00:15 | 显示全部楼层
听说对显存有点要求,几天前B站好像有人发一键包,不知是否一样,还是名字接近。

该用户从未签到

0

主题

103

回帖

130

积分

无名之辈

积分
130
发表于 2024-11-3 18:41:50 | 显示全部楼层
我在B站上下到一个,8G显存还是运行不了

该用户从未签到

0

主题

2

回帖

10

积分

初入江湖

积分
10
发表于 2024-11-16 23:50:42 | 显示全部楼层
这个能用吗?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-19 08:00 , Processed in 0.092014 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表