F5-TTS - 上海交大最新零样本语音克隆,文本生成语音模型 本地一键整合包下载
F5-TTS是来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音(TTS)系统,名为 F5-TTS。这种系统的特别之处在于,它采用了一种无自回归的方法,结合了流匹配与扩散变换器(DiT),成功简化了传统 TTS 模型中的复杂步骤。
和之前分享的的FishSpeech、ChatTTS、CosyVoice、SeedVC等类似,都是支持0样本声音克隆和文本转语音。
该模型经过100K小时的广泛数据训练,使其能够执行零训练语音克隆并轻松支持多语言语音,目前支持中文和英文两种语种,划重点,开源可商用。且支持训练模型。
项目地址:https://github.com/SWivid/F5-TTS
使用教程:
如果您遇到问题,请尝试将参考音频转换为WAV或MP3,将其剪辑为15秒,并缩短提示时间。
注意:如果没有提供参考文本,将使用Whisper自动转录。为了获得最佳效果,请保持参考剪辑简短(<15秒)。在生成之前,确保音频已完全上传(识别可能不准,所以强烈建议手动输入参考文本)
下载地址:
夸克网盘:
https://pan.quark.cn/s/868c430304c5
百度网盘:
**** 本内容需购买 ****
又有新东西了,期待一键包 好东西,使用方便 支持地方语言吗 谢谢,使用了还不错,就是不能保存每个人的音色哦 gaodayong 发表于 2024-10-19 11:37
谢谢,使用了还不错,就是不能保存每个人的音色哦
cosyvoice支持音色保存 无言以对 发表于 2024-10-19 11:48
cosyvoice支持音色保存
是的,现在一直用的就是您的COSYVOICE V3比较稳定,就是长文本要试多几次语气的效果,这个F5tts语气生成的还是很不错的 什么是上上宾
梧桐细雨 发表于 2024-11-11 12:46
什么是上上宾
https://deepface.cc/thread-239-1-1.html 后期需要使用这个音色生成音频
页:
[1]
2