无言以对 发表于 2024-11-4 19:44:08

F5-TTS V4版 - 接入千问大语言模型,上海交大最新零样本语音克隆,文本转语音 本地一键整合包下载




F5-TTS是来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音(TTS)系统,名为 F5-TTS。这种系统的特别之处在于,它采用了一种无自回归的方法,结合了流匹配与扩散变换器(DiT),成功简化了传统 TTS 模型中的复杂步骤。

和之前分享的的FishSpeech、ChatTTS、CosyVoice、SeedVC 以及 FireRedTTS 等项目类似,都是支持0样本声音克隆和文本转语音。

该模型经过100K小时的广泛数据训练,使其能够执行零训练语音克隆并轻松支持多语言语音,目前支持中文和英文两种语种,划重点,开源可商用。且支持训练模型。


今天分享的F5-TTS V4版,优化模型微调,接入阿里千问(Qwen2.5-3B-Instruct)大语言模型,支持实时克隆语音对话。移除播客,多语音合成优化调整,精简部分无用功能。
2024年11月10日更新B版,解决微调训练报错问题。之前下载过,模型训练报错可以重新下载。


下载地址:(下载前,请先阅读 使用说明 再下载,避免不必要的问题和纠纷)
夸克网盘:
https://pan.quark.cn/s/ca4add8037d7
百度网盘:
**** 本内容需购买 ****

神龙影视 发表于 2024-11-4 19:47:40

支持大佬666

nsctt 发表于 2024-11-4 20:38:21

支持大佬,期待。。。

tdwfwsk 发表于 2024-11-4 23:00:46

想做为工具,模型微调还是必不可少。

tdwfwsk 发表于 2024-11-5 01:35:27

无法启动

-----------------------------------------------------
更多实用好玩的AI应用,访问 https://deepface.cc
软件 WebUI正在启动中,请稍后...
-----------------------------------------------------
Traceback (most recent call last):
File "F:\AI\F5-TTS-V4\src\f5_tts\infer\infer_gradio.py", line 30, in <module>
    from f5_tts.model import DiT, UNetT
ModuleNotFoundError: No module named 'f5_tts'
请按任意键继续. . .


szfjm 发表于 2024-11-5 11:39:32

tdwfwsk 发表于 2024-11-5 01:35
无法启动

-----------------------------------------------------


我也是遇到这个问题

maya2024 发表于 2024-11-5 17:39:12

无法启动

神龙影视 发表于 2024-11-5 19:49:32

缺少文件

无言以对 发表于 2024-11-5 20:18:19

maya2024 发表于 2024-11-5 17:39
无法启动
今天修复

tdwfwsk 发表于 2024-11-6 00:15:46

无言以对 发表于 2024-11-5 20:18
今天修复

多谢,已下,好用了,大佬辛苦!
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: F5-TTS V4版 - 接入千问大语言模型,上海交大最新零样本语音克隆,文本转语音 本地一键整合包下载