F5-TTS V5版 - 更新更强的V1模型,提升推理和训练效果。零样本免训练语音克隆,文本转语音 本地一键整合包下载
F5-TTS 是来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音(TTS)系统,名为 F5-TTS。这种系统的特别之处在于,它采用了一种无自回归的方法,结合了流匹配与扩散变换器(DiT),成功简化了传统 TTS 模型中的复杂步骤。
F5-TTS 和之前分享的的FishSpeech、ChatTTS、CosyVoice、SeedVC 以及 FireRedTTS 等项目类似,主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。
F5-TTS 包含两种语音模型,F5-TTS和E2-TTS,应用较多且成熟的是F5-TTS,E2-TTS在某些场景下,也有不错的推理效果,大家可以多对比尝试。E2-TTS,全称为「Embarrassingly Easy Text-to-Speech」,是一种先进的文本转语音 (TTS) 系统,它通过简化的流程实现了人类水平的自然度和说话人相似性。E2 TTS 的核心在于它完全非自回归的特性,这意味着它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出。
今天分享的 F5-TTS V5版,主要包含以下内容:
同步更新了官方最新的 FT-TTS V1模型,推理和训练速度更快,效果更好;
同步官方源代码;
torch和cuda分别更新至torch2.4和cuda12.4,更新其他依赖;
新增更多错误提示信息,体验更加友好。
因新版主要新了推理模型,所以该版只做了推理启动。如需微调模型,请下载 F5-TTS V4版
使用教程:(支持CPU和独显,如需更快的推理速度,建议N卡,显存4G起。基于CUDA12.4)
视频教程:https://www.toutiao.com/video/7481297677348389385/
语音克隆:选择模型,包含F5-TTS和E2-TTS,上传参考音频,输入要合成的文本,提交合成即可。
多人会话:根据页面提示,分别上传多人参考音频,输入情感标签和合成文本,提交合成即可。
语音聊天:加载大语言模型,模型会自动下载,默认使用阿里Qwen2.5-3B模型,等待模型下载完成,即可上传参考音频,和机器人实现语音对话。
注意事项:如果您遇到问题,请尝试将参考音频转换为 WAV 或 MP3,将其剪辑为 15 秒(否则可能会产生非最佳自动修剪结果);如果未提供参考文本,将使用 Whisper 自动转录。为获得最佳效果,请保持参考音频(<15秒)。确保在生成之前完全上传音频。
如遇 ‘ModuleNotFoundError: No module named 'f5_tts'’ 错误,可下载此补丁:https://pan.quark.cn/s/40b70b834682复制到一键包目录,右键,解压到当前文件夹,根据提示覆盖。再运行一键启动。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOLEnGFjDnSMZAEyr7TjeXjjA1?pwd=dkf7
夸克网盘:**** 本内容需购买 ****
百度网盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可。
新版本加入阿里Qwen2.5-3B,这样应该功能强大点吧,谢谢楼主分享 Traceback (most recent call last):
File "G:\Ai\F5-TTS-V5\deepface\lib\runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "G:\Ai\F5-TTS-V5\deepface\lib\runpy.py", line 86, in _run_code
exec(code, run_globals)
File "G:\Ai\F5-TTS-V5\src\f5_tts\infer\infer_gradio.py", line 33, in <module>
from f5_tts.model import DiT, UNetT
ModuleNotFoundError: No module named 'f5_tts'
请按任意键继续. . .
运行显示上面错误,是什么原因? szfjm 发表于 2025-3-14 12:19
Traceback (most recent call last):
File "G:\Ai\F5-TTS-V5\deepface\lib\runpy.py", line 196, in _run ...
刷新帖子,下载补丁覆盖 Traceback (most recent call last):
File "F:\F5-TTS-V5\deepface\lib\runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "F:\F5-TTS-V5\deepface\lib\runpy.py", line 86, in _run_code
exec(code, run_globals)
File "F:\F5-TTS-V5\src\f5_tts\infer\infer_gradio.py", line 14, in <module>
import torchaudio
File "F:\F5-TTS-V5\deepface\lib\site-packages\torchaudio\__init__.py", line 2, in <module>
from . import _extension# noqa# usort: skip
File "F:\F5-TTS-V5\deepface\lib\site-packages\torchaudio\_extension\__init__.py", line 5, in <module>
from torchaudio._internal.module_utils import fail_with_message, is_module_available, no_op
File "F:\F5-TTS-V5\deepface\lib\site-packages\torchaudio\_internal\__init__.py", line 4, in <module>
from torch.hub import download_url_to_file, load_state_dict_from_url
File "F:\F5-TTS-V5\deepface\lib\site-packages\torch\__init__.py", line 148, in <module>
raise err
OSError: 找不到指定的模块。 Error loading "F:\F5-TTS-V5\deepface\lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.
请按任意键继续. . .
运行显示上面错误,是什么原因? 补丁覆盖后还是出现下面错误:
Traceback (most recent call last):
File "G:\Ai\F5-TTS-V5\deepface\lib\runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "G:\Ai\F5-TTS-V5\deepface\lib\runpy.py", line 86, in _run_code
exec(code, run_globals)
File "G:\Ai\F5-TTS-V5\src\f5_tts\infer\infer_gradio.py", line 33, in <module>
from src.f5_tts.model import DiT, UNetT
File "G:\Ai\F5-TTS-V5\src\f5_tts\model\__init__.py", line 1, in <module>
from f5_tts.model.cfm import CFM
ModuleNotFoundError: No module named 'f5_tts'
请按任意键继续. . . jkdz 发表于 2025-3-14 14:16
Traceback (most recent call last):
File "F:\F5-TTS-V5\deepface\lib\runpy.py", line 196, in _run_mo ...
https://deepface.cc/thread-523-1-1.html
新人必看里的其他部分也去看下,避免日后遇到。 szfjm 发表于 2025-3-14 14:36
补丁覆盖后还是出现下面错误:
Traceback (most recent call last):
再刷新,下载新的覆盖 无言以对 发表于 2025-3-14 15:12
再刷新,下载新的覆盖
可以了,谢谢 速度快了但音质却变差了(对比老版本)。