F5-TTS V3版 - API版，上海交大最新零样本语音克隆，文本转语音本地一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2024-10-29 22:56:03

F5-TTS V3版 - API版，上海交大最新零样本语音克隆，文本转语音本地一键整合包下载

F5-TTS是来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音（TTS）系统，名为 F5-TTS。这种系统的特别之处在于，它采用了一种无自回归的方法，结合了流匹配与扩散变换器(DiT)，成功简化了传统 TTS 模型中的复杂步骤。

和之前分享的的FishSpeech、ChatTTS、CosyVoice、SeedVC 以及 FireRedTTS 等项目类似，都是支持0样本声音克隆和文本转语音。

该模型经过100K小时的广泛数据训练，使其能够执行零训练语音克隆并轻松支持多语言语音，目前支持中文和英文两种语种，划重点，开源可商用。且支持训练模型。

今天分享的F5-TTS V3版，新增api，方便对接三方软件。api功能由 pyvideotrans 作者jianchang512开发。新增faster-whisper模型用于自动识别参考音频，简化WebUI，操作更简单。
默认集成了CUDA和CUDNN，无需手动配置，解压即用。

使用教程：

这里只说下api使用，双击启动api，启动api服务，接口地址是http://127.0.0.1:5010/api
api使用示例
import requests

res=requests.post('http://127.0.0.1:5010/api',data={
"ref_text": '古老星系中发现了有机分子，我们离第三类接触还有多远呢',
"gen_text": '今天是个好日子，外面下了大暴雨，海水也冲上了岸。',
"model": 'f5-tts'
},files={"audio":open('c:/users/c1/videos/5s.wav','rb')})

if res.status_code!=200:
print(res.text)
exit()

with open("ceshi.wav",'wb') as f:
f.write(res.content)

下载地址：（下载前，请先阅读使用说明再下载，避免不必要的问题和纠纷）
夸克网盘：https://pan.quark.cn/s/e7fabd2790a4 使用教程：https://pan.baidu.com/s/11Wgp7zUVqY9JOgG5PdX_ew?pwd=xir9
百度网盘：
**** 本内容需购买 ****

nsctt 发表于 2024-10-30 08:03:33

又出新版本，期待着，谢谢

ffgyooo 发表于 2024-10-30 10:32:48

这个好，api很实用

tdwfwsk 发表于 2024-11-2 02:21:50

合成效果反而不如V2

peter5258 发表于 2024-11-2 19:05:29

升级了什么。

aide1234 发表于 2024-11-3 14:10:17

怎么压缩了启动老是报错，提示任意键继续

无言以对 发表于 2024-11-3 15:07:01

aide1234 发表于 2024-11-3 14:10
怎么压缩了启动老是报错，提示任意键继续

下载前，请先阅读使用说明再下载

401890440 发表于 2025-5-7 00:36:31

"ref_text": '古老星系中发现了有机分子，我们离第三类接触还有多远呢',
"gen_text": '今天是个好日子，外面下了大暴雨，海水也冲上了岸。',

哪一个是参考文本？哪一个是合成文本？

zhangsir58 发表于 2025-5-9 09:11:04

试试f5的api推理速度快不快:)

401890440 发表于 2025-5-21 20:32:57

本帖最后由 401890440 于 2025-5-21 20:52 编辑

这个大模型为什么时间都是用英文播报的？比如17：20分，他就播报的全是英文。这个再哪里修改？

还有2位数的数字也都是用英文播报的，这样要在哪里去修改？

页: [1]

前沿AI软件资源站's Archiver

F5-TTS V3版 - API版，上海交大最新零样本语音克隆，文本转语音 本地一键整合包下载

F5-TTS V3版 - API版，上海交大最新零样本语音克隆，文本转语音本地一键整合包下载