无言以对 发表于 2025-6-9 11:23:29

GPT-SoVITS V2 Pro - 更新V2Pro模型 支持50系显卡 业界最强的AI语音克隆、文本转语音软件 一键整合包下载

GPT-SoVITS 软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面世,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。业界开源的TTS千千万,看的人眼花缭乱,但综合能力最强的,只有 GPT-SoVITS,没有之一。
今天分享的GPT-SoVITS V2 Pro版,同步官方最新的V2 Pro模型,零样本推理效果更好,随之显存占用更高了。
V2 Pro更新内容:新特性:相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质. V1/V2 与 V2Pro 系列具有相同特性, V3/V4 则具备相近功能. 对于平均音频质量较低的训练集, V1/V2/V2Pro 可以取得较好的效果, 但 V3/V4 无法做到. 此外, V3/V4 合成的声音更偏向参考音频, 而不是整体训练集的风格.

各版本特性对比


软件下载后,解压出来,建议解压到非中文目录下,切记!在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,1-3分钟左右即可。
素材的质量,决定合成的效果。
解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。模型训练更多操作,可以参考 GPT-SoVITS V2版该版同样支持零样本一键语音克隆,进入webui界面后,切换到1-GPT-SoVITS-TTS/1C-推理,点击“开启TTS推理WebUI”即可进入页面
UI最上方有官方的使用教程手册,想系统的学习可以参考:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

下载地址:
https://pan.baidu.com/s/1f57lBfDHdD8SmNIUPbSBoA?pwd=7b5w

vistaqq 发表于 2025-6-9 12:34:02

谢谢分享,第一时间上手体验

lujun1996 发表于 2025-6-9 13:44:36

变声器,这种类型的还没有尝试过,今天试一试

shao12138 发表于 2025-6-9 16:55:41

测试起来,语气上确实有改进,但是听起来效果不如 Fish-Speech
与原始语音余弦相似度:
yuan.WAV:1.0000
Fish-speech.wav:0.9961
MinMax.mp3:0.9845
GPT-SoVITS-v2.wav:0.9806
CosyVoice2.wav:0.9738
MegaTTS.wav:0.9734
F5-TTS.wav:0.9717
E2-TTS.wav:0.9708
MaskGCT.wav:0.9185

无言以对 发表于 2025-6-9 17:02:37

shao12138 发表于 2025-6-9 16:55
测试起来,语气上确实有改进,但是听起来效果不如 Fish-Speech
与原始语音余弦相似度:
yuan.WAV:1.0000


GPT-SoVITS 主要是用来微调训练的,几分钟的样本,训练个把小时就有惊人的效果。

shao12138 发表于 2025-6-10 11:03:33

无言以对 发表于 2025-6-9 17:02
GPT-SoVITS 主要是用来微调训练的,几分钟的样本,训练个把小时就有惊人的效果。 ...

这样啊,我是3s克隆的,训练这块还没尝试过。

目前支持训练的:GPT-SoVITS、F5-TTS,后面尝试一下结果再对比一下。

andrewtangcm 发表于 2025-6-10 15:30:08

请问一下多音字或更改特定词组的发音可以怎样处理?
粤语和国语

lujun1996 发表于 2025-6-10 18:46:00

无言以对 发表于 2025-6-9 17:02
GPT-SoVITS 主要是用来微调训练的,几分钟的样本,训练个把小时就有惊人的效果。 ...

老大,如何训练呢?已经下载完毕啦

touvidia 发表于 2025-6-11 12:20:02

pro 和 pro plus 的主要区别是啥?
页: [1]
查看完整版本: GPT-SoVITS V2 Pro - 更新V2Pro模型 支持50系显卡 业界最强的AI语音克隆、文本转语音软件 一键整合包下载