GPT-SoVITS V2 Pro - 更新V2Pro模型支持50系显卡业界最强的AI语音克隆、文本转语音软件一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-6-9 11:23:29

GPT-SoVITS V2 Pro - 更新V2Pro模型支持50系显卡业界最强的AI语音克隆、文本转语音软件一键整合包下载

GPT-SoVITS 软件由RVC变声器创始人“花儿不哭”大佬开发，GPT-SoVITS的面世，彻底结束了语音克隆被商业垄断的历史，只要你有一张显卡，也能玩曾经高大上的语音克隆了。业界开源的TTS千千万，看的人眼花缭乱，但综合能力最强的，只有 GPT-SoVITS，没有之一。
今天分享的GPT-SoVITS V2 Pro版，同步官方最新的V2 Pro模型，零样本推理效果更好，随之显存占用更高了。
V2 Pro更新内容：新特性：相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质. V1/V2 与 V2Pro 系列具有相同特性, V3/V4 则具备相近功能. 对于平均音频质量较低的训练集, V1/V2/V2Pro 可以取得较好的效果, 但 V3/V4 无法做到. 此外, V3/V4 合成的声音更偏向参考音频, 而不是整体训练集的风格.

各版本特性对比

软件下载后，解压出来，建议解压到非中文目录下，切记！在所有操作前，准备好需要克隆的声音素材，要求无杂音，吐齿清晰，1-3分钟左右即可。
素材的质量，决定合成的效果。
解压后，运行 go-webui.bat，即可启动webUI界面，后期所有的操作，就在整个页面进行。模型训练更多操作，可以参考 GPT-SoVITS V2版该版同样支持零样本一键语音克隆，进入webui界面后，切换到1-GPT-SoVITS-TTS/1C-推理，点击“开启TTS推理WebUI”即可进入页面
UI最上方有官方的使用教程手册，想系统的学习可以参考：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

下载地址：
https://pan.baidu.com/s/1f57lBfDHdD8SmNIUPbSBoA?pwd=7b5w

vistaqq 发表于 2025-6-9 12:34:02

谢谢分享，第一时间上手体验

lujun1996 发表于 2025-6-9 13:44:36

变声器，这种类型的还没有尝试过，今天试一试

shao12138 发表于 2025-6-9 16:55:41

测试起来，语气上确实有改进，但是听起来效果不如 Fish-Speech
与原始语音余弦相似度：
yuan.WAV：1.0000
Fish-speech.wav：0.9961
MinMax.mp3：0.9845
GPT-SoVITS-v2.wav：0.9806
CosyVoice2.wav：0.9738
MegaTTS.wav：0.9734
F5-TTS.wav：0.9717
E2-TTS.wav：0.9708
MaskGCT.wav：0.9185

无言以对 发表于 2025-6-9 17:02:37

shao12138 发表于 2025-6-9 16:55
测试起来，语气上确实有改进，但是听起来效果不如 Fish-Speech
与原始语音余弦相似度：
yuan.WAV：1.0000

GPT-SoVITS 主要是用来微调训练的，几分钟的样本，训练个把小时就有惊人的效果。

shao12138 发表于 2025-6-10 11:03:33

无言以对发表于 2025-6-9 17:02
GPT-SoVITS 主要是用来微调训练的，几分钟的样本，训练个把小时就有惊人的效果。 ...

这样啊，我是3s克隆的，训练这块还没尝试过。

目前支持训练的：GPT-SoVITS、F5-TTS，后面尝试一下结果再对比一下。

andrewtangcm 发表于 2025-6-10 15:30:08

请问一下多音字或更改特定词组的发音可以怎样处理?
粤语和国语

lujun1996 发表于 2025-6-10 18:46:00

无言以对发表于 2025-6-9 17:02
GPT-SoVITS 主要是用来微调训练的，几分钟的样本，训练个把小时就有惊人的效果。 ...

老大，如何训练呢？已经下载完毕啦

touvidia 发表于 2025-6-11 12:20:02

pro 和 pro plus 的主要区别是啥？

页: [1]

前沿AI软件资源站's Archiver

GPT-SoVITS V2 Pro - 更新V2Pro模型 支持50系显卡 业界最强的AI语音克隆、文本转语音软件 一键整合包下载

GPT-SoVITS V2 Pro - 更新V2Pro模型支持50系显卡业界最强的AI语音克隆、文本转语音软件一键整合包下载