GPT-SoVITS V2 Pro - 更新V2Pro模型 支持50系显卡 业界最强的AI语音克隆、文本转语音软件 一键整合包下载
GPT-SoVITS 软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面世,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。业界开源的TTS千千万,看的人眼花缭乱,但综合能力最强的,只有 GPT-SoVITS,没有之一。今天分享的GPT-SoVITS V2 Pro版,同步官方最新的V2 Pro模型,零样本推理效果更好,随之显存占用更高了。
V2 Pro更新内容:新特性:相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质. V1/V2 与 V2Pro 系列具有相同特性, V3/V4 则具备相近功能. 对于平均音频质量较低的训练集, V1/V2/V2Pro 可以取得较好的效果, 但 V3/V4 无法做到. 此外, V3/V4 合成的声音更偏向参考音频, 而不是整体训练集的风格.
各版本特性对比
软件下载后,解压出来,建议解压到非中文目录下,切记!在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,1-3分钟左右即可。
素材的质量,决定合成的效果。
解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。模型训练更多操作,可以参考 GPT-SoVITS V2版该版同样支持零样本一键语音克隆,进入webui界面后,切换到1-GPT-SoVITS-TTS/1C-推理,点击“开启TTS推理WebUI”即可进入页面
UI最上方有官方的使用教程手册,想系统的学习可以参考:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
下载地址:
https://pan.baidu.com/s/1f57lBfDHdD8SmNIUPbSBoA?pwd=7b5w
谢谢分享,第一时间上手体验 变声器,这种类型的还没有尝试过,今天试一试 测试起来,语气上确实有改进,但是听起来效果不如 Fish-Speech
与原始语音余弦相似度:
yuan.WAV:1.0000
Fish-speech.wav:0.9961
MinMax.mp3:0.9845
GPT-SoVITS-v2.wav:0.9806
CosyVoice2.wav:0.9738
MegaTTS.wav:0.9734
F5-TTS.wav:0.9717
E2-TTS.wav:0.9708
MaskGCT.wav:0.9185
shao12138 发表于 2025-6-9 16:55
测试起来,语气上确实有改进,但是听起来效果不如 Fish-Speech
与原始语音余弦相似度:
yuan.WAV:1.0000
GPT-SoVITS 主要是用来微调训练的,几分钟的样本,训练个把小时就有惊人的效果。 无言以对 发表于 2025-6-9 17:02
GPT-SoVITS 主要是用来微调训练的,几分钟的样本,训练个把小时就有惊人的效果。 ...
这样啊,我是3s克隆的,训练这块还没尝试过。
目前支持训练的:GPT-SoVITS、F5-TTS,后面尝试一下结果再对比一下。 请问一下多音字或更改特定词组的发音可以怎样处理?
粤语和国语 无言以对 发表于 2025-6-9 17:02
GPT-SoVITS 主要是用来微调训练的,几分钟的样本,训练个把小时就有惊人的效果。 ...
老大,如何训练呢?已经下载完毕啦 pro 和 pro plus 的主要区别是啥?
页:
[1]