IndexTTS V2版 - 支持50系显卡 B站开源可控高效零样本文本转语音/语音克隆系统 本地一键整合包下载
IndexTTS 是B站推出的最新文本转语音(TTS)模型,它在中文场景下展现了卓越的表现,并刷新了行业记录。IndexTTS通过中文字符-拼音混合建模、精准停顿控制与跨模态优化等先进技术,显著提升了语音生成的精度和自然度。
IndexTTS 系统经过数万小时的数据训练,已实现业内领先的性能,超越了当前流行的 TTS 系统,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强,特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过引入混合建模的方式,IndexTTS 能够快速纠正误读的汉字,提升了用户的使用体验。
今天分享的V2版,同步官方最新源代码。新增对50系显卡的支持。功能上,优化了推理生成速度,将推理细分为适合较短文本的“普通推理”和适合长文本的“批次推理”,大家根据自己生成的文本长短选择。修复了数字和标点符号的朗读和停顿问题。
应用场景
IndexTTS的成功在于对中文语言特性的深刻理解和创新应用,适用于需要高精度和自然度语音生成的场景,如教育、娱乐、新闻播报等。其精准的停顿控制和多音字处理能力使其在中文朗读和语音合成领域具有显著优势。
使用教程:(建议N卡,显存4G起。基于CUDA12.8)
上传参考音频,输入文本,生成即可。
根据自己的文本长度选择“普通推理”和“批次推理”,实测“批次推理”充分利用显存,生成速度提升10倍+,但稳定性不如“普通推理”,大家根据需要自行调整。
下载地址:
夸克网盘:https://pan.quark.cn/s/cb53e9aab05e
百度网盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可
批次推理漏字问题我看已经修复了 这个不错,比V1版改进很多了~
页:
[1]