设为首页收藏本站 劰载中...

 找回密码
 立即注册
查看: 116|回复: 0

IndexTTS2 V4版 - 可控人类情感的语音克隆软件,新增txt文档批量生成、srt字幕转语音,支持50系显卡 一键整合包下载

[复制链接]

签到天数: 30 天

[LV.5]常住居民I

771

主题

1216

回帖

7万

积分

武林盟主

积分
73319

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 昨天 11:18 | 显示全部楼层 |阅读模式

马上注册,下载更多AI资源软件

您需要 登录 才可以下载或查看,没有账号?立即注册

×

IndexTTS2 V4版 - 可控人类情感的语音克隆软件,新增txt文档批量生成、srt字幕转语音,支持50系显卡 一键整 ...

IndexTTS2 V4版 - 可控人类情感的语音克隆软件,新增txt文档批量生成、srt字幕转语音,支持50系显卡 一键整 ...


IndexTTS2 是B站最新开源的语音克隆及文本转语音模型,支持丰富的人类情感控制,比如生成开心、悲伤、难过等多种人类情感语音。不仅实现了对语音时长的精准控制(当前版本未实现),你可以明确指定想要生成的语音有多少个“语音单元”(类似词语或音节),从而精确控制语音的长度。还实现了高度富有表现力的情感语音合成,通过多种情感控制方式,比如情感参考音频、情感向量控制、文本控制等实现了情感可控功能。

IndexTTS2 是一款功能强大且灵活的文本转语音模型,它在语音时长控制、情感和音色独立控制以及自然语言驱动情感调节方面都有显著的创新,适用于多种需要高质量语音生成的场景。


今天分享的 IndexTTS2 V4版 ,在官方版本的基础上根据会员建议:
新增批量导入txt文档生成语音,移除文本批量处理功能。现在可以一次上次多个txt文档批量合成语音了;
新增srt字幕文件生成语音(实验功能),并按照字幕时间戳合并最终音频(当前语速控制功能参考的是社区大佬jjmlovesgit的代码,目前还有一些bug,后期官方放出语速控制功能后会同步更新)。


项目特点

精准的语音时长控制:
IndexTTS2首次在自回归TTS模型中实现了对语音时长的精准控制。你可以明确指定想要生成的语音有多少个“语音单元”(类似词语或音节),从而精确控制语音的长度。这在需要音频和视频严格同步的场景中非常有用,比如视频配音。

情感和音色的独立控制:
IndexTTS2能够将情感表达和说话人的音色分开处理。这意味着你可以单独控制生成语音的音色和情感。比如,你可以用同一个人的音色,但改变语音的情感(如高兴、悲伤)。
你还可以提供一个不同的情感语音提示(可能来自另一个说话人),让模型在保持目标音色的同时,传达出指定的情感。

自然语言驱动的情感调节:
为了方便情感控制,IndexTTS2设计了一种基于文本描述的软指令机制。你只需输入描述情感的文字(如“请以高兴的语气说”),模型就能生成带有相应情感的语音。
这让情感控制变得更加直观和简单,不需要复杂的音频提示。

高质量的语音生成:
在强烈的情感表达下,IndexTTS2通过引入GPT的潜在表示来提高生成语音的稳定性,确保语音清晰可辨。
实验结果显示,IndexTTS2在多个数据集上表现优于现有的最先进的零样本TTS模型,在词错率、说话人相似度和情感保真度方面都有显著提升。



应用领域

视频配音和同步: 在需要精确音频-视频同步的场景中,如电影、动画、广告或在线教育的视频制作,IndexTTS2的精准语音时长控制非常有用。
个性化语音助手: 通过独立控制音色和情感,IndexTTS2可以用于创建更加个性化的语音助手,这些助手可以根据用户的喜好和情境变化语音的音色和情感。
情感丰富的语音交互系统: 在需要情感表达的语音交互系统中,如智能客服、情感陪伴机器人等,IndexTTS2的自然语言驱动情感调节机制可以大大提升用户体验。
无障碍技术: 对于视障人士或有阅读障碍的用户,IndexTTS2可以生成更加自然和富有情感的语音,帮助他们更好地理解和享受数字内容。



使用教程:(建议N卡,显存8G起,支持50系显卡)

请根据自己的显卡选择对应运行方式,8G显存N卡,选择8G模式,10G或更高显存选择10G模式。

上传参考音频,输入生成文本,生成即可。
支持更丰富的情感控制,可以根据需要选择,比如与音色参考音频相同、使用情感参考音频使用情感向量控制使用情感描述文本控制等

V2版新增“情感权重”参数,“情感控制”模式(比如使用情感参考音频、使用情感向量控制、情感描述文本等)下,将该参数调整为≤0.6可提高克隆音色相似度
注.该参数数值越低,音色相似度越高,同时自定义情感控制能力越弱。请根据需要调整


V3版新增:自定义音色,上传自己的参考音频,点击添加自定义音色,输入名称和描述,保存。然后点选择音色下方的“刷新音色”,下拉选择保存的音色。
批处理功能,和单次处理类似,输入生成文本,一行为一条,输入多行,生成即可。生成的结果保存在outputs下的batch目录里。



V4版新增:txt批量导入生成语音,切换到批量上次选项卡,上次多个txt文档,上传参考音频或选择预设音色,点批量生成。生成的结果保存在outputs下的txt_batch目录里。
srt字幕文件转语音,切换到对应选项卡,上传srt字幕文件,上传参考音频或选择预设音色,选择生成方式,支持按字幕格式分别生成单独的音频,也支持按照时间戳生成并合并完整的音频(FFMPEG专业处理)。


下载地址:
夸克网盘:上传中



百度网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源立即购买

DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化及功能定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|前沿AI软件资源站

GMT+8, 2025-10-1 06:33 , Processed in 0.282259 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表