无言以对 发表于 2025-9-9 00:09:04

IndexTTS2 - 宇宙最强开源语音克隆模型,实现语音时长与情感精准控制 支持50系显卡 一键整合包下载


IndexTTS2 是B站最新开源的语音克隆及文本转语音模型,实现了对语音时长的精准控制(当前版本未实现),你可以明确指定想要生成的语音有多少个“语音单元”(类似词语或音节),从而精确控制语音的长度。还实现了高度富有表现力的情感语音合成,通过多种情感控制方式,比如情感参考音频、情感向量控制、文本控制等实现了情感可控功能。
IndexTTS2 是一款功能强大且灵活的文本转语音模型,它在语音时长控制、情感和音色独立控制以及自然语言驱动情感调节方面都有显著的创新,适用于多种需要高质量语音生成的场景。

今天分享的 IndexTTS2 基于B站最新开源的2.0模型打包,实测了下,无论是情感复刻还是语音克隆,都是一个飞跃的提升,语音克隆几乎是一比一复刻,情感控制也表现的非常出色,我将其称之为目前开源语音克隆项目里的最强王者,没有之一。也期待即将开源的CosyVoice3!


项目特点

精准的语音时长控制:
IndexTTS2首次在自回归TTS模型中实现了对语音时长的精准控制。你可以明确指定想要生成的语音有多少个“语音单元”(类似词语或音节),从而精确控制语音的长度。这在需要音频和视频严格同步的场景中非常有用,比如视频配音。

情感和音色的独立控制:
IndexTTS2能够将情感表达和说话人的音色分开处理。这意味着你可以单独控制生成语音的音色和情感。比如,你可以用同一个人的音色,但改变语音的情感(如高兴、悲伤)。
你还可以提供一个不同的情感语音提示(可能来自另一个说话人),让模型在保持目标音色的同时,传达出指定的情感。

自然语言驱动的情感调节:
为了方便情感控制,IndexTTS2设计了一种基于文本描述的软指令机制。你只需输入描述情感的文字(如“请以高兴的语气说”),模型就能生成带有相应情感的语音。
这让情感控制变得更加直观和简单,不需要复杂的音频提示。

高质量的语音生成:
在强烈的情感表达下,IndexTTS2通过引入GPT的潜在表示来提高生成语音的稳定性,确保语音清晰可辨。
实验结果显示,IndexTTS2在多个数据集上表现优于现有的最先进的零样本TTS模型,在词错率、说话人相似度和情感保真度方面都有显著提升。



应用领域

视频配音和同步: 在需要精确音频-视频同步的场景中,如电影、动画、广告或在线教育的视频制作,IndexTTS2的精准语音时长控制非常有用。
个性化语音助手: 通过独立控制音色和情感,IndexTTS2可以用于创建更加个性化的语音助手,这些助手可以根据用户的喜好和情境变化语音的音色和情感。
情感丰富的语音交互系统: 在需要情感表达的语音交互系统中,如智能客服、情感陪伴机器人等,IndexTTS2的自然语言驱动情感调节机制可以大大提升用户体验。
无障碍技术: 对于视障人士或有阅读障碍的用户,IndexTTS2可以生成更加自然和富有情感的语音,帮助他们更好地理解和享受数字内容。



使用教程:(建议N卡,显存10G起,支持50系显卡)

上传参考音频,输入生成文本,生成即可。
支持更丰富的情感控制,可以根据需要选择,比如与音色参考音频相同、使用情感参考音频、使用情感向量控制、使用情感描述文本控制等


下载地址:
123云盘:https://www.123684.com/s/OYeA-AH4Bh

百度网盘:**** 本内容需购买 ****

peterjfs 发表于 2025-9-9 00:28:22

感謝版大分享,非常期待可以還原親人的聲音

pzluren 发表于 2025-9-9 10:46:27

显存10G起步,拦下很多人,有点遗憾。

无言以对 发表于 2025-9-9 10:47:16

pzluren 发表于 2025-9-9 10:46
显存10G起步,拦下很多人,有点遗憾。

有人测试了,8G开共享显存也可以跑,就是慢

pzluren 发表于 2025-9-9 10:49:42

无言以对 发表于 2025-9-9 10:47
有人测试了,8G开共享显存也可以跑,就是慢

谢谢回复,我也去测试

pzluren 发表于 2025-9-9 12:09:52

测试反馈:
显存8G,内存16G
50字,生成8S音频,用时3分钟。

guozhixin86 发表于 2025-9-9 15:59:03

期待已久的2.0终于出来了,不容易啊,赞一个

zf372050857 发表于 2025-9-9 16:54:20

这个生成效果非常好,就是速度有点慢,需要时间比较长。

无言以对 发表于 2025-9-9 17:11:22

zf372050857 发表于 2025-9-9 16:54
这个生成效果非常好,就是速度有点慢,需要时间比较长。

显卡是第一生产力

hw6905 发表于 2025-9-9 17:43:17

感謝版大分享
页: [1] 2
查看完整版本: IndexTTS2 - 宇宙最强开源语音克隆模型,实现语音时长与情感精准控制 支持50系显卡 一键整合包下载