Spark-TTS - AI语音克隆,零样本免训练一键语音克隆 文本转语音 TTS 本地一键整合包下载
Spark-TTS 是一种开源新一代语音生成模型,不仅能够实现零样本的声音克隆,还能根据用户的需求生成全新的声音。该模型由出门问问联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等研究机构共同开发。和之前发布的CosyVoice ,SeedVC ,FT-TTS 等类似,都可以实现零样本免训练一键语音克隆。
Spark-TTS 的核心是BiCodec,这是一种单流语音编解码器,能够将语音分解成两种互补的“语音令牌”:一种是低比特率的语义令牌,用于捕捉语言内容;另一种是固定长度的全局令牌,用于捕捉说话者的属性,如音色、音调等。
技术特点:
单流生成:Spark-TTS采用单阶段、单流方式实现TTS生成,无需借助额外的生成模型辅助。
超自然语音克隆:能够进行零样本的声音克隆,只需提供一段参考音频,即可生成一个全新的声音,并可以根据需求进行调整。
跨语种生成能力:具备超自然的语音克隆与跨语种生成能力,可以根据用户需求定制精品专属声音。
高度统一的建模结构:Spark-TTS提出了一种全新的语音编码方式,解决了主流语音离散编码存在的问题,实现了建模结构与文本LLMs结构的高度统一。
应用场景:
Spark-TTS已经在出门问问的AI配音产品“魔音工坊”中落地应用,提供了SOTA的3秒语音克隆能力和卓越的精品发音人定制效果。
该技术在客服、有声书、情感直播、影视解说、影视配音等场景下带来了更极致的用户体
使用教程:(建议N卡,显存6G起。基于CUDA12.4)
语音克隆:上传需要克隆的参考音频,输入合成文本,提交即可。
语音创作:输入需要合成的文本,调节参数,提交即可。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOKp1ZegofhEnD_Qt6EC0v3oA1?pwd=35hv
夸克网盘:**** 本内容需购买 ****
百度云盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可。
老大速度好快啊,刚看到博文推荐了,包就来了。 这个更新速度嘎嘎快 试试楼主这个先,之前用那个感觉不是很好,期待楼主这个试用效果,谢谢 希望这个软件好用,谢谢分享
页:
[1]