CosyVoice V3版 - 阿里最新开源语音克隆、文本转语音项目 新增音色融合、字幕同步,本地一键整合包下载
近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice 和 CosyVoice。
今天分享的V3版是v3ucn大佬优化过的升级版,在上个版本的基础上,同步了官方最新代码,新增音色融合,可以将两个音色完美融合成一个新的音色;新增字幕同步功能;新增文本切割功能以及优化长文本生成和修复报错等。
CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。
仅需要3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。
而且CosyVoice支持以富文本或自然语言的形式,对生成语音的情感、韵律进行细粒度的控制,生音频在情感表现力上得到明显提升。
研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力。
CosyVoice很好地建模了合成文本中的语义信息,达到了与人类发音人相当的水平。此外,通过对合成音频进行重打分,能够进一步降低识别的错误率,甚至在内容一致性和说话人相似度上超越人类。
使用教程:主要说下新增的几个功能
第一个,本文切割。主要包含三个参数
1、切分单句最大token数
2、切分单句最小token数
3、低于多少token就和前句合并
这里的token值数值越小,显存占用越低,文本会被切的越碎。随之而来的缺点是上下文语句可能出现不连贯的情况。反之,token值越大,显存占用越高,上下文就越连贯。所以这几个参数大家根据自己的情况设置,一般默认即可。
第二个,音色融合功能
可以提前准备好自己克隆过的音色,在“选择新增音色”下拉选择,然后在 “选择融合音色” 下拉选择需要融合的另一个音色,权重可以先默认,也可以根据原有音色和新增音色的权重自行调整。
第三个,字幕输出
每次生成后,生成结果保存在一键包根目录下的 “音频输出” 文件夹,这里保存了合成后的语音文件,和字幕文件,如下图
有一点注意下,每次新生成的音频和字幕文件都会覆盖上一个历史文件,所以需要请即使拷贝到别处,以免被覆盖。
报错修复:
如果上个版本遇到 LLVM ERROR:Symbol not found 这个报错提示,可以拷贝 "报错LLVM ERROR Symbol not found" 这个文件夹里的dll文件,拷贝到C:/windows/system32/这个目录下,再次运行启动即可。
下载地址:夸克网盘:https://pan.quark.cn/s/47470fffbaa1百度网盘:**** Hidden Message *****
这也太帅了吧,看到最新的了 jhh369329410 发表于 2024-8-30 17:35
我试了下,只要语速不调,就不会报错
我本地测试了,调节语速没有问题。 之前的版本还没搞明白,新的又来了。 新的来了赶快试下 感谢楼主分享 谢谢分享~~~~~~~