CosyVoice V3版 - 阿里最新开源语音克隆、文本转语音项目新增音色融合、字幕同步，本地一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2024-8-30 11:04:39

CosyVoice V3版 - 阿里最新开源语音克隆、文本转语音项目新增音色融合、字幕同步，本地一键整合包下载

近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice 和 CosyVoice。
今天分享的V3版是v3ucn大佬优化过的升级版，在上个版本的基础上，同步了官方最新代码，新增音色融合，可以将两个音色完美融合成一个新的音色；新增字幕同步功能；新增文本切割功能以及优化长文本生成和修复报错等。
CosyVoice专注自然语音生成，支持多语言、音色和情感控制，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。

仅需要3~10s的原始音频，CosyVoice即可生成模拟音色，甚至包括韵律、情感等细节，包括跨语种语音生成。
而且CosyVoice支持以富文本或自然语言的形式，对生成语音的情感、韵律进行细粒度的控制，生音频在情感表现力上得到明显提升。
研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct，可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高，具备更强的情感控制能力。
CosyVoice很好地建模了合成文本中的语义信息，达到了与人类发音人相当的水平。此外，通过对合成音频进行重打分，能够进一步降低识别的错误率，甚至在内容一致性和说话人相似度上超越人类。
使用教程：主要说下新增的几个功能
第一个，本文切割。主要包含三个参数
1、切分单句最大token数

2、切分单句最小token数

3、低于多少token就和前句合并

这里的token值数值越小，显存占用越低，文本会被切的越碎。随之而来的缺点是上下文语句可能出现不连贯的情况。反之，token值越大，显存占用越高，上下文就越连贯。所以这几个参数大家根据自己的情况设置，一般默认即可。
第二个，音色融合功能

可以提前准备好自己克隆过的音色，在“选择新增音色”下拉选择，然后在 “选择融合音色” 下拉选择需要融合的另一个音色，权重可以先默认，也可以根据原有音色和新增音色的权重自行调整。
第三个，字幕输出
每次生成后，生成结果保存在一键包根目录下的 “音频输出” 文件夹，这里保存了合成后的语音文件，和字幕文件，如下图
有一点注意下，每次新生成的音频和字幕文件都会覆盖上一个历史文件，所以需要请即使拷贝到别处，以免被覆盖。
报错修复：
如果上个版本遇到 LLVM ERROR:Symbol not found 这个报错提示，可以拷贝 "报错LLVM ERROR Symbol not found" 这个文件夹里的dll文件，拷贝到C:/windows/system32/这个目录下，再次运行启动即可。
下载地址：夸克网盘：https://pan.quark.cn/s/47470fffbaa1百度网盘：**** Hidden Message *****

jhh369329410 发表于 2024-8-30 16:43:32

jhh369329410 发表于 2024-8-30 17:15:39

jhh369329410 发表于 2024-8-30 17:35:11

kj123456789 发表于 2024-8-30 21:02:10

这也太帅了吧，看到最新的了

无言以对 发表于 2024-8-30 21:37:00

jhh369329410 发表于 2024-8-30 17:35
我试了下，只要语速不调，就不会报错

我本地测试了，调节语速没有问题。

simonchen760918 发表于 2024-8-30 22:05:07

之前的版本还没搞明白，新的又来了。

cao3cong5 发表于 2024-8-30 22:32:39

新的来了赶快试下

lory 发表于 2024-8-31 00:43:33

感谢楼主分享

szfjm 发表于 2024-8-31 06:52:15

谢谢分享~~~~~~~

页: [1] 2 3 4 5 6 7 8 9 10

前沿AI软件资源站's Archiver

CosyVoice V3版 - 阿里最新开源语音克隆、文本转语音项目 新增音色融合、字幕同步，本地一键整合包下载

CosyVoice V3版 - 阿里最新开源语音克隆、文本转语音项目新增音色融合、字幕同步，本地一键整合包下载