找回密码
 立即注册
查看: 5446|回复: 117

CosyVoice V3版 - 阿里最新开源语音克隆、文本转语音项目 新增音色融合、字幕同步,本地一键整合包下载

 火.. [复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2024-8-30 11:04:39 | 显示全部楼层 |阅读模式

CosyVoiceV3版 - 阿里最新开源语音克隆、文本转语音项目 新增音色融合、字幕同步,本地一键整合包下载 ... ...

CosyVoiceV3版 - 阿里最新开源语音克隆、文本转语音项目 新增音色融合、字幕同步,本地一键整合包下载 ...  ...


近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoiceCosyVoice

今天分享的V3版是v3ucn大佬优化过的升级版,在上个版本的基础上,同步了官方最新代码,新增音色融合,可以将两个音色完美融合成一个新的音色;新增字幕同步功能;新增文本切割功能以及优化长文本生成和修复报错等。

CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。

仅需要3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。

而且CosyVoice支持以富文本或自然语言的形式,对生成语音的情感、韵律进行细粒度的控制,生音频在情感表现力上得到明显提升。

研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力。
CosyVoice很好地建模了合成文本中的语义信息,达到了与人类发音人相当的水平。此外,通过对合成音频进行重打分,能够进一步降低识别的错误率,甚至在内容一致性和说话人相似度上超越人类。

使用教程:
主要说下新增的几个功能

第一个,本文切割。主要包含三个参数

1、切分单句最大token数
v3-1.jpg

2、切分单句最小token数
v3-2.jpg

3、低于多少token就和前句合并
v3-3.jpg

这里的token值数值越小,显存占用越低,文本会被切的越碎。随之而来的缺点是上下文语句可能出现不连贯的情况。反之,token值越大,显存占用越高,上下文就越连贯。
所以这几个参数大家根据自己的情况设置,一般默认即可。

第二个,音色融合功能

v3-4.jpg
可以提前准备好自己克隆过的音色,在“选择新增音色”下拉选择,然后在 “选择融合音色” 下拉选择需要融合的另一个音色,权重可以先默认,也可以根据原有音色和新增音色的权重自行调整。

第三个,字幕输出

每次生成后,生成结果保存在一键包根目录下的 “音频输出” 文件夹,这里保存了合成后的语音文件,和字幕文件,如下图
v3-5.jpg
有一点注意下,每次新生成的音频和字幕文件都会覆盖上一个历史文件,所以需要请即使拷贝到别处,以免被覆盖。

报错修复:

如果上个版本遇到 LLVM ERROR:Symbol not found 这个报错提示,可以拷贝 "报错LLVM ERROR Symbol not found" 这个文件夹里的dll文件,拷贝到C:/windows/system32/这个目录下,再次运行启动即可。

下载地址:
百度网盘:
游客,如果您要查看本帖隐藏内容请回复

DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

23

回帖

49

积分

禁止访问

积分
49
发表于 2024-8-30 16:43:32 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

该用户从未签到

0

主题

23

回帖

49

积分

禁止访问

积分
49
发表于 2024-8-30 17:15:39 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

该用户从未签到

0

主题

23

回帖

49

积分

禁止访问

积分
49
发表于 2024-8-30 17:35:11 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

签到天数: 13 天

[LV.3]偶尔看看II

0

主题

55

回帖

130

积分

无名之辈

积分
130
发表于 2024-8-30 21:02:10 | 显示全部楼层
这也太帅了吧,看到最新的了

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
 楼主| 发表于 2024-8-30 21:37:00 | 显示全部楼层
jhh369329410 发表于 2024-8-30 17:35
我试了下,只要语速不调,就不会报错

我本地测试了,调节语速没有问题。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

34

回帖

179

积分

无名之辈

积分
179
发表于 2024-8-30 22:05:07 | 显示全部楼层
之前的版本还没搞明白,新的又来了。

该用户从未签到

0

主题

3

回帖

10

积分

初入江湖

积分
10
发表于 2024-8-30 22:32:39 | 显示全部楼层
新的来了  赶快试下

该用户从未签到

0

主题

3

回帖

9

积分

初入江湖

积分
9
发表于 2024-8-31 00:43:33 | 显示全部楼层
感谢楼主分享

该用户从未签到

0

主题

103

回帖

130

积分

无名之辈

积分
130
发表于 2024-8-31 06:52:15 | 显示全部楼层
谢谢分享~~~~~~~
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-19 08:02 , Processed in 0.092677 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表