Fun-CosyVoice3 - 跨语言、会方言、懂情绪的智能配音工具文本转语音语音克隆支持50系显卡一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-12-16 09:26:10

Fun-CosyVoice3 - 跨语言、会方言、懂情绪的智能配音工具文本转语音语音克隆支持50系显卡一键整合包下载

Fun-CosyVoice3 是阿里巴巴团队推出的一款新一代语音合成模型，它能在没有额外训练的情况下，用多种语言和方言生成自然、富有情感的语音，声音效果接近真人。它的特点是多语言支持、情感表达、方言覆盖和高质量的声音一致性，应用领域包括智能助手、教育、娱乐、无障碍沟通等。

Fun-CosyVoice3 只需3秒录音，就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒......9 种通用语言、18种方言，通通搞定！

主要特点

多语言与方言支持：覆盖 9 种语言和 18 种中文方言，能在不同场景下生成自然语音

情感表达能力：不仅能读文本，还能带有“开心、悲伤、愤怒、惊讶”等情绪，让声音更像真人

中英混搭：不论是含专业术语、大小写混排，还是语码转换的句子，都能精准、自然地发音

零样本生成：无需额外训练，就能根据提示生成目标语言或方言的语音，适合快速应用

声音一致性与自然度：改进了语音的节奏和韵律，听起来更流畅、更接近真实说话

应用领域

智能助手：让语音助手更自然，能用不同语言和情绪与用户交流。
教育与语言学习：支持多语言和方言，帮助学习者练习发音和听力。
娱乐与内容创作：可用于有声书、播客、游戏角色配音，提升沉浸感。
无障碍沟通：为视障人士或阅读困难者提供自然的语音输出。
跨语言交流：在国际会议或跨国企业中，帮助快速生成不同语言的语音内容。

使用教程：（建议N卡，显存4G起，支持50系显卡）

下载主程序压缩包和模型（pretrained_models文件夹），解压主程序，并将模型（pretrained_models）移动到主程序目录下，详情参考下方软件目录结构

支持3s极速复刻和自然语言控制两种模式

3s极速复刻：上传一段参考音频（3-10s为佳），系统会自动识别参考文本（如有错误，可手动修改），输入合成文字内容，生成即可。
自然语言控制：上传参考音频，输入需要合成的文字内容，支持喜怒哀乐等多种情感控制，支持十几种中文地方方言，“选择指令文本”可快捷下拉选择，最后生成。

包含两种启动模式：常规启动和加速启动。常规启动适用10-50系显卡；加速启动模式适用30-50系显卡，默认开启fp16和tensorrt加速，推理速度更快。如加速启动报错，可退回常规启动。

软件目录结构：

📂 pretrained_models/
├── 📂 CosyVoice3-0.5B/
│       └── flow.pt
│       └── llm.pt
├── 📂 SenseVoiceSmall/
│       └── model.pt
📂 cosyvoice/
📂 deepface/
......

下载地址：
UC网盘：https://drive.uc.cn/s/497a83ec658f4

夸克网盘：
**** 本内容需购买 ****

百度网盘：
**** 本内容需购买 ****

yusy 发表于 2025-12-17 19:14:51

1111111111111111111111111

inhva1 发表于 2025-12-18 18:12:03

大佬，这个和GPT-SoVITS相比，哪个长文本更稳啊？

canbeiboy 发表于 2025-12-19 10:35:03

老大，度盘下载的文件解压报错！

无言以对 发表于 2025-12-19 10:42:13

canbeiboy 发表于 2025-12-19 10:35
老大，度盘下载的文件解压报错！

五个人测试，两个人测试的夸克的包，三个人测试百度盘的包，均没问题。
包没问题，找找自己的原因。

来日方长 发表于 2025-12-21 15:30:29

有点拉跨，感觉没什么大的提升

chinglinglaw 发表于 2025-12-24 06:25:00

本帖最后由 chinglinglaw 于 2025-12-24 06:38 编辑

正常模式启动，等了半小时左右，一直这样，到这就没反应了
failed to import ttsfrd, use wetext instead
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
Downloading Model to directory: cache\hub\pengzhendong/wetext
Downloading Model to directory: cache\hub\pengzhendong/wetext
funasr version: 1.2.0.

加速模式缺文件，我自己补齐后

failed to import ttsfrd, use wetext instead
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
Downloading Model to directory: cache\hub\pengzhendong/wetext
Downloading Model to directory: cache\hub\pengzhendong/wetext
WARNING:root:DiT tensorRT fp16 engine have some performance issue, use at caution!
Loaded engine size: 635 MiB
Running engine with multi stream info
Number of aux streams is 1
Number of total worker streams is 2
The main stream provided by execute/enqueue calls is the first worker stream
TensorRT-managed allocation in IExecutionContext creation: CPU +0, GPU +164, now: CPU 0, GPU 796 (MiB)
funasr version: 1.2.0.

到这也没反应了。浏览器无任何反应。

无言以对 发表于 2025-12-24 07:59:38

chinglinglaw 发表于 2025-12-24 06:25
正常模式启动，等了半小时左右，一直这样，到这就没反应了
failed to import ttsfrd, use wetext instead
S ...

https://deepface.cc/thread-10-1-1.html
参考此贴，设置虚拟内存

smslandzzz 发表于 2025-12-24 21:42:04

前排学习

zkjfly 发表于 2026-1-2 19:19:19

这个和GPT-SoVITS相比，哪个长文本更稳啊？

页: [1]

前沿AI软件资源站's Archiver

Fun-CosyVoice3 - 跨语言、会方言、懂情绪的智能配音工具 文本转语音 语音克隆 支持50系显卡 一键整合包下载

Fun-CosyVoice3 - 跨语言、会方言、懂情绪的智能配音工具文本转语音语音克隆支持50系显卡一键整合包下载