Faster Qwen3-TTS - 实时语音合成加速引擎，实时流式，语音克隆、设计支持50系显卡一键整合包下载

无言*** · 发表于 2026-3-18 11:27:38

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

Faster Qwen3-TTS - 实时语音合成加速引擎，实时流式，语音克隆、设计支持50系显卡一键整合包下载 ... .. ...

Faster Qwen3-TTS 是一个专门为实时语音合成优化的开源工具，它能在普通显卡上实现比原版 Qwen3-TTS 快数倍的推理速度，并支持语音克隆、定制声音和流式生成。它的特点是低延迟、高效率，适合需要即时语音输出的场景。

Faster Qwen3-TTS - 实时语音合成加速引擎，实时流式，语音克隆、设计支持50系显卡一键整合包下载 ... .. ...

项目特点

实时性能优化：利用 CUDA Graph 技术，把原本需要大量小计算的过程打包成一次 GPU 操作，大幅减少延迟。
支持流式与非流式生成：可以边生成边播放（流式），也可以一次性输出完整音频（非流式）。
语音克隆：上传参考音频即可生成相似声音，支持简单模式（只需音频）和高级模式（需要音频+文字）。
声音定制：提供预设的“CustomVoice”模型，可选择不同角色声音。
声音设计：通过文字指令（如“温暖、自信的旁白，带轻微英式口音”）生成符合描述的声音。
兼容性强：提供与 OpenAI TTS API 接口兼容的服务，可直接接入现有应用。

应用领域

AI 电话客服、语音助手（要低延迟）
实时配音工具、直播读评论
虚拟人/数字人/游戏NPC对话
本地跑的聊天机器人加声音（不想卡顿）
快速批量生成有感情的旁白、有声书（速度快很多）
想玩语音克隆但讨厌等半天的人

使用教程：（建议N卡，显存4G起，支持50系显卡）

下载主程序和模型（models文件夹），解压主程序一键包，将models文件夹移动到主程序目录下即可
包含声音克隆、自定义语言和语音设计

包含三种语音场景
1、语音设计：可以根据文字描述设计声音，比如“温柔女声”“年轻男声”，甚至能创造全新的声音角色
2、声音克隆：只需几秒钟的音频样本，就能快速复制某个人的声音，用来生成新的语音内容
3、自定义语言：多种预设音色的文本转语音，支持定制情感

注：包含0.6B和1.7B两个参数的模型，0.6B只需要4G显存，1.7B建议6G显存起，效果1.7B好于0.6B

关于声音描述：比如目标文本 “哥哥，你回来啦，人家等了你好久好久了，要抱抱！”
提示词可以借助大模型，写出你要表达的情感，比如下面的描述：“体现撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果”
你也可以填写更多描述细节，比如男声女声，年龄等信息。

关于第三个“TTS(语音定制)”标签，可以使用预置音色，议使用每位说话者的母语，以获得最佳质量。当然，每个说话者都可以说模型支持的任何语言。
以下是预置的几种音色介绍，大家可以根据需要选择：

Vivian 明亮、略带锋芒的年轻女性声音中文
Serena 温暖、温柔的年轻女性声音          中文
Uncle_Fu 经验丰富的男性嗓音，音色低沉柔和中文
Dylan 年轻的北京男性嗓音，音色清晰自然汉语（北京方言）
Eric 活泼的成都男声，带着一丝沙哑明亮中文（四川话）
Ryan 充满活力的男性声音，节奏感强劲英语
Aiden 阳光的美国男声，中音清晰英语
Ono_Anna 活泼的日本女性声音，音色轻盈灵巧日语
Sohee 温暖的韩国女性声音，情感丰富朝鲜语

软件目录结构：

📂 models/
├── 📂 Qwen3-TTS-12Hz-0.6B-Base/
│ │    └── model.safetensors
├── 📂 Qwen3-TTS-12Hz-0.6B-CustomVoice/
│ │    └── model.safetensors
├── 📂 Qwen3-TTS-12Hz-1.7B-VoiceDesign/
📂 deepface/
......

下载地址:
迅雷云盘：https://pan.xunlei.com/s/VOo-QmFNYRyT0ewwWlhEaoxtA1?pwd=4tet

夸克网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源

立即购买

百度网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源

立即购买

YQD*** · 发表于 2026-5-28 18:26:50

大佬，我试了下这个好像只能出8秒短音频，请问要读小说，克隆长音频用哪个比较好啊？

无言*** · 发表于 2026-5-28 18:38:33

YQD17D 发表于 2026-5-28 18:26
大佬，我试了下这个好像只能出8秒短音频，请问要读小说，克隆长音频用哪个比较好啊？ ...

应该不止8秒，你是不是用错模型了？
indextts2，Qwen3-TTS，VocCPM都可以试试

YQD*** · 发表于 2026-5-28 21:25:55

噢噢，谢谢我试试

		自动登录	找回密码
密码			立即注册

Faster Qwen3-TTS - 实时语音合成加速引擎，实时流式，语音克隆、设计支持50系显卡一键整合包下载

马上注册，下载更多AI资源软件

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

上上宾

Faster Qwen3-TTS - 实时语音合成加速引擎，实时流式，语音克隆、设计 支持50系显卡 一键整合包下载

马上注册，下载更多AI资源软件

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

上上宾

Faster Qwen3-TTS - 实时语音合成加速引擎，实时流式，语音克隆、设计支持50系显卡一键整合包下载