马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
Faster Qwen3-TTS - 实时语音合成加速引擎,实时流式,语音克隆、设计 支持50系显卡 一键整合包下载 ... .. ...
Faster Qwen3-TTS 是一个专门为实时语音合成优化的开源工具,它能在普通显卡上实现比原版 Qwen3-TTS 快数倍的推理速度,并支持语音克隆、定制声音和流式生成。它的特点是低延迟、高效率,适合需要即时语音输出的场景。
Faster Qwen3-TTS - 实时语音合成加速引擎,实时流式,语音克隆、设计 支持50系显卡 一键整合包下载 ... .. ...
项目特点
实时性能优化:利用 CUDA Graph 技术,把原本需要大量小计算的过程打包成一次 GPU 操作,大幅减少延迟。
支持流式与非流式生成:可以边生成边播放(流式),也可以一次性输出完整音频(非流式)。
语音克隆:上传参考音频即可生成相似声音,支持简单模式(只需音频)和高级模式(需要音频+文字)。
声音定制:提供预设的“CustomVoice”模型,可选择不同角色声音。
声音设计:通过文字指令(如“温暖、自信的旁白,带轻微英式口音”)生成符合描述的声音。
兼容性强:提供与 OpenAI TTS API 接口兼容的服务,可直接接入现有应用。
应用领域
AI 电话客服、语音助手(要低延迟)
实时配音工具、直播读评论
虚拟人/数字人/游戏NPC对话
本地跑的聊天机器人加声音(不想卡顿)
快速批量生成有感情的旁白、有声书(速度快很多)
想玩语音克隆但讨厌等半天的人
使用教程:(建议N卡,显存4G起,支持50系显卡)
下载主程序和模型(models文件夹),解压主程序一键包,将models文件夹移动到主程序目录下即可
包含声音克隆、自定义语言和语音设计
包含三种语音场景
1、语音设计:可以根据文字描述设计声音,比如“温柔女声”“年轻男声”,甚至能创造全新的声音角色
2、声音克隆:只需几秒钟的音频样本,就能快速复制某个人的声音,用来生成新的语音内容
3、自定义语言:多种预设音色的文本转语音,支持定制情感
注:包含0.6B和1.7B两个参数的模型,0.6B只需要4G显存,1.7B建议6G显存起,效果1.7B好于0.6B
关于声音描述:比如目标文本 “哥哥,你回来啦,人家等了你好久好久了,要抱抱!”
提示词可以借助大模型,写出你要表达的情感,比如下面的描述:“体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果”
你也可以填写更多描述细节,比如男声女声,年龄等信息。
关于第三个“TTS(语音定制)”标签,可以使用预置音色,议使用每位说话者的母语,以获得最佳质量。当然,每个说话者都可以说模型支持的任何语言。
以下是预置的几种音色介绍,大家可以根据需要选择:
Vivian 明亮、略带锋芒的年轻女性声音 中文
Serena 温暖、温柔的年轻女性声音 中文
Uncle_Fu 经验丰富的男性嗓音,音色低沉柔和 中文
Dylan 年轻的北京男性嗓音,音色清晰自然 汉语(北京方言)
Eric 活泼的成都男声,带着一丝沙哑明亮 中文(四川话)
Ryan 充满活力的男性声音,节奏感强劲 英语
Aiden 阳光的美国男声,中音清晰 英语
Ono_Anna 活泼的日本女性声音,音色轻盈灵巧 日语
Sohee 温暖的韩国女性声音,情感丰富 朝鲜语
软件目录结构:
📂 models/
├── 📂 Qwen3-TTS-12Hz-0.6B-Base/
│ │ └── model.safetensors
├── 📂 Qwen3-TTS-12Hz-0.6B-CustomVoice/
│ │ └── model.safetensors
├── 📂 Qwen3-TTS-12Hz-1.7B-VoiceDesign/
📂 deepface/
......
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOo-QmFNYRyT0ewwWlhEaoxtA1?pwd=4tet
夸克网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 购买该资源 立即购买
百度网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 购买该资源 立即购买
|