无言以对 发表于 2025-12-13 23:00:30

GLM-TTS - 自然、富有情感和表现力的语音克隆/文本转语音系统 支持批量生成 支持50系显卡 一键整合包下载




GLM-TTS 是智谱AI开源的一个新型的文本转语音(TTS)系统,它能在“零样本”条件下模仿声音,在极少的语音样本模仿声音,生成自然、有情绪的语音,并且让合成语音更有情感和表现力。它的特点是可控、自然、支持实时推理。
GLM-TTS 就像是“情感版的语音生成器”,不仅能把文字变成声音,还能让声音带上情绪和个性。它的应用场景非常广泛,尤其适合需要自然、富有表现力语音的领域。

GLM-TTS 测试下来,相比同类文本转语音系统,除了克隆音色相似度更高外,在情感表达和自然度方便也更好,还有就是长文本生成更稳定,且速度快,生成的音频质量也更高。缺点是对显卡要求高,至少需要8G显存,长文本对显卡要求更高。
今天分享的 GLM-TTS 一键包,基于原版WebUI,新增了音色管理功能,支持自定义保存和加载音色;新增批量生成功能,支持一键上传多个txt文档批量生成语音。批量生成需要更多的显存资源,大家根据自己显卡选择批量生成的数量。


主要特点

零样本语音克隆:只需 3–10 秒的语音片段,就能快速模仿目标声音。
情感控制:通过多奖励强化学习(GRPO),让语音带有情绪和表现力,而不是平淡机械。
高质量合成:生成的语音在清晰度和自然度上接近商业系统,并且字符错误率(CER)更低。
精细控制:支持“音素 + 文本”混合输入,能精确控制发音,尤其适合多音字。
实时推理:支持流式生成,适合需要即时反馈的场景。
双语支持:针对中英文混合文本进行了优化。



应用领域

虚拟助手与客服机器人:让语音更自然、更有情感,提升用户体验。
有声读物与播客:快速生成不同风格和情绪的朗读,减少人工录音成本。
游戏与虚拟角色:为 NPC 或虚拟角色生成个性化、有情感的声音。
教育与培训:在语言学习或在线课程中提供更生动的语音讲解。
无障碍应用:帮助视障人士获得更自然的语音反馈。



使用教程:(建议N卡,显存8G起,支持50系显卡)


分别下载主程序压缩包和模型(ckpt文件夹),解压主程序,移动ckpt目录到主程序下即可。

上传需要克隆的参考音频,输入参考文本,输入需要生成文字内容,设置相关参数,生成即可。

音色管理:上传需要保存的音色音频和参考文本,输入音色名称,保存。右侧加载音色,选择音色,输入需要生成的文字内容,生成即可。
批量生成:批量上传多个txt文本文档,刷新音色,选择音色,批量生成。生成结果保存在 batch_outputs 目录,可一键下载打包文件。

实测8G显存开启共享显存也能运行,但速度略慢,建议10G起,长文本建议12G显存起。


软件目录结构:

📂 ckpt/
├── 📂 flow/
│          └── flow.pt
├── 📂 llm/
│          └── model-00001-of-00002.safetensors
├── 📂 vq32k-phoneme-tokenizer/
│          └── tokenizer.model
📂 deepface/
📂 tools/
......


下载地址:
UC网盘:https://drive.uc.cn/s/203a6ae0a00d4

夸克网盘:
**** 本内容需购买 ****

百度网盘:
**** 本内容需购买 ****


Benny77 发表于 2025-12-13 23:18:58

请问克隆后的音频采样率和比特率有多少呢?

无言以对 发表于 2025-12-13 23:19:37

Benny77 发表于 2025-12-13 23:18
请问克隆后的音频采样率和比特率有多少呢?

24000和32000
不过我试了32000,会报错,可能是当前模型不支持

Benny77 发表于 2025-12-13 23:25:39

VoxCPM有44kHz,不知道跟这个比起来音质怎么样呢?

0879sazabi 发表于 2025-12-15 12:49:19

老哥,用夸克网盘下载了使用出现错误:gradio.exceptions.Error: 'Inference failed: No such file or directory: ckpt\\llm\\model-00001-of-00002.safetensors'
llm这个文件夹里没有这个model文件哦

无言以对 发表于 2025-12-15 15:13:22

0879sazabi 发表于 2025-12-15 12:49
老哥,用夸克网盘下载了使用出现错误:gradio.exceptions.Error: 'Inference failed: No such file or dire ...

llm重新下载

15063782615 发表于 2025-12-16 10:45:27

启动的时候,运行会报错为什么呢

jcchenwengang 发表于 2025-12-23 17:07:01

百度网盘和夸克网盘模型里面文件不一样,百度的少文件

无言以对 发表于 2025-12-23 17:20:30

jcchenwengang 发表于 2025-12-23 17:07
百度网盘和夸克网盘模型里面文件不一样,百度的少文件

百度估计是被吞了,我等下补。
页: [1]
查看完整版本: GLM-TTS - 自然、富有情感和表现力的语音克隆/文本转语音系统 支持批量生成 支持50系显卡 一键整合包下载