无言以对 发表于 2025-12-7 22:26:42

VoxCPM V2版 - 支持方言!更自然、真实的语音克隆和文本转语音工具 支持50系显卡 一键整合包下载


VoxCPM 是一个开源的语音生成工具,它能把文字直接变成自然、带情感的语音,还能用很短的音频样本克隆一个人的声音。它的特点是不用传统的“语音切片”,而是直接在连续空间里生成声音,因此效果更真实、更灵活,它克服了离散分词的限制,实现了情境感知语音生成和逼真的零样本语音克隆。
VoxCPM 是一个功能强大且易于使用的文本转语音系统,它不仅能捕捉到说话者的音色,还能精细地还原口音、情感语调、节奏和语速等特征。主打“连续空间建模”技术,能生成更自然、真实的语音。它像一位“声音大厨”,既能根据文本内容智能调整语调风格,又能通过短音频克隆出逼真的声音,效果更真实、更有感情。


今天分享的 VoxCPM V2版,更新最新的 VoxCPM1.5 模型。新版模型提升了 VoxCPM 的音频质量(现在支持 44.1kHz 采样率,更好地克隆,保留更多高频细节,生成更高质量的语音输出)和效率,同时保留了其核心功能:基于上下文的语音生成和零样本语音克隆,同时支持全参数微调和高效的 LoRA 微调。


核心特点

‌发音人级音色生成‌:能生成高质量、音色稳定且风格可控的语音,相比传统语音合成模型(如 VITS)在音色一致性上表现更好,不容易出现“前言不搭后语”的混乱情况。 ‌
上下文感知的语音生成‌:能理解文本内容,智能地调整语音的语调、节奏和情感,让合成说话更像真人一样富有表现力和自然流畅。 ‌
逼真的零样本音色克隆‌:只需一段很短的参考音频,就能准确模仿这个人的音色、口音、情感和说话节奏,生成高度逼真的克隆语音。
可微调:支持全参数微调和 LoRA 微调,用户可以训练个性化的声音模型。



应用领域

智能客服‌:让客服语音更自然、更具亲和力,提升用户体验。 ‌
有声读物和播客‌:为内容创作者提供高质量的文本转语音服务,节省录音成本。 ‌
影视配音和游戏‌:快速生成不同角色的配音,提高制作效率。 ‌
个人语音助手‌:为用户定制个性化的语音助手,使其声音更符合个人喜好。 ‌
教育和培训‌:为在线课程、语言学习等提供真实、易理解的语音内容。



使用教程:(建议N卡,显存4G起,支持50系显卡)

上传一段参考音频,输入需要生成的文字内容,合成即可
详细的参数和使用技巧,启动后,WebUI页面有详细说明

支持自定义音色,上次参考音频,输入音色名称,保存。
添加音色后,点刷新音色,实时获取最新添加的音色。选择音色名称,点“加载音色预设”即可使用自定义音色。


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOfwhJ_0ExaynLtFBq5O981dA1?pwd=t94f

夸克网盘:
**** 本内容需购买 ****

百度网盘:
**** 本内容需购买 ****


zf372050857 发表于 2025-12-8 08:28:10

这个和TTS2那个克隆效果更好呢?

无言以对 发表于 2025-12-8 08:42:22

zf372050857 发表于 2025-12-8 08:28
这个和TTS2那个克隆效果更好呢?

各有优缺点,你试试,这个也不错。

ruan18505700714 发表于 2025-12-17 01:34:02

mac好像用不了啊

无言以对 发表于 2025-12-17 07:50:22

ruan18505700714 发表于 2025-12-17 01:34
mac好像用不了啊

不支持mac
页: [1]
查看完整版本: VoxCPM V2版 - 支持方言!更自然、真实的语音克隆和文本转语音工具 支持50系显卡 一键整合包下载