VoxCPM V2版 - 支持方言!更自然、真实的语音克隆和文本转语音工具 支持50系显卡 一键整合包下载
VoxCPM 是一个开源的语音生成工具,它能把文字直接变成自然、带情感的语音,还能用很短的音频样本克隆一个人的声音。它的特点是不用传统的“语音切片”,而是直接在连续空间里生成声音,因此效果更真实、更灵活,它克服了离散分词的限制,实现了情境感知语音生成和逼真的零样本语音克隆。
VoxCPM 是一个功能强大且易于使用的文本转语音系统,它不仅能捕捉到说话者的音色,还能精细地还原口音、情感语调、节奏和语速等特征。主打“连续空间建模”技术,能生成更自然、真实的语音。它像一位“声音大厨”,既能根据文本内容智能调整语调风格,又能通过短音频克隆出逼真的声音,效果更真实、更有感情。
今天分享的 VoxCPM V2版,更新最新的 VoxCPM1.5 模型。新版模型提升了 VoxCPM 的音频质量(现在支持 44.1kHz 采样率,更好地克隆,保留更多高频细节,生成更高质量的语音输出)和效率,同时保留了其核心功能:基于上下文的语音生成和零样本语音克隆,同时支持全参数微调和高效的 LoRA 微调。
核心特点
发音人级音色生成:能生成高质量、音色稳定且风格可控的语音,相比传统语音合成模型(如 VITS)在音色一致性上表现更好,不容易出现“前言不搭后语”的混乱情况。
上下文感知的语音生成:能理解文本内容,智能地调整语音的语调、节奏和情感,让合成说话更像真人一样富有表现力和自然流畅。
逼真的零样本音色克隆:只需一段很短的参考音频,就能准确模仿这个人的音色、口音、情感和说话节奏,生成高度逼真的克隆语音。
可微调:支持全参数微调和 LoRA 微调,用户可以训练个性化的声音模型。
应用领域
智能客服:让客服语音更自然、更具亲和力,提升用户体验。
有声读物和播客:为内容创作者提供高质量的文本转语音服务,节省录音成本。
影视配音和游戏:快速生成不同角色的配音,提高制作效率。
个人语音助手:为用户定制个性化的语音助手,使其声音更符合个人喜好。
教育和培训:为在线课程、语言学习等提供真实、易理解的语音内容。
使用教程:(建议N卡,显存4G起,支持50系显卡)
上传一段参考音频,输入需要生成的文字内容,合成即可
详细的参数和使用技巧,启动后,WebUI页面有详细说明
支持自定义音色,上次参考音频,输入音色名称,保存。
添加音色后,点刷新音色,实时获取最新添加的音色。选择音色名称,点“加载音色预设”即可使用自定义音色。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOfwhJ_0ExaynLtFBq5O981dA1?pwd=t94f
夸克网盘:
**** 本内容需购买 ****
百度网盘:
**** 本内容需购买 ****
这个和TTS2那个克隆效果更好呢? zf372050857 发表于 2025-12-8 08:28
这个和TTS2那个克隆效果更好呢?
各有优缺点,你试试,这个也不错。 mac好像用不了啊 ruan18505700714 发表于 2025-12-17 01:34
mac好像用不了啊
不支持mac
页:
[1]