无言以对 发表于 2025-9-20 09:59:24

VoxCPM - 支持方言!更自然、真实的语音克隆和文本转语音工具 支持50系显卡 一键整合包下载


VoxCPM 是一种创新的、无需分词器的文本转语音(TTS)系统,重新定义了语音合成的真实性。通过在连续空间中对语音进行建模,它克服了离散分词的限制,并实现了两项旗舰功能:情境感知语音生成和逼真的零样本语音克隆。
VoxCPM 是一个功能强大且易于使用的文本转语音系统,它不仅能捕捉到说话者的音色,还能精细地还原口音、情感语调、节奏和语速等特征。主打“连续空间建模”技术,能生成更自然、真实的语音。它像一位“声音大厨”,既能根据文本内容智能调整语调风格,又能通过短音频克隆出逼真的声音,效果更真实、更有感情。


核心特点‌‌

会“读空气”的语音‌
能根据文本内容自动调整语气,比如读诗会变抒情,读新闻会变严肃。 训练数据超180万小时(中英双语),懂各种说话风格。 ‌

秒克隆你的声音‌
只需一段‌几秒钟的录音‌,就能复刻你的音色、口音甚至说话节奏,适合做虚拟主播或有声书。 ‌

速度快到能聊天‌
用普通显卡就能实时合成语音,延迟极低(0.17倍速),打电话都够用。



应用领域‌

内容创作‌:短视频配音、AI有声书、游戏NPC对话。 ‌
语音助手‌:为智能设备生成更拟人化的声音。 ‌
声音克隆‌:保护隐私时替代真人录音(需符合伦理)。 ‌
教育娱乐‌:定制明星声音读课文、方言教学等。



使用教程:(建议N卡,显存4G起,支持50系显卡)

上传一段参考音频,输入需要生成的文字内容,合成即可
详细的参数和使用技巧,启动后,WebUI页面有详细说明


放上一段方言案例:

参考音频:

生成音频:


下载地址:
123云盘:https://www.123684.com/s/OYeA-QE4Bh

百度网盘:**** 本内容需购买 ****

来日方长 发表于 2025-9-20 10:11:59

刚看了一位博主的测评,你就发出来了
这个方言很厉害啊,我们当地的方言我听了,几乎听不出毛病
这个四川话,有没有四川人,听下,效果如何

touvidia 发表于 2025-9-23 22:53:00

好奇问一下:是模型中预制了对多种主要方言口音的模型,还是说它是现理解现学的?感觉如果是后者的话那有点不太可能。数学上就不太可能。

ccwwry 发表于 2025-9-26 15:54:44

感谢分享,下载一个试试

touvidia 发表于 4 天前

touvidia 发表于 2025-9-23 22:53
好奇问一下:是模型中预制了对多种主要方言口音的模型,还是说它是现理解现学的?感觉如果是后者的话那有点 ...

试了一下,应该是仅支持预设内置的几种方言模型。譬如四川话、陕西话等。不过四川话是我根据样例假定,陕西话是我经其它软件的支持库而假定,我并没有亲测。

市面上常见软件中不支持的方言,它大概率是不支持的。因为从理论上也可以推断,不可能有任何软件仅根据有限语音素材就能推算出整个方言发音规则。反正我试了一些地方方言,它根本就学不会。
页: [1]
查看完整版本: VoxCPM - 支持方言!更自然、真实的语音克隆和文本转语音工具 支持50系显卡 一键整合包下载