DMOSpeech 2 - 轻量快速的零样本文本转语音 语音克隆工具 支持50系显卡 一键整合包下载
DMOSpeech 2 是一个零样本文本转语音工具,支持免训练一键语音克隆和文本转语音,支持中英混合生成。基于 F5-TTS 改进优化,硬件资源占用更低,生成速度更快,并实现了更自然、更高效的语音生成。
DMOSpeech 2 能根据参考音频的情感类型,生成对应情感的语音结果。比如参考音频带有高兴、悲伤等情感,生成的音频结果同样具备参考音频的高兴或悲伤等情感,同时具备更稳定的生成效果。
应用领域
娱乐与内容创作
虚拟角色配音:为游戏、动画中的角色提供自然流畅的语音,支持多语言和情感表达(如愤怒、喜悦)。
播客与短视频制作:用户可通过克隆自身或他人声音,快速生成高质量旁白,降低配音成本。
教育与辅助工具
语言学习:为视障人士或语言学习者提供清晰的语音输出,支持多语言混合学习(如中英文切换)。
互动式教学:生成带情感起伏的语音内容,增强课程趣味性。
客户服务与智能助手
智能客服:在呼叫中心中提供自然流畅的语音交互,提升客户满意度。
智能家居:作为语音助手的核心组件,实现人性化对话(如调整温度、播放音乐)。
跨语言场景
多语言讲解:支持32种语言混合输出,适用于国际会议、产品海外推广等场景。
实时翻译配音:翻译后直接生成目标语言语音,打破语言壁垒。
使用教程:(建议N卡,显存4G起。支持50系显卡,基于CUDA12.8)
上传参考音频,输入对应文字内容(也可留空),输入需要转换的文字以及转换模式,一键生成即可。
我在原版的基础上新增了语速调节,支持手动调节生成语音语速,建议设置值在0.7-1.3之间为佳。
新增了api服务:双击启动api,默认监听 http://localhost:8000,调用示例:
curl -X POST http://localhost:8000/generate \
-F "text=你好,这里是测试语音。" \
-F "prompt_audio=@/path/to/ref.wav" \
-F "speed=1.2"返回 JSON:
{
"url": "http://localhost:8000/download/tmpabc123.wav",
"duration": 2.34,
"speed": 1.2
}
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOVwy-1xgR3ewIIAm7jB2SlXA1?pwd=6tba (默认不带模型,首次运行会自动下载)
百度网盘:**** 本内容需购买 ****
必须从 HuggingFace 下载模型吗?连不上啊。。。 或者能不能把模型放在某个网盘共享呢? Benny77 发表于 2025-7-26 01:15
必须从 HuggingFace 下载模型吗?连不上啊。。。
如果下载或连接失败,X掉下载窗口,多试几次。
一开始点击“生成语音”,“状态”窗口就提示“Error: Calculated padded input size per channel: (6). Kernel size: (7). Kernel size can't be greater than actual input size”,然后没有继续工作,是为什么呢? Benny77 发表于 2025-7-26 14:10
一开始点击“生成语音”,“状态”窗口就提示“Error: Calculated padded input size per channel: (6). Ke ...
这个好像不支持长文本,短的试试
我后期看看有没有解决方案 这个效果不好,认字不多,还“胡说八道”...
页:
[1]