DMOSpeech 2 - 轻量快速的零样本文本转语音语音克隆工具支持50系显卡一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-7-24 14:01:08

DMOSpeech 2 - 轻量快速的零样本文本转语音语音克隆工具支持50系显卡一键整合包下载

DMOSpeech 2 是一个零样本文本转语音工具，支持免训练一键语音克隆和文本转语音，支持中英混合生成。基于 F5-TTS 改进优化，硬件资源占用更低，生成速度更快，并实现了更自然、更高效的语音生成。
DMOSpeech 2 能根据参考音频的情感类型，生成对应情感的语音结果。比如参考音频带有高兴、悲伤等情感，生成的音频结果同样具备参考音频的高兴或悲伤等情感，同时具备更稳定的生成效果。

应用领域

娱乐与内容创作
虚拟角色配音：为游戏、动画中的角色提供自然流畅的语音，支持多语言和情感表达（如愤怒、喜悦）。
播客与短视频制作：用户可通过克隆自身或他人声音，快速生成高质量旁白，降低配音成本。

教育与辅助工具
语言学习：为视障人士或语言学习者提供清晰的语音输出，支持多语言混合学习（如中英文切换）。
互动式教学：生成带情感起伏的语音内容，增强课程趣味性。

客户服务与智能助手
智能客服：在呼叫中心中提供自然流畅的语音交互，提升客户满意度。
智能家居：作为语音助手的核心组件，实现人性化对话（如调整温度、播放音乐）。

跨语言场景
多语言讲解：支持32种语言混合输出，适用于国际会议、产品海外推广等场景。
实时翻译配音：翻译后直接生成目标语言语音，打破语言壁垒。

使用教程：（建议N卡，显存4G起。支持50系显卡，基于CUDA12.8）

上传参考音频，输入对应文字内容（也可留空），输入需要转换的文字以及转换模式，一键生成即可。
我在原版的基础上新增了语速调节，支持手动调节生成语音语速，建议设置值在0.7-1.3之间为佳。

新增了api服务：双击启动api，默认监听 http://localhost:8000，调用示例：
curl -X POST http://localhost:8000/generate \
-F "text=你好，这里是测试语音。" \
-F "prompt_audio=@/path/to/ref.wav" \
-F "speed=1.2"返回 JSON：

{
"url": "http://localhost:8000/download/tmpabc123.wav",
"duration": 2.34,
"speed": 1.2
}

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOVwy-1xgR3ewIIAm7jB2SlXA1?pwd=6tba (默认不带模型，首次运行会自动下载)
百度网盘：**** 本内容需购买 ****

Benny77 发表于 2025-7-26 01:15:09

必须从 HuggingFace 下载模型吗？连不上啊。。。

Benny77 发表于 2025-7-26 01:18:35

或者能不能把模型放在某个网盘共享呢？

无言以对 发表于 2025-7-26 09:09:34

Benny77 发表于 2025-7-26 01:15
必须从 HuggingFace 下载模型吗？连不上啊。。。

如果下载或连接失败，X掉下载窗口，多试几次。

Benny77 发表于 2025-7-26 14:10:59

一开始点击“生成语音”，“状态”窗口就提示“Error: Calculated padded input size per channel: (6). Kernel size: (7). Kernel size can't be greater than actual input size”，然后没有继续工作，是为什么呢？

无言以对 发表于 2025-7-26 14:48:44

Benny77 发表于 2025-7-26 14:10
一开始点击“生成语音”，“状态”窗口就提示“Error: Calculated padded input size per channel: (6). Ke ...

这个好像不支持长文本，短的试试
我后期看看有没有解决方案

cyizb425 发表于 2025-8-5 14:01:47

这个效果不好，认字不多，还“胡说八道”...

页: [1]

前沿AI软件资源站's Archiver

DMOSpeech 2 - 轻量快速的零样本文本转语音 语音克隆工具 支持50系显卡 一键整合包下载

DMOSpeech 2 - 轻量快速的零样本文本转语音语音克隆工具支持50系显卡一键整合包下载