无言以对 发表于 2025-9-16 08:26:14

FireRedTTS2 - 面向播客和聊天机器人的长对话语音生成系统 支持50系显卡 一键整合包下载


FireRedTTS-2 是一个用于多角色对话生成的长格式流式语音合成系统,能够提供稳定、自然的语音,支持可靠的说话人切换和上下文感知的韵律。可广泛应用于播客和聊天机器人的长对话语音生成领域。
FireRedTTS-2 是一个功能强大、灵活多变的语音生成系统,特别适合需要长篇对话、多语言支持和低延迟的场景。无论是播客制作、聊天机器人、语音数据生成还是全球化应用,FireRedTTS-2 都能提供高质量的语音生成解决方案。


主要特点

长篇对话语音生成: FireRedTTS-2 能够生成长达3分钟的对话语音,支持4个说话人同时参与,而且通过扩展训练数据,可以轻松支持更长的对话和更多的说话人。
多语言支持: 系统支持多种语言,包括英语、中文、日语、韩语、法语、德语和俄语。这意味着你可以用不同语言生成语音,满足全球化的需求。
零样本语音克隆: FireRedTTS-2 具备零样本语音克隆能力,即无需大量目标说话人的语音数据进行训练,就能生成与目标说话人相似的语音。这在跨语言和代码切换场景中特别有用。
超低延迟: 系统采用了新的12.5Hz流式语音标记器,结合双变压器架构,实现了灵活的句子逐句生成,并大大降低了首包延迟。在L20 GPU上,首包延迟低至140ms,同时保持高质量的音频输出。
高稳定性: 无论是独白还是对话测试,FireRedTTS-2 都表现出高度的相似性和低错误率(WER/CER),确保生成的语音自然流畅。
随机音色生成: 系统可以生成随机音色,这对于创建自动语音识别(ASR)和语音交互数据非常有用。


应用领域

播客制作: FireRedTTS-2 可以用于生成多说话人的播客内容,使播客更加生动和多样化。
聊天机器人: 在聊天机器人中,系统可以生成自然流畅的语音回应,提升用户体验。特别是支持多语言和零样本语音克隆,使得聊天机器人能够适应不同语言和文化背景的用户。
语音数据生成: 随机音色生成功能可以用于创建大量的语音数据,以训练自动语音识别模型或对话模型,提升这些模型的准确性和鲁棒性。
全球化应用: 多语言支持使得FireRedTTS-2 在全球范围内都有应用潜力,无论是跨国企业的客户服务,还是国际内容的本地化,都能受益于此。



使用教程:(建议N卡,显存12G起,支持50系显卡)

上传参考音频(也可以使用随机音色),输入提示文本。输入需要生成的对话内容,用标签区分说话人,最后生成即可


下载地址:
123云盘:https://www.123684.com/s/OYeA-EQ4Bh

百度网盘:**** 本内容需购买 ****
页: [1]
查看完整版本: FireRedTTS2 - 面向播客和聊天机器人的长对话语音生成系统 支持50系显卡 一键整合包下载