马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
MOSS-TTSD V6版 - 超自然多人对话语音生成 AI播客制作软件 支持多人语音克隆 一键整合包下载 ... ...
MOSS-TTSD 是一个开源的 AI 对话语音生成模型,专门用来把文字对话脚本直接变成听起来非常自然、像真人聊天的语音。
通俗的讲,只需要上传两段参考音频,输入两个人的对话文字内容,即可一键生成两人的对话音频内容,生成对话语音自然、且富有表现力,几乎接近真人对话水平。
今天分享的 MOSS-TTSD V6版 基于官方最新的 MOSS-TTSD v1.0模型打包制作,相比上个版本,最高支持5人对话内容生成,优点是生成的对话质量有了质的飞跃和提升,甚至可以媲美商业模型;缺点也很明显,因模型参数量为8B,所以需要更高的显存配置,建议显存12G起,适合对生成对话质量有较高要求的用户。
主要特点
特别擅长多人对话:不像普通语音合成工具只能念单句,它能直接处理多个人对话的脚本(带 [S1]、[S2] 等标签),自动生成说话人切换、自然停顿、语气变化,让对话听起来很真实。
零样本语音克隆:只需要提供几秒到几十秒的某个人说话录音,就能立刻用这个人的声音说话,几乎不需要额外训练。
支持中英双语(甚至更多语言),效果都很好。
能生成超长语音:一次最多可以生成几分钟到十几分钟的连续对话,不会轻易断掉或声音怪怪的。
表现力强:语气、情感、节奏控制得比较自然,v1.0 版本在主观听感上已经能和一些顶尖闭源模型比拼。
应用领域
AI 播客 / 视频解说:快速生成两人或多人对谈式的播客音频
有声书和故事讲述:多人角色对话的有声内容
短视频 / 短剧配音:自动生成对口相声、角色对话
虚拟主播 / 数字人:让数字人用指定声音进行自然对话
教育培训:生成对话式教学音频、语言学习材料
游戏 / 娱乐:NPC 对话、互动故事语音
无障碍辅助:把文字内容转为更自然的语音播报
使用教程:(建议N卡,显存12G起,支持50系显卡)
最多支持同时5人对话,设置说话人数量
输入对话文本内容,用标签[S1]和[S2]...区分,上传对应说话人的参考音频并输入参考音频文本,生成即可。
支持无参考音频生成,无参考音频即随机音色,上传参考音频即克隆模式。
下载地址:
https://pan.quark.cn/s/0d9fd393c132 |