SoulX-Podcast - 支持方言和副语言的逼真长篇播客生成 支持50系显卡 一键整合包下载
SoulX-Podcast 是由Soul(没听错,就是聊天软件Soul)AI团队开发的语音合成工具,能够根据文本生成高质量、逼真的播客音频。它不仅能处理单人独白,更擅长模拟多人多轮对话,让生成的语音像真实播客一样自然。
SoulX-Podcast 支持提供多段参考音频实现零样本克隆生成逼真且富有情感的播客对话音频,不仅支持多种方言(比如四川话、粤语、河南话等)和副语言(比如笑声、叹息、清嗓等非语言声音),且支持超长文本生成,支持持续生成60分钟以上的对话内容,同时保持情感和音色稳定。
核心功能
多轮次、多角色对话生成
可生成超过90分钟的连贯对话,角色间音色稳定、过渡自然。 示例:模拟两人讨论“AI技术”或“方言文化”,语音节奏和情感随对话进展自适应调整。
跨方言零样本语音克隆
支持普通话、英语及四川话、河南话、粤语等方言。 无需目标说话人的训练数据,即可克隆其方言语音。 示例:用普通话音频克隆出粤语播客,音色和方言特征均保留。
副语言控制
可控制笑声、叹息、清嗓等非语言声音,增强语音真实感。 示例:在播客中插入笑声或叹息,使对话更生动。
长篇内容稳定性
持续生成超60分钟的播客时,保持角色音色一致性和情感连贯性。
应用领域
个性化语音合成: 可用于生成具有特定方言或语言风格的个性化语音,适用于语音助手、导航系统等。
娱乐和媒体制作: 适用于播客制作、有声书录制、游戏角色配音等娱乐和媒体领域。
辅助技术: 为有特殊需求的人群提供定制化的语音合成服务,如视障人士的语音阅读。
语言研究: 用于语言学研究,分析不同方言和语言的语音特征。
使用教程:(建议N卡,显存6G起,支持50系显卡,建议CUDA≥12.8)
分别下载压缩包和模型(pretrained_models文件夹),解压压缩包后,将模型(pretrained_models文件夹)移动到主程序目录下即可。目录结构如下:
│app.py
│一键启动-方言.exe
│一键启动.exe
├─assets
├─cache
├─cli
├─deepface
├─example
├─pretrained_models
├─soulxpodcast
包含两种启动方式,普通话和方言,请根据自己需要的场景选择启动方式。
上传两段需要生成的参考音频,输入参考文本(支持普通话和方言两种模式,根据需要选择启动方式),最后生成即可。
如果是普通话,在“参考文本”里输入参考文本,直接输入即可,无需任何前缀
如果是方言,在“参考推理链文本”里输入参考文本,前缀如下:<|Sichuan|>/<|Yue|>/<|Henan|>,如:<|Sichuan|>走嘛,切吃那家新开的麻辣烫,听别个说味道硬是霸道得很,好吃到不摆了,去晚了还得排队!
常见副语言标签:<|laughter|> 笑、<|sigh|> 叹气、<|breathing|> 停顿、<|coughing|>咳嗽、<|throat_clearing|>清嗓子
也可参考下方“播客模板示例”
视频教程:https://www.toutiao.com/video/7567306555020821032/
下载地址:
UC网盘:https://drive.uc.cn/s/b406704f43c54
夸克网盘:
**** 本内容需购买 ****
百度网盘:
**** 本内容需购买 ****
谢谢分享! 感谢分享 群主真棒,我爱群主 谢谢分享!
UC网盘就很奇怪,我一尝试下载就告诉我“下载失败,请稍后重试”。 谢谢分享
谢谢分享 普通话版可以正常生成,但是到方言版的时候,报错了: "prompt_cot_text_tokens_for_llm": data["prompt_cot_text_tokens"],KeyError: 'prompt_cot_text_tokens'
是哪里设置不对吗? ph.li 发表于 2025-11-3 14:28
普通话版可以正常生成,但是到方言版的时候,报错了: "prompt_cot_text_tokens_for_llm": data["prompt_ ...
两个启动程序,方言运行方言启动程序
页:
[1]
2