无言以对 发表于 2025-7-26 11:27:19

Higgs Audio V2 - 一个强大的语音模型,支持文本转语音、语音克隆、多人对话生成等 支持50系显卡 一键整合包下载


Higgs Audio v2 是一个强大的音频生成模型,它在超过1000万小时的音频数据和多种文本数据上进行了预训练。尽管没有进行额外的后训练或微调,Higgs Audio v2在表达性音频生成方面表现出色,这得益于它对语言和声音的深刻理解。该模型能够生成具有情感的语音、多说话者对话、自动调整语调、模仿哼唱以及同时生成语音和背景音乐,功能十分强大且多样,为音频处理、语音合成、多媒体内容创作等领域带来新的可能性。

今天分享的 Higgs Audio V2 ,在社区大佬 Nyarlth 的量化版本上整合优化,官方原版需要16G显存运行,而今天分享的量化版只需要8G显存即可使用。

应用领域

语音合成与转换:可以用于生成高质量的语音,或将文本转换为自然流畅的语音输出,适用于语音助手、有声读物、在线教育等领域。
多语言与多说话者场景:支持生成包含多个说话者的对话,且能自动分配或克隆特定声音,适用于电影配音、动画制作、游戏角色对话等需要多角色语音交互的场景。
情感语音表达:能够生成带有情感的语音,使语音内容更加生动和富有表现力,适用于情感计算、心理咨询、娱乐产业等领域。
音乐与语音融合创作:支持同时生成语音和背景音乐,为音乐创作、广告制作、影视配乐等领域提供新的创作手段。


使用教程:(建议N卡,显存8G起。支持50系显卡,基于CUDA12.8)

首页切换对应的预设,比如语音克隆和多人对话生成
语音克隆支持预设模板和自定义参考音频克隆,多人对话生成类似之前发布的 MOSS-TTSD ,输入两个人的对话内容即可生成。
当前版本对话生成只支持默认音色生成,后期会新增支持自定义参考音频功能。

长文本生成如果失败,请调高 Max tokens 这个参数数值
其他大家自行尝试


下载地址:
夸克网盘:https://pan.quark.cn/s/a609046ff4be
百度网盘:**** 本内容需购买 ****

shao12138 发表于 2025-7-31 16:51:21

有没有一种克隆很快的方案,目前来看CV2 的速度还是慢,快一点的其他模型也要1-2s,有没有能在200ms之内的呢?之前尝试过CV1保存音色然后生成是可以的,但是质量很差劲。
页: [1]
查看完整版本: Higgs Audio V2 - 一个强大的语音模型,支持文本转语音、语音克隆、多人对话生成等 支持50系显卡 一键整合包下载