Higgs Audio V2 - 一个强大的语音模型，支持文本转语音、语音克隆、多人对话生成等支持50系显卡一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-7-26 11:27:19

Higgs Audio V2 - 一个强大的语音模型，支持文本转语音、语音克隆、多人对话生成等支持50系显卡一键整合包下载

Higgs Audio v2 是一个强大的音频生成模型，它在超过1000万小时的音频数据和多种文本数据上进行了预训练。尽管没有进行额外的后训练或微调，Higgs Audio v2在表达性音频生成方面表现出色，这得益于它对语言和声音的深刻理解。该模型能够生成具有情感的语音、多说话者对话、自动调整语调、模仿哼唱以及同时生成语音和背景音乐，功能十分强大且多样，为音频处理、语音合成、多媒体内容创作等领域带来新的可能性。

今天分享的 Higgs Audio V2 ，在社区大佬 Nyarlth 的量化版本上整合优化，官方原版需要16G显存运行，而今天分享的量化版只需要8G显存即可使用。

应用领域

语音合成与转换：可以用于生成高质量的语音，或将文本转换为自然流畅的语音输出，适用于语音助手、有声读物、在线教育等领域。
多语言与多说话者场景：支持生成包含多个说话者的对话，且能自动分配或克隆特定声音，适用于电影配音、动画制作、游戏角色对话等需要多角色语音交互的场景。
情感语音表达：能够生成带有情感的语音，使语音内容更加生动和富有表现力，适用于情感计算、心理咨询、娱乐产业等领域。
音乐与语音融合创作：支持同时生成语音和背景音乐，为音乐创作、广告制作、影视配乐等领域提供新的创作手段。

使用教程：（建议N卡，显存8G起。支持50系显卡，基于CUDA12.8）

首页切换对应的预设，比如语音克隆和多人对话生成
语音克隆支持预设模板和自定义参考音频克隆，多人对话生成类似之前发布的 MOSS-TTSD ，输入两个人的对话内容即可生成。
当前版本对话生成只支持默认音色生成，后期会新增支持自定义参考音频功能。

长文本生成如果失败，请调高 Max tokens 这个参数数值
其他大家自行尝试

下载地址：
夸克网盘：https://pan.quark.cn/s/a609046ff4be
百度网盘：**** 本内容需购买 ****

shao12138 发表于 2025-7-31 16:51:21

有没有一种克隆很快的方案，目前来看CV2 的速度还是慢，快一点的其他模型也要1-2s，有没有能在200ms之内的呢？之前尝试过CV1保存音色然后生成是可以的，但是质量很差劲。

页: [1]

前沿AI软件资源站's Archiver

Higgs Audio V2 - 一个强大的语音模型，支持文本转语音、语音克隆、多人对话生成等 支持50系显卡 一键整合包下载

Higgs Audio V2 - 一个强大的语音模型，支持文本转语音、语音克隆、多人对话生成等支持50系显卡一键整合包下载