LongCat-AudioDiT - 美团开源超强语音克隆神器,文字秒变逼真语音 支持50系显卡 一键整合包下载
LongCat-AudioDiT 是美团开源的一款最新的文本转语音(TTS)模型,它直接在语音波形的“潜在空间”中工作,不再依赖传统的声谱图,从而让语音生成更简单、更高效,并且在声音克隆(模仿说话者声音)方面达到了业界领先水平。它让“用文字生成像真人一样的声音”这件事变得更简单、质量更高,尤其在克隆声音这块特别亮眼。
传统 TTS 模型往往先生成“梅尔谱”(一种中间音频特征),再转成声音,中间步骤多,容易出错、声音不自然。 而 LongCat-AudioDiT 很“直接”:它用一个波形变分自编码器(Wav-VAE)把声音压成潜在空间的“压缩版”,然后扩散模型直接在这个空间里生成语音,最后解压成真实声音。整个过程简化了很多,减少了层层转换带来的误差。 它还改进了推理时的引导方式,用 APG(自适应投影引导) 代替传统的 CFG,让生成的声音更自然、说话人相似度更高。
主要特点
架构简单高效:只需要 Wav-VAE + 扩散主干,不需要复杂多阶段训练或大量高质量人工标注数据。
直接生成波形潜在空间:跳过中间声学特征,减少累积错误,声音更保真。
零样本语音克隆强:只需提供一段提示音频(prompt audio),就能模仿那个人的声音说新内容,效果达到当前开源/闭源模型的 SOTA(最先进)水平。
中英文都支持:在 Seed 基准测试中,相似度(SIM)等指标超过 CosyVoice、Qwen-TTS 等竞品。
推理快、模型轻:支持秒级一键生成,有 1B 和 3.5B 参数版本,采样率 24kHz,声音清晰自然。
应用领域
语音合成:把文字朗读成音频,用于智能助手、导航播报、有声书、视频配音等。
个性化语音克隆:输入一段某人的说话录音,就能让他/她说任意新文本。适合虚拟主播、游戏角色配音、辅助阅读(比如给老人/残障人士生成熟悉的声音)、影视后期等。
多语言语音生成:中英文混合或切换场景。
研究与工业部署:开源代码 + 模型权重,研究者可以复现或改进,开发者可以集成到产品里(MIT 协议,可商用,但不能用美团商标)。
使用教程:(建议N卡,显存8G起,支持50系显卡)
包含文本转语音/语音克隆和多人语音对话生成三个功能
使用方法很简单,和之前的类似TTS软件操作类似
注:当前模型不支持长文本,比如超过1分钟的会有问题,不超过1分钟没问题,等模型后期支持我再同步更新。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOp7tVNUGB_iKB0-2WbX1Ll5A1?pwd=2ctr
夸克网盘:
**** 本内容需购买 ****
百度网盘:
**** 本内容需购买 ****
页:
[1]