LongCat-AudioDiT - 美团开源超强语音克隆神器，文字秒变逼真语音支持50系显卡一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2026-4-1 16:59:28

LongCat-AudioDiT - 美团开源超强语音克隆神器，文字秒变逼真语音支持50系显卡一键整合包下载

LongCat-AudioDiT 是美团开源的一款最新的文本转语音（TTS）模型，它直接在语音波形的“潜在空间”中工作，不再依赖传统的声谱图，从而让语音生成更简单、更高效，并且在声音克隆（模仿说话者声音）方面达到了业界领先水平。它让“用文字生成像真人一样的声音”这件事变得更简单、质量更高，尤其在克隆声音这块特别亮眼。

传统 TTS 模型往往先生成“梅尔谱”（一种中间音频特征），再转成声音，中间步骤多，容易出错、声音不自然。而 LongCat-AudioDiT 很“直接”：它用一个波形变分自编码器（Wav-VAE）把声音压成潜在空间的“压缩版”，然后扩散模型直接在这个空间里生成语音，最后解压成真实声音。整个过程简化了很多，减少了层层转换带来的误差。它还改进了推理时的引导方式，用 APG（自适应投影引导）代替传统的 CFG，让生成的声音更自然、说话人相似度更高。

主要特点

架构简单高效：只需要 Wav-VAE + 扩散主干，不需要复杂多阶段训练或大量高质量人工标注数据。
直接生成波形潜在空间：跳过中间声学特征，减少累积错误，声音更保真。
零样本语音克隆强：只需提供一段提示音频（prompt audio），就能模仿那个人的声音说新内容，效果达到当前开源/闭源模型的 SOTA（最先进）水平。
中英文都支持：在 Seed 基准测试中，相似度（SIM）等指标超过 CosyVoice、Qwen-TTS 等竞品。
推理快、模型轻：支持秒级一键生成，有 1B 和 3.5B 参数版本，采样率 24kHz，声音清晰自然。

应用领域

语音合成：把文字朗读成音频，用于智能助手、导航播报、有声书、视频配音等。
个性化语音克隆：输入一段某人的说话录音，就能让他/她说任意新文本。适合虚拟主播、游戏角色配音、辅助阅读（比如给老人/残障人士生成熟悉的声音）、影视后期等。
多语言语音生成：中英文混合或切换场景。
研究与工业部署：开源代码 + 模型权重，研究者可以复现或改进，开发者可以集成到产品里（MIT 协议，可商用，但不能用美团商标）。

使用教程：（建议N卡，显存8G起，支持50系显卡）

包含文本转语音/语音克隆和多人语音对话生成三个功能
使用方法很简单，和之前的类似TTS软件操作类似

注：当前模型不支持长文本，比如超过1分钟的会有问题，不超过1分钟没问题，等模型后期支持我再同步更新。

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOp7tVNUGB_iKB0-2WbX1Ll5A1?pwd=2ctr

夸克网盘：
**** 本内容需购买 ****

百度网盘：
**** 本内容需购买 ****

页: [1]

前沿AI软件资源站's Archiver

LongCat-AudioDiT - 美团开源超强语音克隆神器，文字秒变逼真语音 支持50系显卡 一键整合包下载

LongCat-AudioDiT - 美团开源超强语音克隆神器，文字秒变逼真语音支持50系显卡一键整合包下载