LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人说话/唱歌视频一键整合包下载

无言*** · 发表于 2026-5-27 15:39:18

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人说话/唱歌视频一键整合包下载 ... ...

LongCat-Video-Avatar 1.5 是美团（Meituan）LongCat团队开源的一个AI数字人视频生成模型（也叫“会说话的头像/数字人模型”）。简单说，它能根据语音 + 文字描述（或者再加一张参考照片），自动生成说话自然、动作协调的视频人物。
想象一下：你给它一张照片（真人、动漫人物甚至动物），配一段录音（可以是中文或英文），再加点文字描述（如“一个女孩在咖啡店微笑说话”），它就能生成一段嘴巴同步说话、表情自然、全身动作稳定的短视频。还能继续生成更长的视频，或者让多个人一起对话。

当前版本对硬件要求较高，目前还没有更好的优化版，所以当前版本为尝鲜版，暂时也没制作操作友好的WebUI，后期有更好的硬件优化方案，再同步更新。
支持单人和双人两种生成模式，效果较上个版本提上很大，无论是口型还是同步的动作，都很优秀，就是对硬件要求略高，生成速度略慢。

主要特点

嘴巴同步超自然：用了Whisper-Large语音编码器（比之前版本强很多），说话时口型、节奏更准、更流畅。
稳定性强：适合生成较长的视频，人物身份（长相）保持一致，全身动作自然，不会轻易“穿模”或乱动。
支持多场景：能处理真人、动漫、动物；支持单人说话，也支持多人对话；还能拿东西、复杂互动。
生成速度快：优化后只需8步推理（以前可能要更多），速度快很多，还支持INT8量化省显存，比较适合实际使用。
输入灵活：支持纯语音+文字生成视频，或语音+图片生成视频，还能视频续接（把前面生成的继续往下演）。

应用领域

短视频/直播/虚拟主播：快速做出会说话的数字人主播。
电商营销：产品讲解视频、虚拟客服、带货主播。
教育/知识分享：老师讲解视频、知识科普。
娱乐/表演：唱歌、讲故事、角色扮演、动漫角色复活。
新闻播报、多人对话场景：虚拟新闻主播、对话节目。
影视/创意制作：快速生成演员试镜、动画预览等。

使用教程：（建议N卡，显存12G起，运存≥32G，支持50系显卡）

整合包包含所需所有节点，下载主程序和模型（ComfyUI文件夹），解压主程序一键包，将ComfyUI文件夹移动到主程序目录下即可。

双击启动，进入WebUI后，点击左侧的工作流，选择对应的工作流。
支持单人和双人两种模式，单人模式上传一张一人出境图像，双人模式上传一张两人出境图像
输入提示词，设置相关参数，最后运行生成。

相关参数设置页面有说明，视频时长由num segments控制，为（93/25）时长的倍数，具体换算为：93/25=3.7，num segments就设置为2，大概7秒左右，以此类推
如果是单人模式，需要手动关闭双人组节点，如果上传的音频非唱歌音频，则需要手动关闭最左侧的”人声分离“节点。
因默认启用Flash_Attn加速，所以需要本地安装配置 MSVC编译环境

软件目录结构

📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │    └── LongCat-Video-Avatar-1.5-int8.safetensors
│ ├── 📂 longcat/
│ │    ├──📂 vocal_separator
│ │    ├──📂 whisper-large-v3
│ ├── 📂 vae/
│ │    └── LongCat_Avatar_1.5_vae.safetensors
📂 deepface/
......

下载地址：
https://pan.quark.cn/s/ea7028481891

		自动登录	找回密码
密码			立即注册

LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人说话/唱歌视频一键整合包下载

马上注册，下载更多AI资源软件

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人 说话/唱歌 视频 一键整合包下载

马上注册，下载更多AI资源软件

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人说话/唱歌视频一键整合包下载