马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人 说话/唱歌 视频 一键整合包下载 ... ...
LongCat-Video-Avatar 1.5 是美团(Meituan)LongCat团队开源的一个AI数字人视频生成模型(也叫“会说话的头像/数字人模型”)。简单说,它能根据语音 + 文字描述(或者再加一张参考照片),自动生成说话自然、动作协调的视频人物。
想象一下:你给它一张照片(真人、动漫人物甚至动物),配一段录音(可以是中文或英文),再加点文字描述(如“一个女孩在咖啡店微笑说话”),它就能生成一段嘴巴同步说话、表情自然、全身动作稳定的短视频。还能继续生成更长的视频,或者让多个人一起对话。
当前版本对硬件要求较高,目前还没有更好的优化版,所以当前版本为尝鲜版,暂时也没制作操作友好的WebUI,后期有更好的硬件优化方案,再同步更新。
支持单人和双人两种生成模式 ,效果较上个版本提上很大,无论是口型还是同步的动作,都很优秀,就是对硬件要求略高,生成速度略慢。
主要特点
嘴巴同步超自然:用了Whisper-Large语音编码器(比之前版本强很多),说话时口型、节奏更准、更流畅。
稳定性强:适合生成较长的视频,人物身份(长相)保持一致,全身动作自然,不会轻易“穿模”或乱动。
支持多场景:能处理真人、动漫、动物;支持单人说话,也支持多人对话;还能拿东西、复杂互动。
生成速度快:优化后只需8步推理(以前可能要更多),速度快很多,还支持INT8量化省显存,比较适合实际使用。
输入灵活:支持纯语音+文字生成视频,或语音+图片生成视频,还能视频续接(把前面生成的继续往下演)。
应用领域
短视频/直播/虚拟主播:快速做出会说话的数字人主播。
电商营销:产品讲解视频、虚拟客服、带货主播。
教育/知识分享:老师讲解视频、知识科普。
娱乐/表演:唱歌、讲故事、角色扮演、动漫角色复活。
新闻播报、多人对话场景:虚拟新闻主播、对话节目。
影视/创意制作:快速生成演员试镜、动画预览等。
使用教程:(建议N卡,显存12G起,运存≥32G,支持50系显卡)
整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。
双击启动,进入WebUI后,点击左侧的 工作流,选择对应的工作流。
支持单人和双人两种模式,单人模式上传一张一人出境图像,双人模式上传一张两人出境图像
输入提示词,设置相关参数,最后运行生成。
相关参数设置页面有说明,视频时长由num segments控制,为(93/25)时长的倍数,具体换算为:93/25=3.7,num segments就设置为2,大概7秒左右,以此类推
如果是单人模式,需要手动关闭双人组节点,如果上传的音频非唱歌音频,则需要手动关闭最左侧的”人声分离“节点。
因默认启用Flash_Attn加速,所以需要本地安装配置 MSVC编译环境
软件目录结构
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── LongCat-Video-Avatar-1.5-int8.safetensors
│ ├── 📂 longcat/
│ │ ├──📂 vocal_separator
│ │ ├──📂 whisper-large-v3
│ ├── 📂 vae/
│ │ └── LongCat_Avatar_1.5_vae.safetensors
📂 deepface/
......
下载地址:
https://pan.quark.cn/s/ea7028481891 |