LatentSync V4版 - 字节开源最强AI数字人项目,精准控制唇形同步,音频驱动视频生成说话视频 本地一键整合 ...
LatentSync 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示,直接利用Stable Diffusion的强大能力,建模复杂的音频与视觉之间的关系,实现视频中人物唇部动作与音频的精准同步。
LatentSync 可广泛用于音频驱动数字人项目中,测试下来,应该是目前开源综合效果最好的数字人项目,但它同样有个类似项目共同的缺点,对中文适配效果稍差。
今天分享的LatentSync V4版 ,同步官方最新源代码。
新增批量处理,可以一次处理多个视频生成,提升工作效率。
优化内存和资源占用,优化推理速度,推理更快。
删除训练模型,只保留推理所需模型,减少一键包体积(如需训练,请下载V2版)。
应用场景
LatentSync 可以应用于配音、虚拟头像、AI数字人生成等场景,通过输入音频生成与之匹配的唇部运动,实现高度逼真的口型同步效果
项目优势
此外,该模型对硬件要求适中,仅需 6.5 GB的显存即可运行,适合大多数开发者和研究人员使用
项目地址:https://github.com/bytedance/LatentSync
使用教程:(建议N卡,显存6G起)
上传驱动音频和视频,设置相关参数,生成即可。
注意事项:上传参考音频和视频时间长度最好一致,如果音频长度大于视频长度,则默认按照视频时长长度生成。如果视频长度音频长度大于视频长度,默认按照音频时长长度生成。
批量生成:上传音频和视频,调节参数,添加到队列。依次按照第一步操作添加到队列,最后执行“处理队列”即可。生成的视频保存在processed_videos目录下。
一键包基于CUDA12.1制作,所以需要本地安装CUDA12.X版,CUDA多版本共存参考此贴 https://deepface.cc/thread-360-1-1.html
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOH1QMjqrUbyMEFRwrkbvbQVA1?pwd=qkf6
夸克网盘:游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源 立即购买
百度网盘:游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源 立即购买
解压密码:https://deepface.cc/
|