LatentSync V5版 - 字节开源最强AI数字人项目,音频驱动视频生成数字人说话视频 本地一键整合包下载 ... .. ...
LatentSync 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示,直接利用Stable Diffusion的强大能力,建模复杂的音频与视觉之间的关系,实现视频中人物唇部动作与音频的精准同步。
LatentSync 是基于音频条件的端到端唇形同步框架,其核心目标是通过音频输入生成高分辨率、动态逼真的唇形同步视频,解决传统方法中时间一致性差、硬件要求高等问题。可广泛用于音频驱动数字人项目中,测试下来,应该是目前开源综合效果最好的数字人项目。
今天分享的 LatentSync V5版,基于官方最新的 LatentSync1.5版,新版主要更新以下内容:
1、修正上个版本唇形同步不一致的问题,提升生成口型同步一致性;
2、提高了中文视频性能,新版模型加入大量中文训练数据集,中文合成效果大幅度提升;
3、加载模型后,清除CUDA缓存,减少资源占用,提升显卡执行效率。
应用场景
影视与广告制作:用于后期配音同步、虚拟角色口型调整,提升视频真实感。
教育与企业服务:生成虚拟教师或客服的唇形同步视频,增强教学与服务的互动性。
游戏与虚拟人开发:为游戏角色或数字人赋予动态口型,实现实时语音交互。
直播与短视频创作:支持虚拟主播口型实时匹配音频,降低多语言内容制作成本。
使用教程:(建议N卡,显存6G起。基于CUDA12.1)
上传驱动音频和视频,设置相关参数,生成即可。
注意事项:上传参考音频和视频时间长度最好一致,如果音频长度大于视频长度,则默认按照视频时长长度生成。如果视频长度大于音频长度,默认按照音频时长长度生成。
视频教程:https://www.toutiao.com/video/7482596043629969971/
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOLWb0SBDnSMZAEyr7TrU-XXA1?pwd=di7a
百度网盘:游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 99碎银 下载该资源 立即购买
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可
|