LatentSync V4版 - 字节开源最强AI数字人项目，新增批量生成，音频驱动视频生成说话视频本地一键整合包下载

无言*** · 发表于 2025-1-20 13:28:10

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

LatentSync V4版 - 字节开源最强AI数字人项目，精准控制唇形同步，音频驱动视频生成说话视频本地一键整合 ...

LatentSync‌ 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示，直接利用Stable Diffusion的强大能力，建模复杂的音频与视觉之间的关系，实现视频中人物唇部动作与音频的精准同步‌。
LatentSync‌ 可广泛用于音频驱动数字人项目中，测试下来，应该是目前开源综合效果最好的数字人项目，但它同样有个类似项目共同的缺点，对中文适配效果稍差。

今天分享的LatentSync V4版，同步官方最新源代码。
新增批量处理，可以一次处理多个视频生成，提升工作效率。
优化内存和资源占用，优化推理速度，推理更快。
删除训练模型，只保留推理所需模型，减少一键包体积（如需训练，请下载V2版）。

应用场景
LatentSync 可以应用于配音、虚拟头像、AI数字人生成等场景，通过输入音频生成与之匹配的唇部运动，实现高度逼真的口型同步效果‌

项目优势
此外，该模型对硬件要求适中，仅需 6.5 GB的显存即可运行，适合大多数开发者和研究人员使用‌

项目地址：https://github.com/bytedance/LatentSync

使用教程：(建议N卡，显存6G起)
上传驱动音频和视频，设置相关参数，生成即可。
注意事项：上传参考音频和视频时间长度最好一致，如果音频长度大于视频长度，则默认按照视频时长长度生成。如果视频长度音频长度大于视频长度，默认按照音频时长长度生成。
批量生成：上传音频和视频，调节参数，添加到队列。依次按照第一步操作添加到队列，最后执行“处理队列”即可。生成的视频保存在processed_videos目录下。

一键包基于CUDA12.1制作，所以需要本地安装CUDA12.X版，CUDA多版本共存参考此贴 https://deepface.cc/thread-360-1-1.html

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOSO39remGD1yLkKF3tOl4U3A1?pwd=xbvf
夸克网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源

立即购买

百度网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源

立即购买

解压密码：https://deepface.cc/ 复制这个完整的网址即是解压密码，不要有空格，复制粘贴即可

fhzyyx@*** · 发表于 2025-1-21 14:44:44

感谢楼主分享

来日*** · 发表于 2025-1-23 13:54:53

中文效果不太好

huido*** · 发表于 2025-1-25 10:20:17

对比目前其它的开源免费数对口型数字人，这个还算是效果最好的了，无论是口型的准确度和牙齿来说，还有就是画质，还有生成速度来说，虽不是完美，但也还是不错了。

touv*** · 发表于 2025-2-6 17:32:20

经常会报错：
Stack expects a non-empty TensorList
可能是什么原因呢？

另外，有视频时长和音频时长的限制么？

leon5h*** · 发表于 2025-3-12 02:52:02

这个效果确实挺好的，就是按参考视频或音频中最短的生成，算是个缺点，因为AI绘图得到的虚拟形象生成参考视频的效果和硬件消耗太大，每次只能获得比较短的参考视频，一般情况还是驱动音频的时间较长

LatentSync V4版 - 字节开源最强AI数字人项目，新增批量生成，音频驱动视频生成说话视频本地一键整合包下载

马上注册，下载更多AI资源软件

点评

评分

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

		自动登录	找回密码
密码			立即注册

LatentSync V4版 - 字节开源最强AI数字人项目，新增批量生成，音频驱动视频生成说话视频 本地一键整合包下载

马上注册，下载更多AI资源软件

点评

评分

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

LatentSync V4版 - 字节开源最强AI数字人项目，新增批量生成，音频驱动视频生成说话视频本地一键整合包下载