无言以对 发表于 2025-1-18 23:20:54

LatentSync V3版 - 字节开源最强AI数字人项目,音频驱动视频,精准控制唇形同步模型 本地一键整合包下载



LatentSync‌ 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示,直接利用Stable Diffusion的强大能力,建模复杂的音频与视觉之间的关系,实现视频中人物唇部动作与音频的精准同步‌。
LatentSync‌ 可广泛用于音频驱动数字人项目中,测试下来,应该是目前开源综合效果最好的数字人项目,但它同样有个类似项目共同的缺点,对中文适配效果稍差。

今天分享的LatentSync V3版 ,同步官方最新源代码。
优化内存和资源占用,优化推理速度,推理更快。
删除训练模型,只保留推理所需模型,减少一键包体积(如需训练,请下载V2版)。

应用场景
LatentSync 可以应用于配音、虚拟头像、AI数字人生成等场景,通过输入音频生成与之匹配的唇部运动,实现高度逼真的口型同步效果‌

项目优势
此外,该模型对硬件要求适中,仅需 6.5 GB的显存即可运行,适合大多数开发者和研究人员使用‌

项目地址:https://github.com/bytedance/LatentSync

使用教程:(建议N卡,显存6G起)
上传驱动音频和视频,设置相关参数,生成即可。
注意事项:上传参考音频和视频时间长度最好一致,如果音频长度大于视频长度,则默认按照视频时长长度生成。如果视频长度音频长度大于视频长度,默认按照音频时长长度生成。
一键包基于CUDA12.1制作,所以需要本地安装CUDA12.X版,CUDA多版本共存参考此贴 https://deepface.cc/thread-360-1-1.html


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOGwv5u6je27SWFCd82qXVL-A1?pwd=8sq4
夸克网盘:**** 本内容需购买 ****
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/

nsctt 发表于 2025-1-19 00:18:29

好像这版本不错,期待中。。。。

xuyi263 发表于 2025-3-11 17:10:00

搞点积分!
页: [1]
查看完整版本: LatentSync V3版 - 字节开源最强AI数字人项目,音频驱动视频,精准控制唇形同步模型 本地一键整合包下载