无言以对 发表于 2025-1-10 10:59:34

LatentSync V2版 - 字节开源最强AI数字人项目,精准控制唇形同步模型 本地一键整合包下载



LatentSync‌ 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示,直接利用Stable Diffusion的强大能力,建模复杂的音频与视觉之间的关系,实现视频中人物唇部动作与音频的精准同步‌。

LatentSync‌ 可广泛用于音频驱动数字人项目中,测试下来,应该是目前开源效果最好的数字人项目,但它同样有个类似项目共同的缺点,对中文适配效果稍差。


今天分享的LatentSync V2版 ,同步官方的WebUI,同步最新源代码,新增了三个调节参数:引导系数、推理步数和随机种子

应用场景
LatentSync 可以应用于配音、虚拟头像、AI数字人生成等场景,通过输入音频生成与之匹配的唇部运动,实现高度逼真的口型同步效果‌

项目优势
此外,该模型对硬件要求适中,仅需 6.5 GB的显存即可运行,适合大多数开发者和研究人员使用‌


使用教程:(建议N卡,显存6G起)

上传驱动音频和视频,设置相关参数,生成即可。



下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOGDLI_JR6FltKDpuonrvgxgA1?pwd=hyhh
夸克网盘:https://pan.quark.cn/s/5f3373e6b7ef
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/

kj123456789 发表于 2025-1-10 21:01:58

大佬,测试的合成视频音频长度是不是只有20秒呢

无言以对 发表于 2025-1-10 22:13:42

kj123456789 发表于 2025-1-10 21:01
大佬,测试的合成视频音频长度是不是只有20秒呢

音频和视频长度得相同

nsctt 发表于 2025-1-10 22:23:55

这个下载 试试,之前 试好像只有6秒。。谢谢分享

kj123456789 发表于 2025-1-11 15:17:10

无言以对 发表于 2025-1-10 22:13
音频和视频长度得相同

原来如此 我再去试试:handshake

Arwar 发表于 2025-1-15 18:07:42

无言以对 发表于 2025-1-10 22:13
音频和视频长度得相同

试了一下
10秒的视频+1分多钟的音频

只能生成10秒的视频,好像有点鸡肋

无言以对 发表于 2025-1-15 18:33:31

Arwar 发表于 2025-1-15 18:07
试了一下
10秒的视频+1分多钟的音频



音频得和视频等长
页: [1]
查看完整版本: LatentSync V2版 - 字节开源最强AI数字人项目,精准控制唇形同步模型 本地一键整合包下载