无言以对 发表于 2025-1-8 22:44:12

LatentSync - 字节开源最强AI数字人项目,精准控制唇形同步模型 本地一键整合包下载


LatentSync‌ 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示,直接利用Stable Diffusion的强大能力,建模复杂的音频与视觉之间的关系,实现视频中人物唇部动作与音频的精准同步‌。

LatentSync‌ 可广泛用于音频驱动数字人项目中,测试下来,应该是目前开源效果最好的数字人项目,但它同样有个类似项目共同的缺点,对中文适配效果稍差。

应用场景
LatentSync 可以应用于配音、虚拟头像、AI数字人生成等场景,通过输入音频生成与之匹配的唇部运动,实现高度逼真的口型同步效果‌

项目优势
此外,该模型对硬件要求适中,仅需 6.5 GB的显存即可运行,适合大多数开发者和研究人员使用‌


使用教程:(建议N卡,显存6G起)
上传驱动音频和视频,生成即可。

下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOG8pEKF1jhYzSNrHuwvLp4iA1?pwd=qjsd
夸克网盘:https://pan.quark.cn/s/6a3dab2d9469
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/

nsctt 发表于 2025-1-8 23:36:54

这个速度快,生成效果不错的,期待中

AlexXu 发表于 2025-1-9 08:46:05

大佬,什么时候可以上这个整合包啊,谢谢大佬
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

无言以对 发表于 2025-1-9 12:29:14

AlexXu 发表于 2025-1-9 08:46
大佬,什么时候可以上这个整合包啊,谢谢大佬
STAR: Spatial-Temporal Augmentation with Text-to-Video Mo ...

是这个吗 https://github.com/NJU-PCALab/STAR
在关注,等官方webui发布了就整合

yangliu 发表于 2025-1-9 14:17:34

这个和muse talk,哪个效果好?

无言以对 发表于 2025-1-9 14:23:19

yangliu 发表于 2025-1-9 14:17
这个和muse talk,哪个效果好?

你可以对比下,我没做对比,这个英文效果更好,尤其是唇形同步更逼真。中文效果差一些

maya2024 发表于 2025-1-9 15:28:15

只有八秒长度?

无言以对 发表于 2025-1-9 15:40:58

maya2024 发表于 2025-1-9 15:28
只有八秒长度?

以你的音频长度为准

maya2024 发表于 2025-1-9 15:59:18

无言以对 发表于 2025-1-9 15:40
以你的音频长度为准

我的音长20秒左右:D

无言以对 发表于 2025-1-9 16:29:02

maya2024 发表于 2025-1-9 15:59
我的音长20秒左右

我测试过一个10s的,20s是不是太长了,你看报错了没
页: [1] 2
查看完整版本: LatentSync - 字节开源最强AI数字人项目,精准控制唇形同步模型 本地一键整合包下载