找回密码
 立即注册
查看: 1062|回复: 6

LatentSync V4版 - 字节开源最强AI数字人项目,新增批量生成,音频驱动视频生成说话视频 本地一键整合包下载

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

603

主题

722

回帖

4万

积分

武林盟主

积分
47957

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2025-1-20 13:28:10 | 显示全部楼层 |阅读模式

LatentSync V4版 - 字节开源最强AI数字人项目,精准控制唇形同步,音频驱动视频生成说话视频 本地一键整合 ...

LatentSync V4版 - 字节开源最强AI数字人项目,精准控制唇形同步,音频驱动视频生成说话视频 本地一键整合  ...


LatentSync‌ 是由字节跳动与北京交通大学联合提出的一种基于音频条件的潜在扩散模型的端到端唇同步框架。该框架无需任何中间运动表示,直接利用Stable Diffusion的强大能力,建模复杂的音频与视觉之间的关系,实现视频中人物唇部动作与音频的精准同步‌。
LatentSync‌ 可广泛用于音频驱动数字人项目中,测试下来,应该是目前开源综合效果最好的数字人项目,但它同样有个类似项目共同的缺点,对中文适配效果稍差。

今天分享的LatentSync V4版 ,同步官方最新源代码。

新增批量处理,可以一次处理多个视频生成,提升工作效率。
优化内存和资源占用,优化推理速度,推理更快。
删除训练模型,只保留推理所需模型,减少一键包体积(如需训练,请下载V2版)。

应用场景
LatentSync 可以应用于配音、虚拟头像、AI数字人生成等场景,通过输入音频生成与之匹配的唇部运动,实现高度逼真的口型同步效果‌

项目优势
此外,该模型对硬件要求适中,仅需 6.5 GB的显存即可运行,适合大多数开发者和研究人员使用‌

项目地址:https://github.com/bytedance/LatentSync

使用教程:(建议N卡,显存6G起)
上传驱动音频和视频,设置相关参数,生成即可。
注意事项:上传参考音频和视频时间长度最好一致,如果音频长度大于视频长度,则默认按照视频时长长度生成。如果视频长度音频长度大于视频长度,默认按照音频时长长度生成。

批量生成:上传音频和视频,调节参数,添加到队列。依次按照第一步操作添加到队列,最后执行“处理队列”即可。生成的视频保存在processed_videos目录下。

一键包基于CUDA12.1制作,所以需要本地安装
CUDA12.X版,CUDA多版本共存参考此贴 https://deepface.cc/thread-360-1-1.html


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOH1QMjqrUbyMEFRwrkbvbQVA1?pwd=qkf6
夸克网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源立即购买

百度网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源立即购买


解压密码:https://deepface.cc/
DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

5

回帖

16

积分

初入江湖

积分
16
发表于 2025-1-21 14:44:44 | 显示全部楼层
感谢楼主分享

签到天数: 6 天

[LV.2]偶尔看看I

7

主题

49

回帖

312

积分

超级版主

积分
312
发表于 2025-1-23 13:54:53 | 显示全部楼层
中文效果不太好

该用户从未签到

0

主题

6

回帖

22

积分

初入江湖

积分
22
发表于 2025-1-25 10:20:17 | 显示全部楼层
对比目前其它的开源免费数对口型数字人,这个还算是效果最好的了,无论是口型的准确度和牙齿来说,还有就是画质,还有生成速度来说,虽不是完美,但也还是不错了。

点评

确实,性价比算是最高的一个了  发表于 2025-1-25 10:42

评分

参与人数 1碎银 +2 收起 理由
无言*** + 2 很给力!

查看全部评分

该用户从未签到

0

主题

45

回帖

89

积分

无名之辈

积分
89
发表于 2025-2-6 17:32:20 | 显示全部楼层
经常会报错:
Stack expects a non-empty TensorList
可能是什么原因呢?

另外,有视频时长和音频时长的限制么?

签到天数: 17 天

[LV.4]偶尔看看III

0

主题

47

回帖

145

积分

无名之辈

积分
145
发表于 2025-3-12 02:52:02 | 显示全部楼层
这个效果确实挺好的,就是按参考视频或音频中最短的生成,算是个缺点,因为AI绘图得到的虚拟形象生成参考视频的效果和硬件消耗太大,每次只能获得比较短的参考视频,一般情况还是驱动音频的时间较长
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-16 19:37 , Processed in 0.099226 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表