无言以对 发表于 2024-4-19 21:26:04

让照片说话 - SadTalker 语音驱动数字人一键整合包



https://pic.imgdb.cn/item/662270a50ea9cb1403baf287.gif

随着数字人概念的火爆、生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题。不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题,比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。最近来自西安交通大学等的研究人员提出了SadTalker模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一个全新的3D面部渲染器来生成头部运动。项目地址:https://github.com/OpenTalker/SadTalker如果你想要体验更好的效果,目前开源里效果最好的数字人,也只有腾讯的MuseTalk了,点此进入
这里简单说下几个参数:1、姿势样式:设置不同的数值,可以调整说话时不同的头部转动姿势。可以逐个增加这个数值测试效果;2、人脸模型分辨率:分为256和512,512生成的人脸清晰度比256要好,但512好像会失真,且速度比256慢,如果头像不是很大,256就够了;3、预处理:简单说就是处理人头和身体的衔接,具体哪种方式,可以自行测试,可以配合“姿势样式”这个参数来设置;4、静止模式:就是说话人头不会晃动;5、批处理大小:数值越大,处理速度越快,需要的显存也越大。根据自己显卡设置,显卡差的不要随便改,容易爆显存。同为音频驱动图像生成数字人项目,和本站分享的另一个项目 SadTalker-Video-Lip-Sync 类似,具体两者对比,我没做过测试,有兴趣的朋友可以自行测试。下载解压后,再下载附件,下载后拷贝到软件目录下,然后手动配置FFMPEG,配置教程 点此进入 再运行一键启动。
下载地址:夸克网盘:https://pan.quark.cn/s/678e0b225507解压密码:SadTalker@deepface.cc百度网盘:**** Hidden Message *****

happynew 发表于 2024-4-21 20:07:22

nihhIHIHiH

zhoull 发表于 2024-4-22 09:24:03

一键整合包

anny9931 发表于 2024-4-22 16:13:17

感谢分享

anny9931 发表于 2024-4-22 16:30:40

楼主,我这个按任意键就自己关闭了,没了

anny9931 发表于 2024-4-22 18:13:12

anny9931 发表于 2024-4-22 16:30
楼主,我这个按任意键就自己关闭了,没了

我加了一个redulrements.txt 文件,可以用,但是生成出来提示Erro,找到生成的文件夹里面有生成的视频,不过没声音,。

xysm20220622 发表于 2024-4-23 12:36:08

感谢分享!

james_8084 发表于 2024-4-23 23:01:48

感谢楼主分享!

109121669 发表于 2024-4-25 09:37:44

语音驱动数字人一键整合包

395313213 发表于 2024-4-25 11:07:40

感谢分享 下载试试
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 让照片说话 - SadTalker 语音驱动数字人一键整合包