找回密码
 立即注册
查看: 850|回复: 0

JoyHallo V2 - 音频驱动照片生成数字人视频模型,京东开源数字人项目 本地一键整合包下载

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2024-10-10 11:41:54 | 显示全部楼层 |阅读模式

JoyHallo V2 - 音频驱动照片生成数字人视频模型,京东开源数字人项目 本地一键整合包下载 ... ...

JoyHallo V2 - 音频驱动照片生成数字人视频模型,京东开源数字人项目 本地一键整合包下载 ... ...


JoyHallo是京东健康团队开源的一款普通话普通话数字人开源项目,只需要一张图片和一段音频,即可生成对应的数字人说话视频。该项目的一大亮点就是普通话口型更加精准,相比其他开源项目,普通话生成的效果更加精准。
V2版本在第一版的基础上,优化了CUDA处理的速度,webui新增了几个控制参数。


收集全面的普通话数据集很困难,与英语相比,普通话中复杂的嘴唇动作使模型训练更加复杂。在这项研究中,我们从京东健康集团员工那里收集了 29 小时的普通话语音视频,从而产生了 jdh-Hallo 数据集。该数据集包括各种年龄和说话风格,包括对话和专业医学主题。

为了将 JoyHallo 模型调整为普通话,我们采用了中文 wav2vec2 模型进行音频特征嵌入。提出了一种半解耦结构来捕获嘴唇、表情和姿势特征之间的特征间关系。这种集成不仅提高了信息利用效率,而且将推理速度提高了 14.3%。值得注意的是,JoyHallo 保持了强大的英文视频生成能力,展现了出色的跨语言生成能力。


使用教程:(只支持N卡,建议显存12G起)

上传一张图片(图片建议裁切成正方形,人脸比例占大部分比例),和一段音频,生成即可


图像要求:
1. 裁剪成方形.
2. 面部应朝前,占图像的50%-70%.

音频要求:
1. 使用wav格式.
2. 普通话、英语或混合语,有清晰的音频和合适的背景音乐.
               
重要提示:音频过长会导致处理时间过长,请将音频长度控制在5秒以内.



下载地址:(V2版为升级补丁,需要先下载 V1版本,然后下载V2补丁,复制到软件目录,解压到当前文件及,根据提示升级覆盖)
夸克网盘:https://pan.quark.cn/s/6104b89d671b
DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-19 08:01 , Processed in 0.077485 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表