无言以对 发表于 2024-10-6 15:57:24

JoyHallo - 音频驱动照片生成数字人视频模型,京东开源数字人项目 本地一键整合包下载


JoyHallo是京东健康团队开源的一款普通话普通话数字人开源项目,只需要一张图片和一段音频,即可生成对应的数字人说话视频。该项目的一大亮点就是普通话口型更加精准,相比其他开源项目,普通话生成的效果更加精准。
收集全面的普通话数据集很困难,与英语相比,普通话中复杂的嘴唇动作使模型训练更加复杂。在这项研究中,我们从京东健康集团员工那里收集了 29 小时的普通话语音视频,从而产生了 jdh-Hallo 数据集。该数据集包括各种年龄和说话风格,包括对话和专业医学主题。为了将 JoyHallo 模型调整为普通话,我们采用了中文 wav2vec2 模型进行音频特征嵌入。提出了一种半解耦结构来捕获嘴唇、表情和姿势特征之间的特征间关系。这种集成不仅提高了信息利用效率,而且将推理速度提高了 14.3%。值得注意的是,JoyHallo 保持了强大的英文视频生成能力,展现了出色的跨语言生成能力。


演示视频:



使用教程:(只支持N卡,建议显存12G起)

上传一张图片(图片建议裁切成正方形,人脸比例占大部分比例),和一段音频,生成即可


下载地址:
夸克网盘:https://pan.quark.cn/s/0c2e493be717

mcc123456 发表于 2024-10-6 18:58:17

感谢分享

it小工 发表于 2024-10-6 19:05:24

JoyHallo - 音频驱动照片生成数字人视频模型,京东开源数字人项目 本地一键整合包下载

clw8848 发表于 2024-10-6 19:35:47

感谢分享

16岁高中少女 发表于 2024-10-6 20:20:05

感谢感谢:handshake

zray3979 发表于 2024-10-6 20:38:52

Hello flow yrou !!

人人 发表于 2024-10-6 22:56:42

感谢分享!

greatchan 发表于 2024-10-6 23:29:56

每天登录是否可以攒够下载的积分?

ywlgg 发表于 2024-10-7 00:09:09

楼主辛苦了,谢谢楼主发的好帖子~

longyou 发表于 2024-10-7 00:19:30

辛苦辛苦
页: [1] 2 3 4 5 6 7 8 9
查看完整版本: JoyHallo - 音频驱动照片生成数字人视频模型,京东开源数字人项目 本地一键整合包下载