JoyHallo V2 - 音频驱动照片生成数字人视频模型，京东开源数字人项目本地一键整合包下载 - AI数字人 - 前沿AI软件资源站

无言以对 发表于 2024-10-10 11:41:54

JoyHallo V2 - 音频驱动照片生成数字人视频模型，京东开源数字人项目本地一键整合包下载

JoyHallo是京东健康团队开源的一款普通话普通话数字人开源项目，只需要一张图片和一段音频，即可生成对应的数字人说话视频。该项目的一大亮点就是普通话口型更加精准，相比其他开源项目，普通话生成的效果更加精准。
V2版本在第一版的基础上，优化了CUDA处理的速度，webui新增了几个控制参数。

收集全面的普通话数据集很困难，与英语相比，普通话中复杂的嘴唇动作使模型训练更加复杂。在这项研究中，我们从京东健康集团员工那里收集了 29 小时的普通话语音视频，从而产生了 jdh-Hallo 数据集。该数据集包括各种年龄和说话风格，包括对话和专业医学主题。
为了将 JoyHallo 模型调整为普通话，我们采用了中文 wav2vec2 模型进行音频特征嵌入。提出了一种半解耦结构来捕获嘴唇、表情和姿势特征之间的特征间关系。这种集成不仅提高了信息利用效率，而且将推理速度提高了 14.3%。值得注意的是，JoyHallo 保持了强大的英文视频生成能力，展现了出色的跨语言生成能力。

使用教程：（只支持N卡，建议显存12G起）

上传一张图片（图片建议裁切成正方形，人脸比例占大部分比例），和一段音频，生成即可

图像要求:
1. 裁剪成方形.
2. 面部应朝前，占图像的50%-70%.

音频要求:
1. 使用wav格式.
2. 普通话、英语或混合语，有清晰的音频和合适的背景音乐.

重要提示：音频过长会导致处理时间过长，请将音频长度控制在5秒以内.

下载地址：(V2版为升级补丁，需要先下载 V1版本，然后下载V2补丁，复制到软件目录，解压到当前文件及，根据提示升级覆盖)
夸克网盘：https://pan.quark.cn/s/6104b89d671b

lujun1996 发表于 2025-5-28 00:17:13

京东的也有数字人，看来确实是满地开花啊

页: [1]

前沿AI软件资源站's Archiver

JoyHallo V2 - 音频驱动照片生成数字人视频模型，京东开源数字人项目 本地一键整合包下载

JoyHallo V2 - 音频驱动照片生成数字人视频模型，京东开源数字人项目本地一键整合包下载