Hallo2 - 复旦、百度联手推出全新AI数字人模型 可生成4K超高清+1小时超长视频 本地一键整合包下载
Hallo2是复旦大学和百度联合开发的一款全新 AI数字人模型,该模型可以生成长达数小时的 4K 分辨率人物动画,现已在 GitHub 发布开源,项目地址:https://github.com/fudan-generative-vision/hallo2 。
Hallo2 模型建立在 latent diffusion models 的基础上,相比上一代 Hallo 模型的效果更好,支持了长视频生成,通过引入数据增强方法如 patch-drop 和高斯噪声,有效提高了长时间视频的视觉一致性和时间连贯性。
Hallo2 还结合了向量量化生成对抗网络和时间对齐技术,保证了高分辨率视频的质量和流畅性。此外,Hallo2 将可调整的语义文本标签的肖像表情作为条件输入。这超出了传统的音频提示,可以提高可控性并增加所生成内容的多样性。
项目页面介绍称,Hallo2 是第一种实现 4K 分辨率并生成长达 1 小时的音频驱动的人像图像动画的方法,并通过文本提示进行增强。
https://pic.imgdb.cn/item/6715e3a8d29ded1a8c9fe7bb.gif
使用教程:(只支持N卡,推荐显存12G起)
素材要求(对于源图像):它应该被裁剪成方块;面部应该是主要焦点,占图像的 50%-70%;面部应面向前方,旋转角度小于 30°(无侧面轮廓)。
素材要求(对于驱动音频):它必须是 WAV 格式;它必须是 WAV 格式。它必须是英文的,因为我们的训练数据集只使用这种语言;确保人声清晰;背景音乐是可以接受的。
下载地址:
夸克网盘:
https://pan.quark.cn/s/fb6f8630e139
百度网盘:
**** 本内容需购买 ****
:Q刚买的LivePortrait V4版还没下载好就出来新的了啊 liuhao1207 发表于 2024-10-21 13:33
刚买的LivePortrait V4版还没下载好就出来新的了啊
这俩用途区别还是很大的 无言以对 发表于 2024-10-21 14:02
这俩用途区别还是很大的
我买了那个后才发现买错了,我主要是想弄AI数字人介绍产品的视频,带语音的那种。那个好像不太行。 liuhao1207 发表于 2024-10-21 14:20
我买了那个后才发现买错了,我主要是想弄AI数字人介绍产品的视频,带语音的那种。那个好像不太行。 ...
用 MuseTalk 这个 无言以对 发表于 2024-10-21 14:22
用 MuseTalk 这个
好的,我去看看 下载试试先,谢谢 如何收藏帖子啊:) 这个和MuseTalk差不多啊,一个视频改变口型需要语音文件。这个是一张照片改口型,最后得出的东西都差不多啊,有做过对比哪个效果好吗? 我一直报这个错,有没有大神可以教教我怎么解决啊,谢谢大家
RuntimeError: C:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:866 onnxruntime::python::CreateExecutionProviderInstance CUDA_PATH is set but CUDA wasnt able to be loaded. Please install the correct version of CUDA andcuDNN as mentioned in the GPU requirements page,make sure they're in the PATH, and that your GPU is supported.
页:
[1]
2