ConsisID - 一张图片生成个性化视频写真、身份保留文本到视频生成 本地一键整合包下载
ConsisID 是由北京大学元实验室联合国内外大学研究团队发布的一个可控的身份保留视频生成模型,这是一种基于免调谐的基于 DiT 的可控 IPT2V 模型,用于在生成的视频中保持人类身份的一致性。该方法从以前对视觉/扩散变压器频率分析的研究中汲取了灵感。
ConsisID 可以实现无需训练Lora的保持参考人脸一致性的文生视频,类似之前图像生成的IP-Adapter-Face和InstantID等图像类生成项目。虽然之前也有类似的工作,但都是基于图像生成,但是ConsisID在视频生成效果则更上一个台阶。
先来看看官方案例:
参考图
提示词:
A man gently clutching a bouquet of vibrant flowers, his eyes radiating a serene contentment as he glances at the camera. His slightly upturned lips convey a sense of calm joy, accompanied by a faint twinkle in his eye. The scene is set in a lush garden ......
一个男人轻轻地手里拿着一束鲜艳的花,当他瞥一眼镜头时,他的眼睛散发着一种宁静的满足。他微微上翘的嘴唇传达出一种平静的喜悦感,并伴随着他眼中微弱的闪烁。场景设置在郁郁葱葱的花园中......
参考图
看了几个官方的生成案例,效果还是很不错的。
使用教程:
上传一张参考图,输入提示词,生成即可。
目前的版本对显卡要求较高,实测4080S 16G显存+16G共享显存跑满,生成一段6秒的视频需要一个多小时。看来优化的空间还很大,估计目前消费卡只有4090能流畅运行了。
后期如果有优化版,会继续更新,这个项目还是很实用的,有条件的可以测试下。
官方还提供了HF在线体验,有次数限制,需要魔法,大家可以测试下,地址 https://huggingface.co/spaces/BestWishYsh/ConsisID-preview-Space
下载地址:
夸克网盘:https://pan.quark.cn/s/c912156370c6
百度网盘:
**** 本内容需购买 ****
这个很不错,期待一键包的到来,辛苦楼主了,谢谢 5090预计将在2025年1月发布
页:
[1]