Pyramid Flow - 快手联合北大、北邮开发的文生视频AI模型 最高 10 秒 768P@24fps 本地一键整合包下载
10月12日上午,快手和北京大学及北京邮电大学的研究团队共同开源了Pyramid-Flow的超高清视频生成模型。目前支持两种分辨率模型生成,一种640x384,另一种1280x768。用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。主要面向开发者、艺术家和创作者。目前,该模型已经在Hugging Face平台上线,并完全开源。
相比之前的 CogVideoX ,Pyramid Flow的生成速度更快,资源占用更低。
项目地址:https://pyramid-flow.github.io/
项目优势:
高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一。
快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。
开源和商业使用:Pyramid-Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。
生成案例:
https://pic.imgdb.cn/item/670c5b8fd29ded1a8c79949e.gif
https://pic.imgdb.cn/item/670c5babd29ded1a8c79a244.gif
https://pic.imgdb.cn/item/670c5bbdd29ded1a8c79acd7.gif
使用教程:目前只支持N卡,建议显存12G起,作者放出预告,下个版本支持CPU卸载,8G显存可以流畅运行(测试了CPU卸载,速度太慢了,所以低于12G显存的卡就别尝试了)
引导系数: 参数控制视觉质量。我们建议在文本到视频生成期间对 768p 模型使用 ,对 384p模型使用 7 中。
视频引导系数:参数控制运动。较大的值会增加动态程度并减轻自回归生成降级,而较小的值可稳定视频。
对于 10 秒视频生成,我们建议使用引导系数 7 和 视频引导系数 5。
下载地址:
夸克网盘:
https://pan.quark.cn/s/e86a1f9fdfc3
百度网盘:
**** Hidden Message *****
希望我的22g显卡可以用了 大佬看你一下怎么办
好像是:当前CUDA设备不支持bfloat16。请将dtype切换为float16。 maya2024 发表于 2024-10-15 08:26
好像是:当前CUDA设备不支持bfloat16。请将dtype切换为float16。
官方模型不支持fp16,20系魔改卡估计用不了
你试试更新显卡驱动到最新,或者升级Cuda试试,参考我之前的文章,多cuda共存那篇 maya2024 发表于 2024-10-15 08:24
大佬看你一下怎么办
软件目录下app.py文件,右键记事本打开
第20行左右,model_dtype = "bf16" 把这类的bf16改成 fp32
还是不行的话,就玩不了 都要改吗? maya2024 发表于 2024-10-15 08:42
都要改吗?
先按6楼改,运行试试 已经在运行了,好慢啊
太慢了啊