CogVideoX是智谱AI推出的视频生成模型。CogVideoX开源模型包含多个不同尺寸大小的模型。
2024年8月6日,智谱开源视频生成模型CogVideoX。
2024年8月28日,智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。
官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B(2B模型最低6G显存可玩) ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。
CogVideoX-5B - 智谱最新开源的质量更高、视觉效果更好视频生成模型,6G显存可玩 本地一键整合包 ... ... . ...
测试效果: RTX3060 12G显存,提示词 “An Asian woman sitting by the window watching the stars” 50步生成6秒视频耗时800秒,所以视频生成对硬件的要求还是很高。
CogVideoX.mp4
(126.05 KB, 下载次数: 119)
功能特点 文本到视频的生成能力:CogVideo能够将输入的文本描述转换为相应的视频内容。这一功能是基于预训练的文本-图像生成模型CogView2实现的,使得CogVideo能够理解和解析文本信息,并生成与之匹配的视频帧。 多帧率分层训练策略:CogVideo采用了多帧率分层训练策略,这有助于更好地对齐文本和视频剪辑。通过这一策略,模型能够更准确地理解文本描述与视频内容之间的关系,从而生成更符合文本描述的视频。 双向注意力模型插帧:CogVideo使用双向注意力模型对生成的初始几帧图像进行插帧,以增加视频的帧率并生成更完整的视频。这种插帧方法使得生成的视频更加流畅,提高了观看体验。 灵活性和可扩展性:CogVideo的框架设计灵活,易于扩展和集成新的数据集和任务。这使得CogVideo能够适应不同的应用场景和需求,为研究者和开发者提供了更多的可能性。 开源和易用性:CogVideo是一个开源项目,采用Python实现,并提供了详细的文档和教程。这使得研究者和开发者能够方便地使用和定制CogVideo,进一步推动文本到视频生成技术的发展。
应用场景 新闻报道自动生成:根据文本描述快速生成相关新闻视频,提高报道效率。 电影和游戏预览:利用剧本或设计文档生成动态场景和角色预览。 教育培训:创建模拟视频来展示复杂的操作或过程,辅助学习和理解。 建筑可视化:根据建筑师的设计文本生成3D建筑环境和动画。 虚拟现实:为VR应用创造逼真的3D环境和互动体验。 内容营销:为品牌和产品制作引人入胜的视频内容,增强用户参与度。 个性化视频制作:根据用户的个人喜好和需求定制视频内容。
使用教程: 操作很简单,输入提示词,生成即可 这里说下两个模型包,一个是2B模型,另一个是5B模型。 2B模型适用于20系和30系老卡,小显存比如6-10G的也可以用2B模型体验; 另一个5B模型,建议显卡好的体验,比如最新的40系,4080,4090等 下载一键包和对应的模型包,解压即可。
下载地址:(因模型较大,近20个G。所以分为两部分打包,一键包和模型包。先下载解压一键包,模型包下载后,拷贝到一键包根目录,解压到当前文件夹即可)
|