大半夜的,大洋对岸不卷,国内公司卷起来了。 我真的想睡觉,真的。 起因是我睡觉之前,在看Github的时候,无意间看到THUKEG这个号,更新了一个项目。
CogVideoX。 网址在此:https://github.com/THUDM/CogVideo THUKEG算是智谱的官号,而CogVideoX,则是前两周很火的智谱的第二世代AI视频清影的基模型。 用最通俗的话理解就是,CogVideoX等于GPT4o,而清影等于ChatGPT,你就可以简单的理解为,一个是模型,一个是基于模型做的产品,所以其实可以画个等号。 前两周,第二世代的AI视频大战,在已有的三幻神Runway、可灵、Luma的基础上,Pixverse上线了V2版本,Vidu的模型也千呼万唤始出来。 而作为大模型领域最明星的AI公司,智谱,也加入了这场AI视频的混战,发布了他们的DiT视频产品,清影。 这个产品,在他们的AI助手智谱清言上,就能用。 但是非常坦率的讲,我没有写它,是因为我觉得,在生成效果上,确实跟可灵、Runway,还是有一定的差距。 而在发布清影的两周后的今天,他们决定,把CogVideoX,开源了。 那就值得,吹一波了。
CogVideoX模型下载地址: https://huggingface.co/THUDM/CogVideoX-2b 现在主流的AI视频,全都是闭源的,有一个开源的Open-Sora,但是说实话,效果也差强人意。 而清影,效果虽然跟主流的闭源模型尚有差距,但是在跑一些内容上,至少是可用的状态。 这一次开源的,我大概翻了下,开源的是一个CogVideoX-2B的小模型。
推理需要18G显存,也就是说,在有单卡3090或者4090的时候,就可以直接本地跑视频了,不需要再烧钱了,不过看峰值会到36G,大概率会爆显存。 不过他们自己也说了,马上就会优化。 不过我只有一张小垃圾4060,显存就8G,你优化完我也跑不动。4090,说实话,也真的没钱买= = 啥时候AI视频模型,也跟SD1.5一样,能普惠众生人人皆可跑就好了。
这个2B的模型,视频长度是6秒,帧率为8帧/秒,视频分辨率为720*480。 |