AI伪造真人视频,门槛再次降低。 微软发布一张图生成数字人技术VASA-1,网友看过直呼“炸裂级效果”,比“AI刘强东还真”。老厂再次焕发新颜啊。
做到以假乱真效果,不用针对特定人物训练,只要上传一张人脸图片、一段音频,哪怕不是真人也行。
比如可以让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名场面。
在项目主页还有更多1分钟视频,以及更更多15秒视频可看。不同性别、年龄、种族的数字人,用着不同的口音在说话。
根据团队在论文中的描述,VASA-1拥有如下特点:唇形与语音的精准同步
这是最基本的,VASA-1在定量评估中也做到了顶尖水平 丰富而自然的面部表情
不光做到让照片“开口说话”,眉毛、眼神、微表情等也跟着协调运动,避免显得呆板。 人性化的头部动作
说话时适当的点头、摇头、歪头等动作,能让人物看起来更加鲜活、更有说服力。 总得来说,仔细看的话眼睛还有一些破绽,但已经被网友评为“迄今为止最佳演示”。
3大关键技术,Sora同款思路
一句话概括: 不是直接生成视频帧,而是在潜空间中生成动作编码,再还原成视频。 是不是和Sora的思路很像了? 其实VASA-1的模型架构选择Diffusion Transformer,也与Sora核心组件一致。
据论文描述,背后还有3大关键技术: 人脸潜编码学习,这部分是高度解耦的。 团队从大量个真实的说话视频中,学习到一个理想的人脸特征空间。 把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来,同一个动作就能驱动不同的脸,换成谁都很自然。 头部运动生成模型,这部分又是高度统一的。 不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作,VASA-1把所有面部动态统一编码,用Diffution Transfromer模型,也就是SORA同款核心组件,来建模其概率分布。
这样既能生成更协调自然的整体动作,又能借助transformer强大的时序建模能力,学习长时依赖。
目前VASA-1只发布了论文,看来短时间内也不会发布Demo或开源代码了。
微软表示,该方法生成的视频仍然包含可识别的痕迹,数值分析表明,距离真实视频的真实性仍有差距。
|