微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

无言*** · 发表于 2024-4-19 22:50:18

您需要登录才可以下载或查看，没有账号？立即注册

×

AI伪造真人视频，门槛再次降低。

微软发布一张图生成数字人技术VASA-1，网友看过直呼“炸裂级效果”，比“AI刘强东还真”。老厂再次焕发新颜啊。

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

做到以假乱真效果，不用针对特定人物训练，只要上传一张人脸图片、一段音频，哪怕不是真人也行。

做到以假乱真效果，不用针对特定人物训练，只要上传一张人脸图片、一段音频，哪怕不是真人也行。 ... ... . ...

比如可以让蒙娜丽莎唱Rap，模仿安妮海瑟薇即兴吐槽狗仔队名场面。

在项目主页还有更多1分钟视频，以及更更多15秒视频可看。不同性别、年龄、种族的数字人，用着不同的口音在说话。

在项目主页还有更多1分钟视频，以及更更多15秒视频可看。不同性别、年龄、种族的数字人，用着不同的口音在 ...

根据团队在论文中的描述，VASA-1拥有如下特点：唇形与语音的精准同步

这是最基本的，VASA-1在定量评估中也做到了顶尖水平

丰富而自然的面部表情

不光做到让照片“开口说话”，眉毛、眼神、微表情等也跟着协调运动，避免显得呆板。

人性化的头部动作

说话时适当的点头、摇头、歪头等动作，能让人物看起来更加鲜活、更有说服力。

总得来说，仔细看的话眼睛还有一些破绽，但已经被网友评为“迄今为止最佳演示”。

3大关键技术，Sora同款思路

一句话概括：

不是直接生成视频帧，而是在潜空间中生成动作编码，再还原成视频。

是不是和Sora的思路很像了？

其实VASA-1的模型架构选择Diffusion Transformer，也与Sora核心组件一致。

据论文描述，背后还有3大关键技术:

人脸潜编码学习，这部分是高度解耦的。

团队从大量个真实的说话视频中，学习到一个理想的人脸特征空间。

把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来，同一个动作就能驱动不同的脸，换成谁都很自然。

头部运动生成模型，这部分又是高度统一的。

不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作，VASA-1把所有面部动态统一编码，用Diffution Transfromer模型，也就是SORA同款核心组件，来建模其概率分布。

这样既能生成更协调自然的整体动作，又能借助transformer强大的时序建模能力，学习长时依赖。

目前VASA-1只发布了论文，看来短时间内也不会发布Demo或开源代码了。

微软表示，该方法生成的视频仍然包含可识别的痕迹，数值分析表明，距离真实视频的真实性仍有差距。

sz*** · 发表于 2024-5-10 07:35:12

越来越玄乎了，呵呵

		自动登录	找回密码
密码			立即注册