找回密码
 立即注册
查看: 627|回复: 1

微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2024-4-19 22:50:18 | 显示全部楼层 |阅读模式

AI伪造真人视频,门槛再次降低。
微软发布一张图生成数字人技术VASA-1,网友看过直呼“炸裂级效果”,比“AI刘强东还真”。老厂再次焕发新颜啊。




做到以假乱真效果,不用针对特定人物训练,只要上传一张人脸图片、一段音频,哪怕不是真人也行。





比如可以让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名场面。


在项目主页还有更多1分钟视频,以及更更多15秒视频可看。不同性别、年龄、种族的数字人,用着不同的口音在说话。






根据团队在论文中的描述,VASA-1拥有如下特点:唇形与语音的精准同步

这是最基本的,VASA-1在定量评估中也做到了顶尖水平
丰富而自然的面部表情

不光做到让照片“开口说话”,眉毛、眼神、微表情等也跟着协调运动,避免显得呆板。
人性化的头部动作

说话时适当的点头、摇头、歪头等动作,能让人物看起来更加鲜活、更有说服力。
总得来说,仔细看的话眼睛还有一些破绽,但已经被网友评为“迄今为止最佳演示”。

3大关键技术,Sora同款思路

一句话概括:
不是直接生成视频帧,而是在潜空间中生成动作编码,再还原成视频。
是不是和Sora的思路很像了?
其实VASA-1的模型架构选择Diffusion Transformer,也与Sora核心组件一致。

据论文描述,背后还有3大关键技术:
人脸潜编码学习,这部分是高度解耦的。
团队从大量个真实的说话视频中,学习到一个理想的人脸特征空间。
把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来,同一个动作就能驱动不同的脸,换成谁都很自然。
头部运动生成模型,这部分又是高度统一的。
不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作,VASA-1把所有面部动态统一编码,用Diffution Transfromer模型,也就是SORA同款核心组件,来建模其概率分布。

这样既能生成更协调自然的整体动作,又能借助transformer强大的时序建模能力,学习长时依赖。

目前VASA-1只发布了论文,看来短时间内也不会发布Demo或开源代码了。

微软表示,该方法生成的视频仍然包含可识别的痕迹,数值分析表明,距离真实视频的真实性仍有差距。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

103

回帖

130

积分

无名之辈

积分
130
发表于 2024-5-10 07:35:12 | 显示全部楼层
越来越玄乎了,呵呵
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-20 03:51 , Processed in 0.079946 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表