又一个国产大模型应用火出圈! 两个月前,阿里巴巴通义实验室公开了一篇能够让照片唱歌说话的生成式AI模型论文,EMO(Emote Portrait Alive),在海外媒体和社交平台引起热烈反响,被一批科技圈大V轮番转发。4月25日,EMO正式上线通义APP,开放给所有用户免费使用,应用上线瞬间通义APP一度被挤爆,有用户发现自己要排队数小时。其火热程度可见一斑。
在ChatGPT的余晖尚未消散之际,OpenAI携Sora横空出世。凭借精准捕捉指令、细腻构建场景、逼真演绎动态的卓越能力,Sora被部分业内人士称其 “人工智能领域的一次突破”。逼真的画面令人很难区分它们是由实拍而得,还是由AI生成。
让人惊讶的是,不少人还在被Sora的视频生成能力征服,而国产大模型已经悄悄带来新的变化。
早在今年2月份,阿里巴巴发布了一款全新的生成式AI模型EMO,并且公布了技术论文。

具体来说,EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。
而EMO的视频效果,真的让人一愣一愣的。
比如我们上传一张伏地魔的照片,EMO便能制作出他正在唱歌的真实视频,而且形象逼真。仔细观察EMO产出的视频,可以发现人物的口型与背景音乐的同步性极佳,表情变化也十分丰富,使得角色仿佛赋予了生命,整体效果令人印象深刻。
这样的效果自然引发了很多海外用户、科技巨头的惊叹,大家震惊于EMO的技术实力直逼Sora,EMO也随之成为继Sora之后最受关注的AI模型之一。
很多网友纷纷感叹:“我们正在走进一个新的现实!” 随着EMO模型在技术圈的火爆,为了让所有人都能体验到EMO的强大功能,阿里通义实验室,决定将其全面开放给所有人:4月25日,EMO上线通义APP,阿里通义实验室将其免费集成至通义APP的“全民舞台”频道,所有用户均可免费使用。
在我们实际体验之后发现,这个国产AI工具比论文中的使用步骤还简单。从一张安静的图片,到一个活生生、会唱歌、会讲段子的“人“,只需要十几分钟的时间。
毫无疑问,EMO的诞生以及媲美Sora的技术能力,标志着中国AI大模型持续走在行业前列,正在与国际巨头并驾齐驱。 同样以阿里EMO模型为例:
从今年2月份放开技术论文到现在,仅仅过去不到2个月的时间,EMO就实现了低门槛使用、全量免费上线等创新体验。
我们实际体验发现,生成一段伏地魔唱歌的视频,只需要等待10分钟左右,即可完成。
令人惊艳的技术迭代速度,才是国产AI的真正实力所在。有外媒评论,talking head技术虽然才出现两三年,但EMO一下子让以前的技术方案变成了“老古董”。
具体来说,EMO是一种富有表现力的音频驱动的肖像视频生成框架,可以根据输入视频的长度生成任何持续时间的视频。区别于Sora的文生视频技术,这种音频驱动的肖像视频框架,无需建模就可驱动肖像开口说话,不仅降低了视频生成成本,还大幅提升了视频生成质量。
毫不夸张地说,我国视频生成技术正在步入崭新的2.0时代,加速缩小与国际先进水平的差距。 Sora直到今天都没有定下面向公众开放的日期,而已经开放的Runway和Pika等模型大多需要按使用次数计费、价格不菲,抑或是需要专业的开发者知识去使用,生成视频时长也不超过16秒。 虽然通义APP上的EMO模型目前只支持有限的模板,但其已经成为全民免费可用的AI视频模型,上手简单、使用方便,还自带供用户进行分享的生态社区。另外,APP上提供的模板中包含了大量网络热梗,有利于所生成短视频的传播和分享,并展现出该模型未来和更多影视IP合作的潜力。 当下,全球AI大模型行业依然进展飞速,各大科技巨头都在积极地卷模型、卷应用。面对迭代速度越快、种类越来越丰富的大模型,时常会让用户产生一种不知从何处下手的感觉。不过,说到底,这些AI模型都是将人类思想与创意具现化的工具,而通义APP有望正在演变成一个包罗万象的工具铺,成为每位用户手中一个随叫随到的超级AI助手。 在大模型的C端入口上,阿里无疑是最激进、步伐最快的科技公司。自今年年初以来,通义APP已经上线了现象级应用“全民舞王”、超长文档解析、AI编码助手、AI会议助手等众多免费功能,成为国内功能最丰富的大模型应用。
|