无言以对 发表于 2024-7-18 13:57:24

EchoMimic 0717升级版 大幅度提升生成速度 - 一张照片生成对口型说话视频,可用于AI数字人生成,本地一键整合包下载



EchoMimic是阿里巴巴蚂蚁集团推出的一个AI驱动的口型同步技术项目。2024年7月17日更新内容:加速模型和管道发布。推理速度可以提高10倍(从~7mins/240帧到~50s/240帧)。实测有大幅度提升,但没有10倍那么夸张,可能是测试平台的问题。
这项技术能够通过给定的音频和一张或多张人物的面部照片,生成一个看起来像是在说话的视频,其中的人物口型动作与音频中的语音完美匹配。这种技术在娱乐、教育、虚拟现实、在线会议等领域有广泛的应用前景,可以用于创建更加真实和互动的视频内容。


与快手的 LivePortrait 不同, EchoMimic不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。


EchoMimic的稳定性和自然度是它的两大杀手锏。通过融合音频和面部标志点的特征,它生成的面部动画更加符合真实的面部运动和表情变化。无论是微小的嘴角上扬,还是眼神的微妙流转,EchoMimic都能精准捕捉,让动画效果如真人般逼真。面部标志点,听起来很高大上,其实它们就是面部图像上的一些特定点,用来表示面部的关键特征和结构。这些点通常位于眼睛、鼻子、嘴巴等关键部位,帮助计算机视觉算法更好地理解和分析面部表情和动作。
项目地址:https://github.com/BadToBest/EchoMimic注:只支持N卡,建议显存8-10G起使用,新版支持CPU推理,这个估计比蜗牛还慢,不建议用CPU。如遇报错,请跟帖贴出报错信息,看到会回复。
下载地址:(下载前,请先阅读 使用说明 再下载,避免不必要的问题和纠纷)(分为完整包和升级包,完整包为新用户下载,即没下载过老版本的新用户;升级包为下载过老版本老版本点此进入 升级,即新用户下载完整包,老用户下载升级包)完整包下载**** 本内容需购买 ****升级包下载**** 本内容需购买 ****

kopf2018 发表于 2024-7-20 18:05:25

:):) 不够钱

tgdtu 发表于 2024-7-21 10:13:01

如果提升了10倍,那是够快的了

hanhenry 发表于 2024-7-25 17:30:59

生成就显示错误

无言以对 发表于 2024-7-25 17:31:52

hanhenry 发表于 2024-7-25 17:30
生成就显示错误

黑色窗口信息贴出来

hanhenry 发表于 2024-7-25 17:48:29

"C:\Users\han1\Desktop\6d87887b9b87c112c2aa00a176e87e6e.png"

hanhenry 发表于 2024-7-25 17:49:29

file:///C:/Users/han1/Desktop/6d87887b9b87c112c2aa00a176e87e6e.png

hanhenry 发表于 2024-7-25 17:50:37

这个要怎么发图片啊

hanhenry 发表于 2024-7-25 17:53:07

无言以对 发表于 2024-7-25 17:31
黑色窗口信息贴出来

file:///C:/Users/han1/Desktop/6d87887b9b87c112c2aa00a176e87e6e.png

无言以对 发表于 2024-7-25 17:53:11

hanhenry 发表于 2024-7-25 17:49


黑色窗口鼠标左键拖选全部信息,点击上方的标题栏,右键,编辑,复制,然后粘贴到这里



页: [1] 2
查看完整版本: EchoMimic 0717升级版 大幅度提升生成速度 - 一张照片生成对口型说话视频,可用于AI数字人生成,本地一键整合包下载