无言以对 发表于 2024-12-18 12:13:57

Memo - 音频驱动图像生成说话数字人视频 一张图生成说话视频 本地一键整合包下载



Memo 是由南洋理工大学和新加坡国立大学主导开发的一种最先进的开放式模型,用于音频驱动的通话视频生成。这是一种端到端的音频驱动肖像动画方法,旨在生成具有身份一致性和富有表现力的口型动画视频。
Memo 在各类图像和音频类型上生成更为逼真的口型动画视频,并在总体质量、音频-口型同步、身份一致性和表情-情感对齐方面优于现有的最先进方法。


项目特色:

https://pic.imgdb.cn/item/6767e2a2d0e0a243d4e80816.webp

Memo 可以用肖像、雕塑、数字艺术和动画等图像生成会说话的视频;
Memo 可以生成有声音的视频,音频类型包括演讲、唱歌、说唱;
Memo 支持英语、普通话、西班牙语、日语、韩语和粤语等多种语言;
Memo 可以生成富有表现力的谈话视频或抵消视频中的情绪;
Memo 可以生成具有各种头部姿势的谈话视频;
Memo 可以生成长时间的谈话视频,且伪影和错误累积较少。


使用教程:(当前版本对显卡要求较高,建议N卡,显存12G起,12G显存需开启内存回退)
上传一张照片加一段驱动音频即可生成。


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOEhmeyxRi7Hps989ZgMP233A1?pwd=qgzi
夸克网盘:https://pan.quark.cn/s/c82aecda3339
百度网盘:
**** 本内容需购买 ****

nsctt 发表于 2024-12-18 12:37:05

这个新出AI有意思喔,期待一键包,辛苦楼主了,谢谢

ad56740051 发表于 2024-12-18 22:08:05

运行后 WEB可以显示,上传图片和音频后直接程序报错

无言以对 发表于 2024-12-19 11:05:45

ad56740051 发表于 2024-12-18 22:08
运行后 WEB可以显示,上传图片和音频后直接程序报错

报错信息贴出来

zhengdeding 发表于 2024-12-19 19:27:01

求百度网盘地址,谢谢~

zizhang 发表于 2024-12-19 21:15:10

Error
Connection errored out.
这是怎么回事呢

jack520 发表于 2024-12-26 23:45:59

RuntimeError: cutlassF: no kernel found to launch!

无言以对 发表于 2024-12-27 09:16:44

jack520 发表于 2024-12-26 23:45
RuntimeError: cutlassF: no kernel found to launch!

显卡不支持半精度或者cuda版本低导致,去看新人必看。

vip1180 发表于 2024-12-30 10:46:46

据说这个匹配度很高,要是老破旧能跑就好了,啊哈哈哈

vip1180 发表于 2024-12-31 10:48:35

帮我看看这个报错吧。

C:\D\MEMO\MEMO\deepface\lib\site-packages\albumentations\__init__.py:24: UserWarning: A new version of Albumentations is available: 1.4.24 (you have 1.4.21). Upgrade using: pip install -U albumentations. To disable automatic update checks, set the environment variable NO_ALBUMENTATIONS_UPDATE to 1.
check_for_updates()
WARNING:matplotlib.font_manager:Could not save font_manager cache Permission denied: 'C:\\Users\\TYST\\.matplotlib\\fontlist-v390.json.matplotlib-lock'
The config attributes {'center_input_sample': False, 'out_channels': 4} were passed to UNet2DConditionModel, but are not expected and will be ignored. Please verify your config.json configuration file.
WARNING:py.warnings:C:\D\MEMO\MEMO\deepface\lib\site-packages\diffusers\models\lora.py:306: FutureWarning: `LoRACompatibleConv` is deprecated and will be removed in version 1.0.0. Use of `LoRACompatibleConv` is deprecated. Please switch to PEFT backend by installing PEFT: `pip install peft`.
deprecate("LoRACompatibleConv", "1.0.0", deprecation_message)

The config attributes {'addition_embed_type': None, 'addition_embed_type_num_heads': 64, 'addition_time_embed_dim': None, 'attention_type': 'default', 'center_input_sample': False, 'class_embeddings_concat': False, 'conv_in_kernel': 3, 'dropout': 0.0, 'encoder_hid_dim': None, 'encoder_hid_dim_type': None, 'mid_block_only_cross_attention': None, 'num_attention_heads': None, 'projection_class_embeddings_input_dim': None, 'reverse_transformer_layers_per_block': None, 'time_cond_proj_dim': None, 'time_embedding_act_fn': None, 'time_embedding_dim': None, 'time_embedding_type': 'positional', 'timestep_post_act': None, 'transformer_layers_per_block': 1} were passed to UNet3DConditionModel, but are not expected and will be ignored. Please verify your config.json configuration file.
信息: 用提供的模式无法找到文件。
* Running on local URL:http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.
页: [1] 2
查看完整版本: Memo - 音频驱动图像生成说话数字人视频 一张图生成说话视频 本地一键整合包下载