设为首页收藏本站 劰载中...

 找回密码
 立即注册
查看: 3247|回复: 22

InfiniteTalk V2版 - 声音驱动图片生成高度逼真的说话/唱歌视频 支持50系显卡 ComfyUI+WebUI 一键整合包下载

[复制链接]

919

主题

1534

回帖

9万

积分

武林盟主

积分
93592

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2025-11-16 22:29:49 | 显示全部楼层 |阅读模式

马上注册,下载更多AI资源软件

您需要 登录 才可以下载或查看,没有账号?立即注册

×

InfiniteTalk - 声音驱动图片生成高度逼真的说话/唱歌视频 支持50系显卡 ComfyUI+WebUI 一键整合包下载 ... ...

InfiniteTalk - 声音驱动图片生成高度逼真的说话/唱歌视频 支持50系显卡 ComfyUI+WebUI 一键整合包下载 ... ...

InfiniteTalk 是一个能根据音频生成无限时长人物说话/唱歌视频的AI模型,无论是给现有视频配音,还是让静态图片“开口说话”,还是让人物图片“唱歌”,它都能实现精准的唇形同步和自然的肢体动作。

今天分享的 InfiniteTalk V2版 ,基于上个版本 的工作流更新升级,新增了适合新手小白操作的WebUI,如果是使用ComfyUI且下载过上个ComfyUI的老司机,无需下载这个版本。WebUI支持自定义切换Wan主模型和InfiniteTalk 模型,网盘自带Q4和Q8两个版本,大家根据自己的显卡切换。当前WebUI只支持单人生成,下个版本会集成双人版。


核心特点 ‌

全维度同步‌  
不仅唇形与音频匹配,还会自动生成对应的‌头部转动、身体姿态和面部表情‌,让虚拟人物更生动。
传统配音工具只调整嘴唇,而InfiniteTalk连肢体语言一起模拟。

无限时长生成‌  
支持超长视频生成(如1小时以上),通过分段处理技术保证连贯性。
普通AI视频模型通常限制在几十秒内。

双模式输入‌  ‌
视频+音频‌:给现有视频换配音(如翻译配音、内容修改)。 ‌
图片+音频‌:让一张静态照片“开口说话”(如虚拟主播、教育视频)。

高稳定性‌  
相比同类模型(如MultiTalk),显著减少了手部扭曲和身体变形的问题。

多分辨率支持‌  
兼容480P和720P,可根据设备性能选择清晰度。


应用领域

‌影视娱乐‌:电影配音、短视频角色配音、虚拟偶像直播 ‌
数字人生成:一键生成数字人视频,助力小白进军自媒体
教育科普‌:定制化教学视频、历史人物“亲口”讲解 ‌
商业宣传‌:品牌虚拟代言人自动生成多语言宣传片 ‌
社交娱乐‌:让自拍照片念台词、生成个性化生日祝福视频


使用教程:(建议N卡,显存8G起,建议cuda≥12.8)

整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹即为模型),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。

ComfyUI模式
双击启动ComfyUI,进入页面后,点击左侧的 工作流,选择对应的工作流(包含单人+多人+视频驱动视频三种模式),根据需要选择。上传需要生成的人物图片和音频文件,设置相关参数,运行即可。ComfyUI模式,建议专业人士使用,小白可以使用下面的WebUI模式。

WebUI模式
双击启动WebUI,进入页面后,上传需要生成的人物图像和音频文件,设置相关参数,生成即可。
这里说下几个参数,显卡好的,可以下载精度更高的模型,比如 Wan 视频模型 和 InfiniteTalk 模型;加速模式这个参数,默认开启sag加速,如果卡在采样报错,请切换至sdpa或者手动 安装vc编译器;交换块大小默认是20,如果显卡好,比如4090或5090等,可以改成40。

InfiniteTalk 模型可以根据显卡选择,显存8G的可以切换到Q4版,显存≥12G的,建议使用Q8版。其他版本可以 移步此链接 ,下载后,放到ComfyUI\models\diffusion_models 目录,网页端切换即可。


视频教程:https://www.toutiao.com/video/7573598467436626474/



下载地址:
UC网盘:https://drive.uc.cn/s/c815645864824

夸克网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 购买该资源立即购买


DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化及功能定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

0

主题

136

回帖

233

积分

江湖少侠

积分
233
发表于 2025-11-17 05:45:23 | 显示全部楼层
之前的模型跑不动,希望这款可以吧

0

主题

6

回帖

14

积分

初入江湖

积分
14
发表于 2025-11-19 06:57:31 | 显示全部楼层
测试了,解压缩错误

919

主题

1534

回帖

9万

积分

武林盟主

积分
93592

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
 楼主| 发表于 2025-11-19 11:27:58 | 显示全部楼层
858498686 发表于 2025-11-19 06:57
测试了,解压缩错误

压缩包亲测(多人测试)没问题。
找找自己的问题,新手去看看新手必看这个帖子。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化及功能定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

0

主题

87

回帖

230

积分

上上宾

积分
230

上上宾

发表于 2025-11-20 11:52:19 | 显示全部楼层
大佬,我看帧最大600,24秒,怎么在小白模式下改成长时间的?

919

主题

1534

回帖

9万

积分

武林盟主

积分
93592

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
 楼主| 发表于 2025-11-20 12:55:38 | 显示全部楼层
jcchenwengang 发表于 2025-11-20 11:52
大佬,我看帧最大600,24秒,怎么在小白模式下改成长时间的?

分段吧,太长了显卡吃不消。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化及功能定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

0

主题

11

回帖

22

积分

初入江湖

积分
22
发表于 2025-11-26 18:35:41 | 显示全部楼层
ComfyUI v3里边有吗?

0

主题

7

回帖

12

积分

初入江湖

积分
12
发表于 2025-11-27 00:42:59 | 显示全部楼层

出错了:

loaded completely 16277.1994140625 1208.09814453125 True
Clip embeds shape: torch.Size([1, 257, 1280]), dtype: torch.float32
Combined clip embeds shape: torch.Size([1, 257, 1280])
The local file (ComfyUI\models\torch\hub\torchaudio\models\hdemucs_high_trained.pt) exists. Skipping the download.
[MultiTalk] --- Raw speaker lengths (samples) ---
  speaker 1: 192000 samples (shape: torch.Size([1, 1, 192000]))
[MultiTalk] total raw duration = 12.000s
[MultiTalk] multi_audio_type=para | final waveform shape=torch.Size([1, 1, 192000]) | length=192000 samples | seconds=12.000s (expected max of raw)
Using GGUF to load and assign model weights to device...
Loading transformer parameters to cuda:0:   3%|▉                                  | 44/1633 [00:00<00:00, 21967.55it/s]
生成视频时出错: 'blocks.0.norm_x.weight'
Traceback (most recent call last):
  File "<frozen app>", line 327, in generate_video
  File "Q:\UC-ND\ComfyUI_InfiniteTalk_V2\ComfyUI_InfiniteTalk_V2\ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\nodes.py", line 2050, in process
    load_weights(transformer, patcher.model["sd"], base_dtype=dtype, transformer_load_device=device, patcher=patcher, gguf=True, reader=gguf_reader, block_swap_args=block_swap_args)
  File "Q:\UC-ND\ComfyUI_InfiniteTalk_V2\ComfyUI_InfiniteTalk_V2\ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\nodes_model_loading.py", line 867, in load_weights
    set_module_tensor_to_device(transformer, name, device=load_device, dtype=dtype_to_use, value=sd[name.replace("_orig_mod.", "")])
                                                                                                 ~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
KeyError: 'blocks.0.norm_x.weight'

0

主题

3

回帖

8

积分

初入江湖

积分
8
发表于 2025-11-28 11:24:10 | 显示全部楼层
CUDA Compute Capability: 8.6
Detected model in_channels: 36
Model cross attention type: i2v, num_heads: 40, num_layers: 40
Model variant detected: i2v_480
MultiTalk detected, patching model...
model_type FLOW
Loading LoRA: Wan21_I2V_14B_lightx2v_cfg_step_distill_lora_rank64 with strength: 1
Requested to load CLIPVisionModelProjection
loaded completely 4246.7599609375 1208.09814453125 True
Clip embeds shape: torch.Size([1, 257, 1280]), dtype: torch.float32
Combined clip embeds shape: torch.Size([1, 257, 1280])
The local file (ComfyUI\models\torch\hub\torchaudio\models\hdemucs_high_trained.pt) exists. Skipping the download.
[MultiTalk] --- Raw speaker lengths (samples) ---
  speaker 1: 192000 samples (shape: torch.Size([1, 1, 192000]))
[MultiTalk] total raw duration = 12.000s
[MultiTalk] multi_audio_type=para | final waveform shape=torch.Size([1, 1, 192000]) | length=192000 samples | seconds=12.000s (expected max of raw)
Using GGUF to load and assign model weights to device...
Loading transformer parameters to cuda:0:   3%|▉                                   | 44/1633 [00:00<00:00, 2749.42it/s]
生成视频时出错: 'blocks.0.norm_x.weight'
Traceback (most recent call last):
  File "<frozen app>", line 327, in generate_video
  File "C:\Users\Administrator\Desktop\ComfyUI_InfiniteTalk_V2\ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\nodes.py", line 2050, in process
    load_weights(transformer, patcher.model["sd"], base_dtype=dtype, transformer_load_device=device, patcher=patcher, gguf=True, reader=gguf_reader, block_swap_args=block_swap_args)
  File "C:\Users\Administrator\Desktop\ComfyUI_InfiniteTalk_V2\ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\nodes_model_loading.py", line 867, in load_weights
    set_module_tensor_to_device(transformer, name, device=load_device, dtype=dtype_to_use, value=sd[name.replace("_orig_mod.", "")])
                                                                                                 ~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
KeyError: 'blocks.0.norm_x.weight'
我也是报错了

919

主题

1534

回帖

9万

积分

武林盟主

积分
93592

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
 楼主| 发表于 2025-11-28 11:47:06 | 显示全部楼层
2523797596 发表于 2025-11-28 11:24
CUDA Compute Capability: 8.6
Detected model in_channels: 36
Model cross attention type: i2v, num_hea ...

webui模式?模型是不是选错了

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化及功能定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|前沿AI软件资源站

GMT+8, 2026-3-2 20:08 , Processed in 0.066619 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表