LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载

无言*** · 发表于 2026-4-12 18:51:41

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载 ... ... ... ... ... ...

LTX2.3-ID-LoRA 是一个基于LTX2.3训练的高保真音频驱动图像生成视频的LoRA，支持提供一张图片和一段参考音频，生成高质量的数字人说话视频，同时保留参考音频音色和参考图像的身份信息，生成高度一致参考人身份和参考音频音色的说话视频。
简单说，能让你用一张照片 + 一小段语音 + 文字描述，直接生成一段“说话视频” ，视频里的人脸长得像照片里的人，声音也像你提供的语音样本，说话内容和场景都按你的文字提示来。它把视觉（人脸、动作）和音频（声音）放在同一个AI模型里一起生成，不是先出视频再配音那种分开做的老办法，所以同步更自然、效果更统一。

主要特点

身份保持超强：一张参考照片就能控制脸型、五官；一小段参考音频就能“克隆”声音（语气、音色都像）。
统一生成：视频和声音同时出，一次搞定，不用后期对嘴型。
文字控制力强：你写什么场景、说话风格、背景声音，它就尽量按你说的来（比如“在海边激动地演讲”）。
两种生成模式：单阶段：速度快，适合预览。两阶段HQ（推荐）：先生成低分辨率，再2倍超分，画质和细节更好。
零样本使用：不需要为每个人重新训练，下载现成的LoRA权重就能用，很轻量（原版只用几千对数据在单张显卡上训成）。
ComfyUI支持：有专用自定义节点，适合喜欢节点式工作流的用户，能轻松搭建复杂流程。

应用领域

数字人 / 虚拟主播：快速做出会说话的AI头像，用于短视频、直播、讲解。
个性化视频内容创作：把自己的照片+声音变成各种风格的说话视频（教学、故事、广告等）。
影视前制作 / 概念验证：快速生成带声音的角色演示视频。
语音克隆 + 唇同步：需要高度真实说话画面的场景，比如多语言配音视频、虚拟偶像等。
创意娱乐：做搞笑视频、角色扮演、AI短片等。

使用教程：（建议N卡，显存8G起，支持50系显卡）

下载主程序和模型（ComfyUI文件夹），解压主程序一键包，将ComfyUI文件夹移动到主程序目录下即可

WebUI：启动后自动跳转WebUI，上传参考图像和参考音频，输入提示词，设置生成视频宽和高等参数，生成即可。
支持自定义切换模型，模型下载，下载后，放到ComfyUI\models\unet目录，前台切换
WebUI模式下，默认执行 “两阶段”模式，即默认执行2倍超分，所以高级参数里分辨率不要设置过高。

ComfyUI工作流：整合包包含所需所有节点。
双击启动，浏览器输入 https://127.0.0.1:8188，点击左侧的工作流，选择对应的工作流
进入工作流后，上传参考图像和参考音频，输入提示词，设置生成视频的宽度和高度，最后运行即可。

关于提示词：

参考下方格式：

[VISUAL]: <scene and appearance description>
[SPEECH]: <exact words the person should say>
[SOUNDS]: <speaker vocal style + ambient/environmental sounds>

复制代码

把上述格式提示词模板，发给DeepSeek或者豆包等大模型，把你的场景、说活内容和音效背景发给大模型，让大模型把润色后的提示词给你就可以了。

显存8G+运存32G起，如果低于这个配置，建议使用参数更低的模型，比如Q2,Q3，生成效果质量略低。建议显存12G起

软件目录结构：

📂 ComfyUI/
├── 📂 models/
│ ├── 📂 unet/
│ │    └── LTX-2.3-distilled-Q5_K_M.gguf
│ ├── 📂 text_encoders/
│ │    └── gemma-3-12b-it-Q4_K_M.gguf
│ └── 📂 loras/
│       └── ltx-2.3-id-lora-talkvid-3k.safetensors
│ └── 📂 vae/
│       └── LTX23_video_vae_bf16.safetensors
📂 deepface/
......

下载地址：
UC网盘：
主程序：https://drive.uc.cn/s/a22965658c774
模型：https://drive.uc.cn/s/f9b5a091ff364

夸克网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源

立即购买

百度网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 40碎银 下载该资源

立即购买

dasha*** · 发表于 2026-4-12 20:46:03

好期待！！！！

chen*** · 发表于 2026-7-8 10:44:51

5090TI，显存16G，内存32G，虚拟内存96G，下载夸克里的包。WebUI下，没改参数，运行了一次。用照片+语音生成了一段说话视频，但是效果不理想。想着看看其它模型的效果，然后手贱试了下。再也没好过了。要么光有声，图不动，要么就是人物扭曲的不可明状。WebUI下总共就两个模型可以修改，我用排列组合的方式，每种组合都试过，没有一次可以生成的。后来删掉，重下载后，还是这样，不知什么原因。请大佬指点。。。

无言*** · 发表于 2026-7-8 11:13:29

chenleitu 发表于 2026-7-8 10:44
5090TI，显存16G，内存32G，虚拟内存96G，下载夸克里的包。WebUI下，没改参数，运行了一次。用照片+语音生 ...

参考帖子里的提示词格式，不会写发给大模型。
应该是提示词的问题，不是模型的问题

		自动登录	找回密码
密码			立即注册

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载

马上注册，下载更多AI资源软件

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

上上宾

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成 一键整合包下载

马上注册，下载更多AI资源软件

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

上上宾

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载