LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载 - AI软件 - 前沿AI软件资源站

无言以对 发表于 2026-4-12 18:51:41

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载

LTX2.3-ID-LoRA 是一个基于LTX2.3训练的高保真音频驱动图像生成视频的LoRA，支持提供一张图片和一段参考音频，生成高质量的数字人说话视频，同时保留参考音频音色和参考图像的身份信息，生成高度一致参考人身份和参考音频音色的说话视频。
简单说，能让你用一张照片 + 一小段语音 + 文字描述，直接生成一段“说话视频” ，视频里的人脸长得像照片里的人，声音也像你提供的语音样本，说话内容和场景都按你的文字提示来。它把视觉（人脸、动作）和音频（声音）放在同一个AI模型里一起生成，不是先出视频再配音那种分开做的老办法，所以同步更自然、效果更统一。

主要特点

身份保持超强：一张参考照片就能控制脸型、五官；一小段参考音频就能“克隆”声音（语气、音色都像）。
统一生成：视频和声音同时出，一次搞定，不用后期对嘴型。
文字控制力强：你写什么场景、说话风格、背景声音，它就尽量按你说的来（比如“在海边激动地演讲”）。
两种生成模式：单阶段：速度快，适合预览。两阶段HQ（推荐）：先生成低分辨率，再2倍超分，画质和细节更好。
零样本使用：不需要为每个人重新训练，下载现成的LoRA权重就能用，很轻量（原版只用几千对数据在单张显卡上训成）。
ComfyUI支持：有专用自定义节点，适合喜欢节点式工作流的用户，能轻松搭建复杂流程。

应用领域

数字人 / 虚拟主播：快速做出会说话的AI头像，用于短视频、直播、讲解。
个性化视频内容创作：把自己的照片+声音变成各种风格的说话视频（教学、故事、广告等）。
影视前制作 / 概念验证：快速生成带声音的角色演示视频。
语音克隆 + 唇同步：需要高度真实说话画面的场景，比如多语言配音视频、虚拟偶像等。
创意娱乐：做搞笑视频、角色扮演、AI短片等。

使用教程：（建议N卡，显存8G起，支持50系显卡）

下载主程序和模型（ComfyUI文件夹），解压主程序一键包，将ComfyUI文件夹移动到主程序目录下即可

WebUI：启动后自动跳转WebUI，上传参考图像和参考音频，输入提示词，设置生成视频宽和高等参数，生成即可。
支持自定义切换模型，模型下载，下载后，放到ComfyUI\models\unet目录，前台切换
WebUI模式下，默认执行 “两阶段”模式，即默认执行2倍超分，所以高级参数里分辨率不要设置过高。

ComfyUI工作流：整合包包含所需所有节点。
双击启动，浏览器输入 https://127.0.0.1:8188，点击左侧的工作流，选择对应的工作流
进入工作流后，上传参考图像和参考音频，输入提示词，设置生成视频的宽度和高度，最后运行即可。

关于提示词：

参考下方格式：
: <scene and appearance description>
: <exact words the person should say>
: <speaker vocal style + ambient/environmental sounds>

把上述格式提示词模板，发给DeepSeek或者豆包等大模型，把你的场景、说活内容和音效背景发给大模型，让大模型把润色后的提示词给你就可以了。

显存8G+运存32G起，如果低于这个配置，建议使用参数更低的模型，比如Q2,Q3，生成效果质量略低。建议显存12G起

软件目录结构：

📂 ComfyUI/
├── 📂 models/
│ ├── 📂 unet/
│ │    └── LTX-2.3-distilled-Q5_K_M.gguf
│ ├── 📂 text_encoders/
│ │    └── gemma-3-12b-it-Q4_K_M.gguf
│ └── 📂 loras/
│       └── ltx-2.3-id-lora-talkvid-3k.safetensors
│ └── 📂 vae/
│       └── LTX23_video_vae_bf16.safetensors
📂 deepface/
......

下载地址：
UC网盘：
主程序：https://drive.uc.cn/s/a22965658c774
模型：https://drive.uc.cn/s/f9b5a091ff364

夸克网盘：
**** 本内容需购买 ****

百度网盘：
**** 本内容需购买 ****

dashanqiang 发表于 2026-4-12 20:46:03

好期待！！！！

页: [1]

前沿AI软件资源站's Archiver

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成 一键整合包下载

LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成一键整合包下载