LTX2.3-ID-LoRA - 高度统一的声音和身份保持数字人说话视频生成 一键整合包下载
LTX2.3-ID-LoRA 是一个基于LTX2.3训练的高保真音频驱动图像生成视频的LoRA,支持提供一张图片和一段参考音频,生成高质量的数字人说话视频,同时保留参考音频音色和参考图像的身份信息,生成高度一致参考人身份和参考音频音色的说话视频。
简单说,能让你用一张照片 + 一小段语音 + 文字描述,直接生成一段“说话视频” ,视频里的人脸长得像照片里的人,声音也像你提供的语音样本,说话内容和场景都按你的文字提示来。它把视觉(人脸、动作)和音频(声音)放在同一个AI模型里一起生成,不是先出视频再配音那种分开做的老办法,所以同步更自然、效果更统一。
主要特点
身份保持超强:一张参考照片就能控制脸型、五官;一小段参考音频就能“克隆”声音(语气、音色都像)。
统一生成:视频和声音同时出,一次搞定,不用后期对嘴型。
文字控制力强:你写什么场景、说话风格、背景声音,它就尽量按你说的来(比如“在海边激动地演讲”)。
两种生成模式: 单阶段:速度快,适合预览。 两阶段HQ(推荐):先生成低分辨率,再2倍超分,画质和细节更好。
零样本使用:不需要为每个人重新训练,下载现成的LoRA权重就能用,很轻量(原版只用几千对数据在单张显卡上训成)。
ComfyUI支持:有专用自定义节点,适合喜欢节点式工作流的用户,能轻松搭建复杂流程。
应用领域
数字人 / 虚拟主播:快速做出会说话的AI头像,用于短视频、直播、讲解。
个性化视频内容创作:把自己的照片+声音变成各种风格的说话视频(教学、故事、广告等)。
影视前制作 / 概念验证:快速生成带声音的角色演示视频。
语音克隆 + 唇同步:需要高度真实说话画面的场景,比如多语言配音视频、虚拟偶像等。
创意娱乐:做搞笑视频、角色扮演、AI短片等。
使用教程:(建议N卡,显存8G起,支持50系显卡)
下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可
WebUI:启动后自动跳转WebUI,上传参考图像和参考音频,输入提示词,设置生成视频宽和高等参数,生成即可。
支持自定义切换模型,模型下载,下载后,放到ComfyUI\models\unet目录,前台切换
WebUI模式下,默认执行 “两阶段”模式,即默认执行2倍超分,所以高级参数里分辨率不要设置过高。
ComfyUI工作流:整合包包含所需所有节点。
双击启动,浏览器输入 https://127.0.0.1:8188,点击左侧的 工作流,选择对应的工作流
进入工作流后,上传参考图像和参考音频,输入提示词,设置生成视频的宽度和高度,最后运行即可。
关于提示词:
参考下方格式:
: <scene and appearance description>
: <exact words the person should say>
: <speaker vocal style + ambient/environmental sounds>
把上述格式提示词模板,发给DeepSeek或者豆包等大模型,把你的场景、说活内容和音效背景发给大模型,让大模型把润色后的提示词给你就可以了。
显存8G+运存32G起,如果低于这个配置,建议使用参数更低的模型,比如Q2,Q3,生成效果质量略低。建议显存12G起
软件目录结构:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 unet/
│ │ └── LTX-2.3-distilled-Q5_K_M.gguf
│ ├── 📂 text_encoders/
│ │ └── gemma-3-12b-it-Q4_K_M.gguf
│ └── 📂 loras/
│ └── ltx-2.3-id-lora-talkvid-3k.safetensors
│ └── 📂 vae/
│ └── LTX23_video_vae_bf16.safetensors
📂 deepface/
......
下载地址:
UC网盘:
主程序:https://drive.uc.cn/s/a22965658c774
模型:https://drive.uc.cn/s/f9b5a091ff364
夸克网盘:
**** 本内容需购买 ****
百度网盘:
**** 本内容需购买 ****
好期待!!!!
页:
[1]