LTX-2.3 - 文字直出高清同步音视频，音画一体支持50系显卡一键整合包下载

无言*** · 发表于 2026-3-8 21:33:45

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

LTX-2.3 是 Lightricks 推出的最新一代音视频生成模型，它能在同一个模型里同时生成画面和声音，效果更清晰、更贴合提示词，适合做高质量的多模态内容创作。
LTX-2.3 是一个强大的“文字到音视频”生成工具，适合做AI影视生成领域。如果你想要快速生成带声音的视频，它是一个非常有潜力的选择。

今天分享的 LTX-2.3 基于KJ的 distilled_transformer 版模型打包制作，测试下来，这个蒸馏版的模型效果最好，同时兼顾了生成质量和资源占用，最低8G显存（32G运行内存）即可使用。支持WebUI小白模式和ComfyUI专业模式。
全网发布的较多的都是图生视频，所以先做个文生视频的，弥补这个缺失，后期再加上图生视频的功能。

主要特点

音视频同步生成：不仅能生成视频，还能同时生成匹配的音效或音乐，保证画面与声音协调。
更高质量：相比上一代 LTX-2，LTX-2.3 在画面清晰度和音频质量上都有明显提升。
提示词理解更好：对输入的文字描述（prompt）响应更准确，生成结果更符合预期。
简单易用：不需要你会编程或视频剪辑，写好提示词（prompt）就能用，适合新手。
多种工具支持：有空间放大器（提升分辨率）、时间放大器（提升帧率），适合多阶段生成流程。

应用领域

内容创作：YouTuber、抖音博主可以用它快速生成短视频素材，比如旅行风景、剧情片段。
广告营销：商家可以用它做产品宣传片，展示产品在各种酷炫场景中的效果。
影视预览：导演或编剧可以用它来快速生成概念视频，测试剧本的视觉效果。
教育和培训：老师可以用它制作生动教学视频，比如历史场景重现或科学实验模拟。
游戏和虚拟世界：开发者可以用它生成游戏背景视频或虚拟场景，节省制作成本。

使用教程：（建议N卡，显存8G+32G运存，支持50系显卡）

下载主程序和模型（ComfyUI文件夹），解压主程序一键包，将ComfyUI文件夹移动到主程序目录下即可

WebUI：启动后自动跳转WebUI，输入提示词，设置生成视频宽和高等参数，生成即可。

ComfyUI工作流：整合包包含所需所有节点。
双击启动，浏览器输入 https://127.0.0.1:8188，点击左侧的工作流，选择对应的工作流
进入工作流后，输入提示词，设置生成视频的宽度和高度，最后运行即可。

关于提示词：提示词越详细，生成的效果越好，尤其是分镜，建议使用大模型生成分镜镜头，再提交生成。

软件目录结构：

📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │    └── ltx-2.3-22b-distilled_transformer_only_fp8_scaled.safetensors
│ ├── 📂 text_encoders/
│ │    └── gemma-3-12b-it-Q4_K_M.gguf
│ └── 📂 vae/
│       └── LTX23_video_vae_bf16.safetensors
📂 deepface/
......

下载地址：
UC网盘：https://drive.uc.cn/s/e84e83ece1614

夸克网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源

立即购买

百度网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 50碎银 下载该资源

立即购买

无言*** · 发表于 2026-3-9 07:14:52

官方提示词优化指南

LTX-2.3 introduces major improvements to detail, motion, prompt understanding, audio reliability, and native portrait support.
LTX-2.3 在细节、动作、提示理解、音频可靠性和原生肖像支持方面带来了重大改进。

This isn’t just a model update. It changes how you should prompt.
这不仅仅是一个模型更新。它改变了你应该如何提示的方式。

Here’s how to get the most out of it.
这是如何充分利用它的方法。

1. Be More Specific. The Engine Can Handle It.
1. 更加具体。引擎可以处理。
LTX-2.3 includes a larger, more capable text connector. It interprets complex prompts more accurately, especially when they include:
LTX-2.3 包含一个更大、更强大的文本连接器。它更准确地解释复杂提示，尤其是在它们包含以下内容时：

Multiple subjects 多个主题

Spatial relationships 空间关系

Stylistic constraints 风格约束

Detailed actions 详细动作

Previously, simplifying prompts improved consistency.
之前，简化提示改善了一致性。

Now, specificity wins.
现在，具体性取胜。

Instead of: 而不是：

A woman in a café
咖啡馆里的女人

Try: 尝试：

A woman in her 30s sits by the window of a small Parisian café. Rain runs down the glass behind her. Warm tungsten interior lighting. She slowly stirs her coffee while glancing at her phone. Background softly out of focus.
一位三十多岁的女士坐在巴黎一家小咖啡馆的窗边。雨珠顺着她身后的玻璃滑落。温暖的钨丝室内照明。她慢慢搅动着咖啡，同时瞥了一眼手机。背景模糊不清。

The creative engine drifts less. Use that.
创意引擎漂移减少。使用那个。

2. Direct the Scene, Don’t Just Describe It
2. 指导场景，不只是描述它
LTX-2.3 is better at respecting spatial layout and relationships.
LTX-2.3 更擅长尊重空间布局和关系。

Be explicit about:
明确说明：

Left vs right 左与右

Foreground vs background
前景与背景

Facing toward vs away
面向与背向

Distance between subjects
主体之间的距离

Instead of: 而不是：

Two people talking outside
两个人在外面交谈

Try: 尝试：

Two people stand facing each other on a quiet suburban sidewalk. The taller man stands on the left, hands in pockets. The woman stands on the right, holding a bicycle. Houses blurred in the background.
两个人站在安静的郊区人行道上，面对面站立。较高的男士站在左边，手插在口袋里。女士站在右边，手持自行车。背景中的房屋模糊不清。

Block the scene like a director.
像导演一样构图这个场景。

3. Describe Texture and Material
3. 描述纹理和材质
With a rebuilt latent space and updated VAE, fine detail is sharper across resolutions.
通过重建的潜在空间和更新的 VAE，不同分辨率下的细节更加清晰。

So describe: 所以描述：

Fabric types 织物类型

Hair texture 发质

Surface finish 表面光泽

Environmental wear 环境磨损

Edge detail 边缘细节

Example: 示例：

Close-up of wind moving through fine, curly hair. Individual strands visible. Soft afternoon backlight catching edge detail.
风穿过细长卷曲的头发时的特写。可见单独的发丝。柔和的午后逆光捕捉到边缘细节。

You should need less compensation in post.
你不需要在后期支付那么多补偿。

4. For Image-to-Video, Use Verbs
4. 对于图像到视频，使用动词
One of the biggest upgrades in 2.3 is reduced freezing and more natural motion.
2.3 版本最大的升级之一是减少了冻结效果，并增加了更自然的动态效果。

But motion still needs clarity.
但动态效果仍然需要清晰度。

Avoid: 避免：

The scene comes alive
场景变得生动

Instead: 改为：

The camera slowly pushes forward as the subject turns their head and begins walking toward the street. Cars pass.
镜头缓缓向前推进，随着主体转动头部开始走向街道。车辆驶过。

Specify: 指定：

Who moves 谁移动

What moves 什么移动

How they move 他们如何移动

What the camera does
相机的作用

Motion is driven by verbs.
运动由动词驱动。

5. Avoid Static, Photo-Like Prompts
5. 避免静态、照片般的提示
If your prompt reads like a still image, the output may behave like one.
如果你的提示读起来像一幅静止的图像，输出可能会表现得像一幅。

Instead of: 而不是：

A dramatic portrait of a man standing
一个男子站立的戏剧性肖像

Try: 尝试：

A man stands on a windy rooftop. His coat flaps in the wind. He adjusts his collar and steps forward as the camera tracks right.
一个男人站在一个多风的屋顶上。他的外套在风中飘动。他调整领子并向前走，而摄像机向右移动。

Action reduces static outputs.
动作减少静态输出。

6. Design for Native Portrait
6. 为原生肖像设计
LTX-2.3 supports native vertical video up to 1080x1920, trained on vertical data.
LTX-2.3 支持原生竖屏视频，最高可达 1080x1920，基于竖屏数据训练。

When generating portrait content, compose for vertical intentionally.
生成肖像内容时，有意采用竖屏构图。

Example: 示例：

Influencer vlogging while on holiday.
度假期间网红进行视频博客。

Don’t treat vertical as cropped landscape. Frame for it.
不要将竖屏视为裁剪的横屏。为其构图。

7. Be Clear About Audio
7. 明确音频要求
The new vocoder improves reliability and alignment.
新的声码器提高了可靠性和一致性。

If you want sound, describe it:
如果你想要声音，请描述它：

Environmental audio 环境音效

Tone and intensity 音调和强度

Dialogue clarity 对话清晰度

Example: 示例：

A low, pulsing energy hum radiates from the glowing orb. A sharp, intermittent alarm blares in the background, metallic and urgent, echoing through the spacecraft interior.
一个发光的球体发出低沉的脉动能量嗡嗡声。背景中尖锐的间歇性警报声金属般急促，在航天器内部回荡。

Specific inputs produce more controlled outputs.
具体的输入能产生更受控的输出。

8. Unlock More Complex Shots
8. 解锁更复杂的镜头
Earlier checkpoints rewarded simplicity.
早期的检查点奖励简洁性。

LTX-2.3 rewards direction.
LTX-2.3 奖励方向性。

With significantly stronger prompt adherence and improved visual quality, you can now design more ambitious scenes with confidence.
随着显著增强的提示遵循能力和改进的视觉质量，你现在可以更有信心地设计更雄心勃勃的场景。

ou can: 你可以：

Layer multiple actions within a single shot
在单次拍摄中叠加多个动作

Combine detailed environments with character performance
将精细的环境与角色表现相结合

Introduce precise stylistic constraints
引入精确的风格限制

Direct camera movement alongside subject motion
与主体运动同步的相机移动

The engine holds structure under complexity. It maintains spatial logic. It respects what you ask for.
引擎在复杂情况下保持结构。它维持空间逻辑。它尊重你的要求。

LTX-2.3 is sharper, more faithful, and more controllable.
LTX-2.3 更加锐利、忠实且可控。

		自动登录	找回密码
密码			立即注册

LTX-2.3 - 文字直出高清同步音视频，音画一体支持50系显卡一键整合包下载

马上注册，下载更多AI资源软件

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

LTX-2.3 - 文字直出高清同步音视频，音画一体 支持50系显卡 一键整合包下载

马上注册，下载更多AI资源软件

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

LTX-2.3 - 文字直出高清同步音视频，音画一体支持50系显卡一键整合包下载