Wan2GP V39版 - 新增LTX-2.3视频模型 低配显卡玩转AI绘画/视频生成 新增音乐、语音和绘画模型 支持50系显卡 一键整合包
Wan2GP 是一个由DeepBeepMeep开发开源的 “显卡门槛低的全能型 AI 创作工具”,最大的特点是“低显存也能跑”,支持多种模型(视频、图像、语音、音乐),旨在为GPU资源有限的用户提供高质量的 视频/绘画 生成体验。它囊括了多种绘画/视频生成模型,包括阿里的Wan及其衍生模型、腾讯的Hunyuan Video和LTV Video等主流视频生成和Qwen-Image-Edit、Flux、Z-Image等模型,通过简洁易用的网页界面,用户无需深入了解复杂的模型细节,即可轻松生成想要的 绘画/视频内容。
Wan2GP 的问世,让广大低端显卡用户也能玩转高大上的视频生成项目了。就以HunyuanVideo 13B图生视频模型来说,原版需要至少80G显存才能跑得动的模型,现在 Wan2GP 把这个标准降低到10GB,而且生成的视频质量几乎没用任何的损失和降低。但缺点也是有的,生成时间会拉长,同时需要更大的运行内存。
Wan2GP 同时支持各种主流高质量的AI绘画和图像编辑模型以及语音和音乐生成模型,目前支持Flux和Qwen主流图像生成和图像编辑模型、Qwen-TTS和Index-TTS等主流语音模型、Ace-Step等音乐生成模型,涵盖视频生成、图像生成、语音音乐等综合领域All In One。
今天分享的 Wan2GP V39版,基于官方 3月6日的 V10.98 打包。新增 LTX-2.3视频生成模型;新增 Kiwi Edit 视频编辑模型以及多个功能优化等。
因该项目停更有段时间,更新部分包括但不限于以下部分 Ace Step 音乐创作模型;新增 Qwen 3 TTS语音模型、增强及功能优化;新增 Index-TTS2语音模型、增强及功能优化;支持自定义Lora模型存储路径等。
因这个版本整体做了大量内部重构,翻译的工作量难度也相应增大,翻译后的版本可能有一些问题, 如有影响使用的问题,请评论区回复,会第一时间修复。
在尽量保证功能完整的情况下,进一步对WebUI做了更多的汉化翻译,目前汉化率97%。新增“多开”功能,支持一次开启多个WebUI。
注. 从V6版开始,提供两种版本,免费版和付费版。区别为:免费版不再提供中文翻译,原汁原味官方原版,不包含模型;付费版为中文翻译版,包含一些常用的模型,后期会逐步加入更多模型,以及一些优化功能加入。
3月6日更新内容
环境部分:
优化Wan Pytorch 编译器,恢复稳定的环境 torch到2.7;更新 SageAttention;集成Git环境,无需手动安装Git即可实现插件安装配置
因官方已支持 Python 3.11、Pytorch 2.10、Cuda 13组合,对Blackwell架构显卡做了大量优化和性能提升,下个版本考虑单独制作一个基于Blackwell架构(50系显卡)版的Wan2GP。
软件部分:
LTX-2 2.3:LTX 2 最新版本,具有更好的音频、图像转视频和更丰富的细节,可实现 0 天交付。该模型更大(22B 对比 19B),但在 WanGP 下 VRAM 使用仍将非常低。尝试在 720p 或 1080p 下使用,这是它最闪光的领域
Kiwi Edit:一个出色的模型,允许你编辑视频和/或在视频中注入对象。它有三种版本,取决于你想做什么
Qwen3 TTS 功能增强:语音生成速度提升4倍,新的Int8量化技术,显存降低到6G,支持双人对话模式等
Ace Step 1.5和Heart Mula模型优化
功能更新
已下载模型选择器:在每个模型或微调旁边,你将找到一个彩色方块:蓝色=完全下载且可用,黄色=部分下载,黑色=完全未下载。请注意,方块颜色将取决于你当前选择的模型量化方式。
升级了模型管理器:增加了颜色方块,让你能一眼看出已下载的内容。新增快速模型筛选功能。每个微调的缺失文件列表。
优化后的 INT8 内核:所有与 WanGP 一起使用的量化 INT8 检查点(大部分量化检查点)现在应该提高了 10%!!您需要安装 Triton。
项目特点
低显存要求:只需 6GB 显存即可运行部分模型,适合“显卡贫民”(老款 NVIDIA RTX 10xx/20xx,甚至 AMD 显卡也支持)。
多模型支持:兼容 Wan 2.1/2.2、Hunyuan Video、Flux、Qwen Image、LTX Video、Kandinsky 等主流开源生成模型。
多模态功能:不仅能生成视频,还支持图像编辑、语音合成(TTS)、音乐生成。
插件生态:内置画廊浏览器、模型管理器、CivitAI 下载器、Upscaler 等工具,方便扩展。
易用性:提供完整的网页界面和命令行模式,支持队列生成和批处理。
优化性能:支持量化(int8、fp8、NV FP4 等),提升速度同时降低显存占用。
应用领域
短视频创作:快速生成 AI 视频,用于社交媒体内容、广告或创意展示。
语音合成与配音:支持情感化 TTS,可生成多角色对话,适合播客、虚拟主播。
音乐生成:内置 Ace Step、Heart Mula 等模型,可自动生成歌曲和歌词。
学术研究与实验:为研究人员提供多模态生成平台,方便测试不同模型。
个性化创作:支持 Lora 微调和控制视频生成参数,满足定制化需求。
使用教程:(建议N卡,显存8G起,内存32G起。支持50系显卡,基于CUDA12.8)
使用和之前发布的Wan2.1以及类似的视频生成软件类似,根据需要,点击最上方的模型列表,切换需要使用的模型,会根据切换的模型自动下载,模型较大,耐心等待下载完成。
注. 模型是通用的,更新新版后,只需要将之前旧版的模型目录(目录下的ckpts)移动到新软件目录下即可,无需重复下载
支持文生视频和图生视频。支持低端显卡运行阿里Wan、腾讯HunyuanVideo以及LTV Video等高精度模型。支持多种Lora类型扩展,请根据页面使用说明将lora模型放入对应的目录手动加载。
启动WebUI后,页面有“指南”选项卡,作者很详细的介绍了不同的模型参数和特点及应用领域、Lora模型的加载及使用以及VACE ControlNet的详细使用说明。UI我也做了大部分汉化,方便大家使用。
基于原版使用文档,我做了详细的翻译,建议大家仔细阅读,作为操作参考。
测试了30-50系显卡,均能正常运行。10-20没做测试,可自行测试
Wan2.2 提示词填写技巧,可以参考官方文档:
https://mp.weixin.qq.com/s/ucHuyomTZ6X2q_tL3wHQQg
https://alidocs.dingtalk.com/i/nodes/jb9Y4gmKWrx9eo4dCql9LlbYJGXn6lpz
软件目录结构:
📂 ckpts/
│ ├── 📂 chinese-wav2vec2-base/
│ │ └── pytorch_model.bin
│ ├── 📂 Qwen2.5-VL-7B-Instruct/
│ │ └── Qwen2.5-VL-7B-Instruct_quanto_bf16_int8.safetensors
│ └── 📂 umt5-xxl/
│ └── models_t5_umt5-xxl-enc-quanto_int8.safetensors
📂 models/
│ ├── 📂 qwen/
│ ├── 📂 wan/
│ ...
📂 deepface/
......
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOoIOZOhNeuaSWKzchFs6x-UA1?pwd=m9n2
夸克网盘:
**** 本内容需购买 ****
百度网盘:
**** 本内容需购买 ****
LTX2.3 dev 模型需使用加速lora,下载 ltx-2.3-22b-distilled-lora-384.safetensors,放到loras\ltx2目录下 LTX-2.3官方提示词优化指南
LTX-2.3 introduces major improvements to detail, motion, prompt understanding, audio reliability, and native portrait support.
LTX-2.3 在细节、动作、提示理解、音频可靠性和原生肖像支持方面带来了重大改进。
This isn’t just a model update. It changes how you should prompt.
这不仅仅是一个模型更新。它改变了你应该如何提示的方式。
Here’s how to get the most out of it.
这是如何充分利用它的方法。
1. Be More Specific. The Engine Can Handle It.
1. 更加具体。引擎可以处理。
LTX-2.3 includes a larger, more capable text connector. It interprets complex prompts more accurately, especially when they include:
LTX-2.3 包含一个更大、更强大的文本连接器。它更准确地解释复杂提示,尤其是在它们包含以下内容时:
Multiple subjects 多个主题
Spatial relationships 空间关系
Stylistic constraints 风格约束
Detailed actions 详细动作
Previously, simplifying prompts improved consistency.
之前,简化提示改善了一致性。
Now, specificity wins.
现在,具体性取胜。
Instead of: 而不是:
A woman in a café
咖啡馆里的女人
Try: 尝试:
A woman in her 30s sits by the window of a small Parisian café. Rain runs down the glass behind her. Warm tungsten interior lighting. She slowly stirs her coffee while glancing at her phone. Background softly out of focus.
一位三十多岁的女士坐在巴黎一家小咖啡馆的窗边。雨珠顺着她身后的玻璃滑落。温暖的钨丝室内照明。她慢慢搅动着咖啡,同时瞥了一眼手机。背景模糊不清。
The creative engine drifts less. Use that.
创意引擎漂移减少。使用那个。
2. Direct the Scene, Don’t Just Describe It
2. 指导场景,不只是描述它
LTX-2.3 is better at respecting spatial layout and relationships.
LTX-2.3 更擅长尊重空间布局和关系。
Be explicit about:
明确说明:
Left vs right 左与右
Foreground vs background
前景与背景
Facing toward vs away
面向与背向
Distance between subjects
主体之间的距离
Instead of: 而不是:
Two people talking outside
两个人在外面交谈
Try: 尝试:
Two people stand facing each other on a quiet suburban sidewalk. The taller man stands on the left, hands in pockets. The woman stands on the right, holding a bicycle. Houses blurred in the background.
两个人站在安静的郊区人行道上,面对面站立。较高的男士站在左边,手插在口袋里。女士站在右边,手持自行车。背景中的房屋模糊不清。
Block the scene like a director.
像导演一样构图这个场景。
3. Describe Texture and Material
3. 描述纹理和材质
With a rebuilt latent space and updated VAE, fine detail is sharper across resolutions.
通过重建的潜在空间和更新的 VAE,不同分辨率下的细节更加清晰。
So describe: 所以描述:
Fabric types 织物类型
Hair texture 发质
Surface finish 表面光泽
Environmental wear 环境磨损
Edge detail 边缘细节
Example: 示例:
Close-up of wind moving through fine, curly hair. Individual strands visible. Soft afternoon backlight catching edge detail.
风穿过细长卷曲的头发时的特写。可见单独的发丝。柔和的午后逆光捕捉到边缘细节。
You should need less compensation in post.
你不需要在后期支付那么多补偿。
4. For Image-to-Video, Use Verbs
4. 对于图像到视频,使用动词
One of the biggest upgrades in 2.3 is reduced freezing and more natural motion.
2.3 版本最大的升级之一是减少了冻结效果,并增加了更自然的动态效果。
But motion still needs clarity.
但动态效果仍然需要清晰度。
Avoid: 避免:
The scene comes alive
场景变得生动
Instead: 改为:
The camera slowly pushes forward as the subject turns their head and begins walking toward the street. Cars pass.
镜头缓缓向前推进,随着主体转动头部开始走向街道。车辆驶过。
Specify: 指定:
Who moves 谁移动
What moves 什么移动
How they move 他们如何移动
What the camera does
相机的作用
Motion is driven by verbs.
运动由动词驱动。
5. Avoid Static, Photo-Like Prompts
5. 避免静态、照片般的提示
If your prompt reads like a still image, the output may behave like one.
如果你的提示读起来像一幅静止的图像,输出可能会表现得像一幅。
Instead of: 而不是:
A dramatic portrait of a man standing
一个男子站立的戏剧性肖像
Try: 尝试:
A man stands on a windy rooftop. His coat flaps in the wind. He adjusts his collar and steps forward as the camera tracks right.
一个男人站在一个多风的屋顶上。他的外套在风中飘动。他调整领子并向前走,而摄像机向右移动。
Action reduces static outputs.
动作减少静态输出。
6. Design for Native Portrait
6. 为原生肖像设计
LTX-2.3 supports native vertical video up to 1080x1920, trained on vertical data.
LTX-2.3 支持原生竖屏视频,最高可达 1080x1920,基于竖屏数据训练。
When generating portrait content, compose for vertical intentionally.
生成肖像内容时,有意采用竖屏构图。
Example: 示例:
Influencer vlogging while on holiday.
度假期间网红进行视频博客。
Don’t treat vertical as cropped landscape. Frame for it.
不要将竖屏视为裁剪的横屏。为其构图。
7. Be Clear About Audio
7. 明确音频要求
The new vocoder improves reliability and alignment.
新的声码器提高了可靠性和一致性。
If you want sound, describe it:
如果你想要声音,请描述它:
Environmental audio 环境音效
Tone and intensity 音调和强度
Dialogue clarity 对话清晰度
Example: 示例:
A low, pulsing energy hum radiates from the glowing orb. A sharp, intermittent alarm blares in the background, metallic and urgent, echoing through the spacecraft interior.
一个发光的球体发出低沉的脉动能量嗡嗡声。背景中尖锐的间歇性警报声金属般急促,在航天器内部回荡。
Specific inputs produce more controlled outputs.
具体的输入能产生更受控的输出。
8. Unlock More Complex Shots
8. 解锁更复杂的镜头
Earlier checkpoints rewarded simplicity.
早期的检查点奖励简洁性。
LTX-2.3 rewards direction.
LTX-2.3 奖励方向性。
With significantly stronger prompt adherence and improved visual quality, you can now design more ambitious scenes with confidence.
随着显著增强的提示遵循能力和改进的视觉质量,你现在可以更有信心地设计更雄心勃勃的场景。
ou can: 你可以:
Layer multiple actions within a single shot
在单次拍摄中叠加多个动作
Combine detailed environments with character performance
将精细的环境与角色表现相结合
Introduce precise stylistic constraints
引入精确的风格限制
Direct camera movement alongside subject motion
与主体运动同步的相机移动
The engine holds structure under complexity. It maintains spatial logic. It respects what you ask for.
引擎在复杂情况下保持结构。它维持空间逻辑。它尊重你的要求。
LTX-2.3 is sharper, more faithful, and more controllable.
LTX-2.3 更加锐利、忠实且可控。 LTX2.3官方前几天出了新的Upsampler,感谢并期待坛主更新,WAN2GP我觉得是坛子里最好用的,功能丰富,操作简单,质量非常不错,低端卡的福音! 215069003 发表于 2026-3-18 16:58
LTX2.3官方前几天出了新的Upsampler,感谢并期待坛主更新,WAN2GP我觉得是坛子里最好用的,功能丰富,操作 ...
本周更新 无言以对 发表于 2026-3-18 17:01
本周更新
论坛太效率了:victory: 生成视频的同时,怎么用MMaudio同步生成背景音乐、人物配音等音频?
leelong119 发表于 2026-3-31 08:35
生成视频的同时,怎么用MMaudio同步生成背景音乐、人物配音等音频?
高级设置里勾选
说话配音得模型支持 你好,Wan2GP V39版这个整合包下载对应的模型是不是需要开通魔法,我这边下载全部失败。 ZAP493332198 发表于 2026-4-6 19:03
你好,Wan2GP V39版这个整合包下载对应的模型是不是需要开通魔法,我这边下载全部失败。 ...
无需,可能是移动网络节点问题
页:
[1]