无言以对 发表于 2025-10-27 11:25:11

QwenVL - 图片/视频提示词一键反推 阿里最新多模态视觉模型 Qwen3-VL ComfyUI工作流 支持50系显卡 一键整合包下载


Qwen-VL 是阿里巴巴通义千问团队开发的视觉语言大模型,简单说就是能同时看懂图片/视频和文字的人工智能。它就像给AI装上了"眼睛",让AI不仅能读懂文字,还能理解图像和视频内容。
今天分享的ComfyUI-QwenVL 自定义节点集成了来自阿里云的强大 Qwen-VL 系列视觉语言模型(LVLMs),包括最新的 Qwen3-VL 和 Qwen2.5-VL。这个高级节点使您的 ComfyUI 工作流程中能够无缝实现多模态 AI 功能,支持高效的文本生成、图像理解和视频分析。


Qwen-VL 不仅在专业领域用途,比如我们常用的文生图和视频生成领域也有广泛用途,在网上看到别人生成的好看的图像或者视频,不知道提示词怎么写,这个工具就能派上用场。上传你喜欢的图像或视频,即可一键反推生成提示词。然后再复制到自己的文生图或者文生视频工具里生成。


主要应用领域‌‌

图像理解与描述‌为图片生成详细文字描述 识别图像中的物体、场景和人物关系 ‌
视频内容分析‌分析视频帧序列,理解动态内容 适用于视频摘要、内容审核等场景 ‌
智能问答系统‌基于视觉内容的问答应用 结合图像理解的对话机器人 ‌
创作辅助工具‌为设计师提供图像创意描述 协助内容创作者进行多媒体素材分析


使用教程:(建议N卡,显存8G起,支持50系显卡,建议CUDA≥12.8)

整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。
双击启动,进入WebUI后,点击左侧的 工作流,选择工作流。

上传需要理解的图片或视频,输入提示词,比如详细描述这张图/视频,运行即可。

一键包默认打包的是 Qwen3-VL-4B-Instruct-FP8模型,支持8G显存运行,如果你有更好的显卡,像体验更好的效果,可自行下载更高参数量的模型,放到 ComfyUI\models\LLM\Qwen-VL,对应选择即可。

工作流包含图像和视频,选择图像理解,手动选择下方视频的三个节点,并点击禁用。反之,选择视频理解时,禁用上方图像的三个节点。


下载地址:
https://pan.quark.cn/s/6b13a9ae4595

365944297 发表于 2025-10-27 16:26:53

这个实用,来学习测试下

Eric 发表于 2025-12-7 11:51:16

感谢大佬分享! 请问下了几个整合包,反推、图片编辑的,可以把模型放在一起,用一个启动器吗?

18186303057 发表于 2026-2-28 12:18:21

默认的模型是Qwen3-VL-4B-Instruct-FP8,在切换至其它模型时提示"ERROR: An error happened while trying to locate the files on the Hub and we cannot find the appropriate snapshot folder for the specified revision on the local disk. Please check your internet connection and try again.
Prompt executed in 21.08 seconds"
我的另一台电脑显卡较低,无法使用FP8模型,请问如何解决

无言以对 发表于 2026-2-28 12:54:31

18186303057 发表于 2026-2-28 12:18
默认的模型是Qwen3-VL-4B-Instruct-FP8,在切换至其它模型时提示"ERROR: An error happened while trying to ...

切换模型需要先下载对应模型,放到 ComfyUI\models\LLM\Qwen-VL,然后按 r 刷新,再切换
直接切换,默认会在线下载,但需要科学上网

18186303057 发表于 2026-2-28 12:59:42

无言以对 发表于 2026-2-28 12:54
切换模型需要先下载对应模型,放到 ComfyUI\models\LLM\Qwen-VL,然后按 r 刷新,再切换
直接切换,默认 ...

好的感谢
页: [1]
查看完整版本: QwenVL - 图片/视频提示词一键反推 阿里最新多模态视觉模型 Qwen3-VL ComfyUI工作流 支持50系显卡 一键整合包下载