马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
QwenVL - 图片/视频提示词一键反推 阿里最新多模态视觉模型 Qwen3-VL ComfyUI工作流 支持50系显卡 一键整合 ...
Qwen-VL 是阿里巴巴通义千问团队开发的视觉语言大模型,简单说就是能同时看懂图片/视频和文字的人工智能。它就像给AI装上了"眼睛",让AI不仅能读懂文字,还能理解图像和视频内容。
今天分享的ComfyUI-QwenVL 自定义节点集成了来自阿里云的强大 Qwen-VL 系列视觉语言模型(LVLMs),包括最新的 Qwen3-VL 和 Qwen2.5-VL。这个高级节点使您的 ComfyUI 工作流程中能够无缝实现多模态 AI 功能,支持高效的文本生成、图像理解和视频分析。
Qwen-VL 不仅在专业领域用途,比如我们常用的文生图和视频生成领域也有广泛用途,在网上看到别人生成的好看的图像或者视频,不知道提示词怎么写,这个工具就能派上用场。上传你喜欢的图像或视频,即可一键反推生成提示词。然后再复制到自己的文生图或者文生视频工具里生成。
主要应用领域
图像理解与描述 为图片生成详细文字描述 识别图像中的物体、场景和人物关系
视频内容分析 分析视频帧序列,理解动态内容 适用于视频摘要、内容审核等场景
智能问答系统 基于视觉内容的问答应用 结合图像理解的对话机器人
创作辅助工具 为设计师提供图像创意描述 协助内容创作者进行多媒体素材分析
使用教程:(建议N卡,显存8G起,支持50系显卡,建议CUDA≥12.8)
整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。
双击启动,进入WebUI后,点击左侧的 工作流,选择工作流。
上传需要理解的图片或视频,输入提示词,比如详细描述这张图/视频,运行即可。
一键包默认打包的是 Qwen3-VL-4B-Instruct-FP8模型,支持8G显存运行,如果你有更好的显卡,像体验更好的效果,可自行下载更高参数量的模型,放到 ComfyUI\models\LLM\Qwen-VL,对应选择即可。
工作流包含图像和视频,选择图像理解,手动选择下方视频的三个节点,并点击禁用。反之,选择视频理解时,禁用上方图像的三个节点。
下载地址:
https://pan.quark.cn/s/6b13a9ae4595
|