设为首页收藏本站 劰载中...

 找回密码
 立即注册
查看: 317|回复: 1

QwenVL - 图片/视频提示词一键反推 阿里最新多模态视觉模型 Qwen3-VL ComfyUI工作流 支持50系显卡 一键整合包下载

[复制链接]

817

主题

1326

回帖

7万

积分

武林盟主

积分
78746

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2025-10-27 11:25:11 | 显示全部楼层 |阅读模式

马上注册,下载更多AI资源软件

您需要 登录 才可以下载或查看,没有账号?立即注册

×

QwenVL - 图片/视频提示词一键反推 阿里最新多模态视觉模型 Qwen3-VL ComfyUI工作流 支持50系显卡 一键整合 ...

QwenVL - 图片/视频提示词一键反推 阿里最新多模态视觉模型 Qwen3-VL ComfyUI工作流 支持50系显卡 一键整合 ...

Qwen-VL 是阿里巴巴通义千问团队开发的视觉语言大模型,简单说就是能同时看懂图片/视频和文字的人工智能。它就像给AI装上了"眼睛",让AI不仅能读懂文字,还能理解图像和视频内容。
今天分享的ComfyUI-QwenVL 自定义节点集成了来自阿里云的强大 Qwen-VL 系列视觉语言模型(LVLMs),包括最新的 Qwen3-VL 和 Qwen2.5-VL。这个高级节点使您的 ComfyUI 工作流程中能够无缝实现多模态 AI 功能,支持高效的文本生成、图像理解和视频分析。


Qwen-VL 不仅在专业领域用途,比如我们常用的文生图和视频生成领域也有广泛用途,在网上看到别人生成的好看的图像或者视频,不知道提示词怎么写,这个工具就能派上用场。上传你喜欢的图像或视频,即可一键反推生成提示词。然后再复制到自己的文生图或者文生视频工具里生成。


主要应用领域‌  ‌

图像理解与描述‌  为图片生成详细文字描述 识别图像中的物体、场景和人物关系 ‌
视频内容分析‌  分析视频帧序列,理解动态内容 适用于视频摘要、内容审核等场景 ‌
智能问答系统‌  基于视觉内容的问答应用 结合图像理解的对话机器人 ‌
创作辅助工具‌  为设计师提供图像创意描述 协助内容创作者进行多媒体素材分析


使用教程:(建议N卡,显存8G起,支持50系显卡,建议CUDA≥12.8)

整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。
双击启动,进入WebUI后,点击左侧的 工作流,选择工作流。

上传需要理解的图片或视频,输入提示词,比如详细描述这张图/视频,运行即可。

一键包默认打包的是 Qwen3-VL-4B-Instruct-FP8模型,支持8G显存运行,如果你有更好的显卡,像体验更好的效果,可自行下载更高参数量的模型,放到 ComfyUI\models\LLM\Qwen-VL,对应选择即可。

工作流包含图像和视频,选择图像理解,手动选择下方视频的三个节点,并点击禁用。反之,选择视频理解时,禁用上方图像的三个节点。


下载地址:
https://pan.quark.cn/s/6b13a9ae4595

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化及功能定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

0

主题

50

回帖

115

积分

无名之辈

积分
115

突出贡献

发表于 2025-10-27 16:26:53 | 显示全部楼层
这个实用,来学习测试下
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|前沿AI软件资源站

GMT+8, 2025-11-17 21:34 , Processed in 0.749279 second(s), 3 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表