无言以对 发表于 2026-3-12 16:28:19

Qwen3.5 - 小而美的视觉模型,用于图像反推/视频反推 支持50系显卡 一键整合包下载


Qwen3.5 是一个功能强大的多模态大模型,能同时处理文字、图片和视频,支持超长文本输入(最高可扩展到百万级 token),在推理、编程、视觉理解和多语言任务上表现突出(就是能同时看文字+图片+视频的那种AI),体积不算大,但实力非常猛,在很多测试中能打平甚至超过参数量大得多的模型(包括某些120B级别的开源巨兽)。

今天分享的 Qwen3.5 一键包基于社区大佬的 Qwen3.5-9B GGUF版模型打包制作,主要是用于视觉理解,比如图像和视频理解,反推给出提示词,可用于文生图和视频生成。看到好看的图像或者视频,就可以用它来识别反推,生成专业的提示词,然后借助文生图或文生视频软件生成自己的图像或视频。



模型特点

能看图、看视频,还特别聪明
这是它原生训练出来的多模态能力(不是后期硬接的),看图理解、看视频总结、做数学题看几何图、看截图点UI控件、OCR文字识别……这些都做得特别好,很多视觉类榜单排很前面。

超级长的记忆力
原生支持 26万多token(大概400多页A4纸的内容),用点技巧还能拉到100万token。 适合处理很长的合同、整本小说、几小时的会议记录或代码仓库。

会思考、会用工具、能当小助手(Agent)
内置很强的工具调用和多步规划能力,能写代码、调接口、做复杂任务自动化,在代理(Agent)类评测里表现极强。

几乎全球语言都懂
支持 201种语言和方言,中文、英文、日韩、法德西意……基本主流语言都很强,小语种也比以前好很多。

跑起来意外地省资源
虽然是9B,但用了很先进的混合架构(Gated DeltaNet + 稀疏MoE),量化到4bit后5–6GB显存就能跑(普通RTX 3060/4060/4070都行),速度也快,很多用户实测觉得比一些更大的模型在本机上反而更顺畅。



应用场景

本地/公司内部的智能文档分析(合同、财报、科研论文)
图文视频内容理解(电商商品图描述、短视频摘要、监控视频分析)
代码助手(写代码、修bug、读老项目)
多语言客服/教育/翻译工具
轻量级AI Agent(能自己规划步骤调用工具完成复杂任务)
显存/预算有限,但想要接近大模型体验的开发者/小团队/个人玩家



使用教程:(建议N卡,显存8G起,支持50系显卡)

下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可
支持WebUI和ComfyUI两种模式

支持图像和视频分析,切换到对应的选项卡,上传图像/视频,点击 分析 即可。
支持自定义模型(模型下载),根据自己的显卡下载切换,下载后,放到ComfyUI\models\LLM目录下,前台切换即可。理论上支持最低4G显存显卡(下载Q3_K_S)


软件目录结构:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 LLM/
│   │      └── Qwen3.5-9B-Q5_K_M.gguf
│   │      └── mmproj-BF16.gguf
📂 deepface/
......



下载地址:
UC网盘:https://drive.uc.cn/s/62ada2104c2d4

夸克网盘:
**** 本内容需购买 ****

百度网盘:
**** 本内容需购买 ****
页: [1]
查看完整版本: Qwen3.5 - 小而美的视觉模型,用于图像反推/视频反推 支持50系显卡 一键整合包下载