无言以对 发表于 2024-11-22 09:48:35

Qwen2-VL - 阿里云 Qwen 团队视觉大模型 可理解图片及20分钟长视频内容 本地一键整合包下载



Qwen2-VL 是由阿里云 Qwen 团队开发的多模态大型语言模型系列的视觉大模型,支持单图、多图的语义理解,以及最高20分钟长视频理解。其中,Qwen2-VL-72B在大部分指标上都达到了最优,刷新了开源多模态模型的最好表现,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。
今天分享的是基于Qwen2-VL-2B模型的一键包,首先识别率相对72B还是差的很多,但好在对显卡要求不高,官方介绍4G显存可使用,但实测下来,高分辨率图像和视频16G显存显卡都爆显存了,所以显卡差的用户测试或使用的时候,尽量压缩图像和视频,以达到更好的使用效果。

Qwen2-VL基于Qwen2打造,相比第一代Qwen-VLQwen2-VL具有以下特点:

1、能读懂不同分辨率和不同长宽比的图片:Qwen2-VL在多个视觉理解基准测试中取得了全球领先的表现,其中包括但不限于考察数学推理能力的MathVista、考察文档图像理解能力的DocVQA、考察真实世界空间理解能力的RealWorldQA、考察多语言理解能力的MTVQA。
2、能理解20分钟以上的长视频:Qwen2-VL可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
3、能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
4、多语言支持:除英语和中文外,Qwen2-VL现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。


使用教程:
上传图像或视频,然后输入关键词,关键词就是需要让大模型识别的部分,比如做视频解说,上传视频,可以让大模型帮你解读视频内容,并归纳总结。


下载地址:(下载前,请先阅读 使用说明 再下载,避免不必要的问题和纠纷)
夸克网盘:https://pan.quark.cn/s/f9de60298106
百度网盘:
**** 本内容需购买 ****

nsctt 发表于 2024-11-22 11:40:09

这个不错,期待一键包,谢谢

gwm0124 发表于 2024-11-22 13:22:31

不错,谢谢

















memeda 发表于 2024-11-24 21:58:33

解压出来为啥没有deepface文件夹?

kusosa 发表于 2024-11-29 21:43:11

memeda 发表于 2024-11-24 21:58
解压出来为啥没有deepface文件夹?

同问,我也是,显示dll找不到
页: [1]
查看完整版本: Qwen2-VL - 阿里云 Qwen 团队视觉大模型 可理解图片及20分钟长视频内容 本地一键整合包下载