PaliGemma 2 - Google开源视觉模型,图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割 本地一键整合包下载
PaliGemma 2 是Google DeepMind开源的全新的视觉语言模型,支持多任务、图像和短视频字幕识别、视觉问答、文本阅读、对象检测和对象分割等。PaliGemma 2 提供了参数规模分别为 3B、10B 和 28B的模型,所有模型都支持多种输入分辨率:224x224、448x448和896x896。
今天分享的一键包基于 PaliGemma 2 DOCCI微调的3B模型整合,一般的应用场景完全够用。
主要功能:
视觉处理能力:包括图像描述、目标检测、图像分割、OCR(光学字符识别)、文档理解等,能够识别图像中的物体、文字、图表等内容。
语言处理能力:支持文本生成、问答、翻译等自然语言处理任务,能够生成与图像相关的描述、回答用户的问题、进行文本翻译等。
多模态融合:能够将视觉信息和语言信息进行融合处理,实现更复杂的任务,如视觉问答、图像与文本的匹配等。
高效推理:通过 gemma.cpp 框架,支持低精度量化,可在 CPU 上进行高效推理,降低了对硬件资源的要求。
可扩展性:提供三种不同参数规模(3B、10B、28B)和多种分辨率(224px、448px、896px)的模型,用户可以根据需求选择合适的模型规模和分辨率,以优化任务性能。
应用领域
内容创作与编辑:用于图像描述、文案生成、创意写作等,帮助创作者快速生成与图像相关的内容。
教育与培训:提供互动式学习工具,通过结合图像和文字帮助学生更好地理解复杂概念,提供个性化的学习建议和辅导。
电商与客户服务:分析产品图像并生成精准的描述,帮助用户进行商品推荐,同时提升客服响应效率和解决方案的自动化。
医学影像分析:自动分析和解读各种医学影像数据,如胸片、CT 扫描等,为医生提供辅助诊断工具,生成详细的医学报告,并帮助识别疾病或异常情况。
化学与药物研发:识别和解析化学公式、分子结构及实验结果,助力科学家更高效地进行分子分析和新药开发。
智能监控与安防:实时监控安全视频,识别异常行为并自动生成警报或报告,提升安防系统的响应速度与准确性。
创意与艺术生成:根据图像生成艺术性的文本描述或创意内容,为艺术家和创意人员提供灵感支持,推动艺术创作与虚拟现实体验。
使用教程:(建议N卡,显存12G起,基于CUDA12.4)
支持文本生成和物体分割检测
文本生成只需要上传图片,输入需要提问的文本内容,提交即可。
物体分割检测需要上传一张需要检测分割的图像,输入需要处理的需求,运行即可。
注.文本提示词支持中文输入
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOJxJtBNjsGtZsw-6HgtAMFxA1?pwd=ubxb
夸克网盘:**** 本内容需购买 ****
百度网盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可。
有千问MAX就更好啦,谢谢分享先 很想一试,可惜硬件跟不上。 试了下,识别效果很棒,可以当ORC来用了
页:
[1]