PaliGemma 2 - Google开源视觉模型，图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割本地一键整合包下载 - AI软件 - 前沿AI软件资源站

无言以对 发表于 2025-2-25 16:35:50

PaliGemma 2 - Google开源视觉模型，图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割本地一键整合包下载

PaliGemma 2 是Google DeepMind开源的全新的视觉语言模型，支持多任务、图像和短视频字幕识别、视觉问答、文本阅读、对象检测和对象分割等。PaliGemma 2 提供了参数规模分别为 3B、10B 和 28B的模型，所有模型都支持多种输入分辨率：224x224、448x448和896x896。

今天分享的一键包基于 PaliGemma 2 DOCCI微调的3B模型整合，一般的应用场景完全够用。

主要功能：
视觉处理能力：包括图像描述、目标检测、图像分割、OCR（光学字符识别）、文档理解等，能够识别图像中的物体、文字、图表等内容。
语言处理能力：支持文本生成、问答、翻译等自然语言处理任务，能够生成与图像相关的描述、回答用户的问题、进行文本翻译等。
多模态融合：能够将视觉信息和语言信息进行融合处理，实现更复杂的任务，如视觉问答、图像与文本的匹配等。
高效推理：通过 gemma.cpp 框架，支持低精度量化，可在 CPU 上进行高效推理，降低了对硬件资源的要求。
可扩展性：提供三种不同参数规模（3B、10B、28B）和多种分辨率（224px、448px、896px）的模型，用户可以根据需求选择合适的模型规模和分辨率，以优化任务性能。

应用领域
内容创作与编辑：用于图像描述、文案生成、创意写作等，帮助创作者快速生成与图像相关的内容。
教育与培训：提供互动式学习工具，通过结合图像和文字帮助学生更好地理解复杂概念，提供个性化的学习建议和辅导。
电商与客户服务：分析产品图像并生成精准的描述，帮助用户进行商品推荐，同时提升客服响应效率和解决方案的自动化。
医学影像分析：自动分析和解读各种医学影像数据，如胸片、CT 扫描等，为医生提供辅助诊断工具，生成详细的医学报告，并帮助识别疾病或异常情况。
化学与药物研发：识别和解析化学公式、分子结构及实验结果，助力科学家更高效地进行分子分析和新药开发。
智能监控与安防：实时监控安全视频，识别异常行为并自动生成警报或报告，提升安防系统的响应速度与准确性。
创意与艺术生成：根据图像生成艺术性的文本描述或创意内容，为艺术家和创意人员提供灵感支持，推动艺术创作与虚拟现实体验。

使用教程：(建议N卡，显存12G起，基于CUDA12.4)
支持文本生成和物体分割检测
文本生成只需要上传图片，输入需要提问的文本内容，提交即可。
物体分割检测需要上传一张需要检测分割的图像，输入需要处理的需求，运行即可。
注.文本提示词支持中文输入

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOSO-TUMswrbqhxlth6Sqx9VA1?pwd=kwkv
夸克网盘：**** 本内容需购买 ****
百度网盘：**** 本内容需购买 ****

解压密码：https://deepface.cc/ 复制这个完整的网址即是解压密码，不要有空格，复制粘贴即可。

nsctt 发表于 2025-2-25 20:54:03

有千问MAX就更好啦，谢谢分享先

qqq215 发表于 2025-2-25 23:57:08

很想一试，可惜硬件跟不上。

来日方长 发表于 2025-2-26 12:54:05

试了下，识别效果很棒，可以当ORC来用了

页: [1]

前沿AI软件资源站's Archiver

PaliGemma 2 - Google开源视觉模型，图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割 本地一键整合包下载

PaliGemma 2 - Google开源视觉模型，图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割本地一键整合包下载