找回密码
 立即注册
查看: 278|回复: 3

PaliGemma 2 - Google开源视觉模型,图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割 本地一键整合包下载

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2025-2-25 16:35:50 | 显示全部楼层 |阅读模式

PaliGemma 2 - Google开源视觉模型,图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割 本地一键 ...

PaliGemma 2 - Google开源视觉模型,图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割 本地一键  ...

PaliGemma 2 是Google DeepMind开源的全新的视觉语言模型,支持多任务、图像和短视频字幕识别、视觉问答、文本阅读、对象检测和对象分割等。PaliGemma 2 提供了参数规模分别为 3B、10B 和 28B的模型,所有模型都支持多种输入分辨率:224x224、448x448和896x896。

今天分享的一键包基于 PaliGemma 2 DOCCI微调的3B模型整合,一般的应用场景完全够用。


主要功能:
视觉处理能力:包括图像描述、目标检测、图像分割、OCR(光学字符识别)、文档理解等,能够识别图像中的物体、文字、图表等内容。
语言处理能力:支持文本生成、问答、翻译等自然语言处理任务,能够生成与图像相关的描述、回答用户的问题、进行文本翻译等。
多模态融合:能够将视觉信息和语言信息进行融合处理,实现更复杂的任务,如视觉问答、图像与文本的匹配等。
高效推理:通过 gemma.cpp 框架,支持低精度量化,可在 CPU 上进行高效推理,降低了对硬件资源的要求。
可扩展性:提供三种不同参数规模(3B、10B、28B)和多种分辨率(224px、448px、896px)的模型,用户可以根据需求选择合适的模型规模和分辨率,以优化任务性能。


应用领域
内容创作与编辑:用于图像描述、文案生成、创意写作等,帮助创作者快速生成与图像相关的内容。
教育与培训:提供互动式学习工具,通过结合图像和文字帮助学生更好地理解复杂概念,提供个性化的学习建议和辅导。
电商与客户服务:分析产品图像并生成精准的描述,帮助用户进行商品推荐,同时提升客服响应效率和解决方案的自动化。
医学影像分析:自动分析和解读各种医学影像数据,如胸片、CT 扫描等,为医生提供辅助诊断工具,生成详细的医学报告,并帮助识别疾病或异常情况。
化学与药物研发:识别和解析化学公式、分子结构及实验结果,助力科学家更高效地进行分子分析和新药开发。
智能监控与安防:实时监控安全视频,识别异常行为并自动生成警报或报告,提升安防系统的响应速度与准确性。
创意与艺术生成:根据图像生成艺术性的文本描述或创意内容,为艺术家和创意人员提供灵感支持,推动艺术创作与虚拟现实体验。


使用教程:(建议N卡,显存12G起,基于CUDA12.4)
支持文本生成和物体分割检测
文本生成只需要上传图片,输入需要提问的文本内容,提交即可。
物体分割检测需要上传一张需要检测分割的图像,输入需要处理的需求,运行即可。
注.文本提示词支持中文输入


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOJxJtBNjsGtZsw-6HgtAMFxA1?pwd=ubxb
夸克网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 10碎银 下载该资源立即购买

百度网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源立即购买


解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可。

DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

158

回帖

244

积分

江湖少侠

积分
244
发表于 2025-2-25 20:54:03 | 显示全部楼层
有千问MAX就更好啦,谢谢分享先

签到天数: 15 天

[LV.4]偶尔看看III

0

主题

42

回帖

78

积分

无名之辈

积分
78
发表于 2025-2-25 23:57:08 | 显示全部楼层
很想一试,可惜硬件跟不上。

签到天数: 6 天

[LV.2]偶尔看看I

7

主题

51

回帖

314

积分

超级版主

积分
314
发表于 2025-2-26 12:54:05 | 显示全部楼层
试了下,识别效果很棒,可以当ORC来用了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-19 22:39 , Processed in 0.083268 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表