SmolDocling - 轻量(256M参数)多模态OCR神器,0.35秒解锁全文档奥秘 本地一键整合包下载
SmolDocling 是一个轻量级、高速且支持完整文档OCR的多模态视觉语言模型,能在 每页 0.35 秒 内完成文档解析。相比当前主流OCR模型通常都需要1B+参数的大模型计算,SmolDocling 的参数量只有256M,小型参数,可在 CPU/低配 GPU 上运行,无需高端计算资源。
SmolDocling 支持布局识别、代码识别、公式解析、表格解析、图表提取 等多种任务,并能导出为 Markdown、HTML、JSON 等格式。
项目特色
1、全文档 OCR 解析
• 智能识别标题、正文、列表、表格、图表、代码、公式等内容。
• 适用于学术论文、商业文档、专利、报告、手写文档等多种文档类型。
2、轻量 & 高速
• 256M 小型参数,可在 CPU/低配 GPU 上运行,无需高端计算资源。
• OCR 速度快,每页仅需 0.35 秒,适用于批量处理。
3、多样化元素识别布局识别、代码识别、公式识别、图表与表格、图形分类等。
4、灵活的输出格式支持导出为 Markdown、HTML、JSON 等多种格式。
5、批量处理支持可一次性处理多个文档,适合大规模数据转换。
使用教程:(支持CPU和独显,独显建议N卡,处理速度更快,显存4G起,基于CUDA11.8)
上传需要处理的图片,输入需要处理生成的类型,像聊天一样,发送即可。
测试了下,好像只支持英文指令,中文不太稳定。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOLqD_6mU8aoBmtptUTZbT61A1?pwd=wdum
夸克网盘:https://pan.quark.cn/s/69aa001f4827
百度网盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可
站长,这个warptuber能不能搞一下(https://huggingface.co/AIWarper/WarpTuber/tree/main),发布版适配的win11,win10似乎跑不通 leon5hongxuan 发表于 2025-3-22 11:06
站长,这个warptuber能不能搞一下(https://huggingface.co/AIWarper/WarpTuber/tree/main),发布版适配的 ...
个人精力有限,暂时只支持付费用户提交需求,其他不考虑
页:
[1]