10 个 yyds 的文字识别 OCR 开源项目

将 脚本之家 设为“星标⭐”

第一时间收到文章更新

图片

本文转载自:逛逛GitHub

OCR 就是一种能够将图像中的文字信息转换为可编辑和可处理的文本数据的技术,简单来说就是识别提取图片上的文字。

01

端到端 OCR 模型:GOT-OCR 2.0

这是一款开源的端到端多模态 OCR 模型,模型大小仅 1.43 GB。除了能识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。

目前在 GitHub 上已经获得了 7.2K 的 Star!

开源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02

开源多模态模型:兼容文字识别

InternVL 是由 OpenGVLab 团队开发的开源多模态大模型,旨在提供接近 GPT-4V 和 Gemini Pro 等商业模型性能的替代方案,目前已经获得了 7.2K 的 Star。

这个是视觉大模型,它能兼容的场景更广泛,比如图片理解,理论上不算 OCR 领域的垂直模型,不过这种视觉大模型能够向下兼容 OCR 提取文字场景的,所以我就算进来了。

当然开源的视觉大模型有很多,我就不逐个梳理了,先拿这个做案例。

开源地址:https://github.com/OpenGVLab/InternVL

03

PDF 转成结构化文本:olmOCR

olmOCR 是由 AllenAI 开发的一款专注于 PDF 文档线性化处理的工具包,将复杂布局的 PDF 转换为适合大语言模型(LLM)训练的结构化文本。目前已经获得了 9.8K 的 Star!

其核心目标是通过高效处理 PDF 的图文混排、多栏布局等问题,生成连贯的文本数据,提升 LLM 在真实场景中的文档理解能力。

要求配置是最新的 NVIDIA GPU(在 RTX 4090、L40S、A100、H100 上测试),至少有 20 GB 的 GPU RAM,30GB 可用磁盘空间

开源地址:https://github.com/allenai/olmocr在线演示:https://olmocr.allenai.org/

04

识别文字转成结构化文件:Zerox

Zerox 是由 Omni-AI 团队开发的一款 AI 驱动的提取文字工具,可以把 PDF、图片、Docx 等格式的文档转换为结构化的 Markdown 文件。目前获得了 10.3K 的 Star!

底层实现:底层基于视觉模型(如 GPT-4o-mini)实现 OCR 并直接生成结构化内容。

无需训练:与传统 OCR 工具不同,Zerox 无需提前训练模型即可处理复杂布局。 

格式结构:可识别学术论文的分栏排版、技术文档中的代码块、合同表格、试卷公式等,保留逻辑结构并生成整洁的 Markdown。

图片

开源地址:https://github.com/getomni-ai/zerox体验地址:https://getomni.ai/ocr-demo

05

行级文本检测、布局分析:Surya

Surya 专注于多语言文本及复杂文档结构的识别,尤其以表格识别能力见长。目前在 GitHub 上已经获得了 16.8K 的 Star!

关键词:行级文本检测、布局分析(表格、图像、标题等检测)、阅读顺序检测、表格识别(检测行/列)、LaTeX OCR

① 多语言支持:支持90+ 种语言,涵盖中文、日语、阿拉伯语等复杂文字,以及英语、西班牙语等主流语言,适用于全球化场景的文档处理。

② 表格识别优化:能精准识别表格的行、列、单元格结构,包括旋转或复杂布局的表格,性能优于当前主流开源模型(如 Table Transformer)。

③ 复杂文档解析:可检测文档中的标题、图片、段落等元素,并智能判断阅读顺序,避免输出内容混乱。

图片

图片

④ 高效处理能力:支持 CPU/GPU 运行,通过批量处理和图像预处理优化(如去噪、灰度化),显著提升识别速度,适用于企业级文档数字化需求。

开源地址:https://github.com/VikParuchuri/surya

06

图片 PDF 变可复制、搜索

这个开源工具,专为扫描版 PDF 文件(就是 PDF 中全是图片,图片中的文字不可复制的那种)添加可搜索、可复制的文本层。

目前在 GitHub 已经获得了 20.7K 的 Star!

图片

使用的是 Tesseract OCR 引擎,支持 100 多种语言,能保留原始图像质量并优化文件体积,同时生成符合长期存储标准的 PDF 格式。 

① 精准识别:打开图片型 PDF 的时候,会发现图片上的文字是没办法复制和搜索的。将 OCR 文本层嵌入图片下方,支持高精度复制和搜索。 

图片

② 批量处理:利用多核 CPU 加速,可高效处理上千页文档。 

③ 图像优化:自动校正倾斜页面、旋转错误页面,提升识别率。 

④ 跨平台支持:安装便捷,兼容 Linux、Windows、macOS 和 Docker

开源地址:https://github.com/ocrmypdf/OCRmyPDF  接入文档:https://ocrmypdf.readthedocs.io/en/latest/

07

PDF 转换为 Markdown、JSON 或 HTML

Marker 是由 Vik Paruchuri 开发的高效文档转换工具,可以将 PDF、图像、Office 文档及 EPUB 等格式快速转换为 Markdown、JSON 或 HTML。

目前在 GitHub 上已经获得了 22.8K 的 Star。

优势在于高精度解析复杂内容(如表格、数学公式、代码块)和出色的处理速度,支持 GPU 加速,性能优于同类云服务(如 Llamaparse、Mathpix)。

可以调用大语言模型(如 Gemini、Ollama)优化结果,例如跨页表格合并、公式格式化、表单数据提取。

开源地址:https://github.com/vikParuchuri/marker

08

EasyOCR

EasyOCR 是由 JaidedAI 开发的开源 OCR 工具库,输入图片,返回提取出来的文字、对应位置坐标、置信度,目前在 GitHub 上获得了 26K 的 Star。

支持 80+ 语言和多种文字系统(如中文、拉丁文、阿拉伯文),提供即用型文本识别功能。

基于 PyTorch 深度学习框架,支持图片/字节流/URL等多种输入形式,通过简洁 API 输出文本内容、位置及置信度。

其特点包括多语言混合识别、CPU/GPU 兼容和预训练模型快速部署,适用于多语言文档、自然场景文字(如路牌/车牌)等 OCR 场景,兼顾开发者友好性和工业级应用需求。

例子

示例2

示例3

开源地址:https://github.com/JaidedAI/EasyOCRDemo 地址:https://www.jaided.ai/documentai/demo

09

安装即用的离线 OCR 文字识别软件

这款免费、开源、离线的 OCR 文字识别软件,支持 Windows 7+ x64 和 Linux x64 系统,无需联网,下载即可本地运行。目前已经获得了 30.8K 的 Star 。

关键词:本地软件解压即用,离线运行;截图OCR;批量OCR ;

1-标题-1.png

2-截图-1.png

3-批量-1.png

开源地址:https://github.com/hiroi-sora/Umi-OCR

10

OCR 远古巨神:Tesseract

Tesseract 是一个功能强大且广泛应用的开源光学字符识别(OCR)引擎,在 GitHub 上已经获得了 65.3K 的 Star 。

能够将图像中的文字转换为可编辑的文本,1985 年至 1994 年间由惠普实验室开发, 1996 年后被移植到 Windows系统, 2005 年惠普将其开源。

并最终由 Google 赞助,是知名度比较高的开源 OCR 系统之一。

官方介绍使用先进的深度学习技术(如卷积神经网络)来进行字符识别,精度较高,尤其在处理质量较好的扫描图像时表现优异。支持超过 100 种语言的文本识别,方便开发者处理不同语言的文本识别任务。

除此之外还有一个 JavaScript 版本的Tesseract OCR:Tesseract.js,但是逛逛实际测试下来,发现 JS 版本中文效果不咋滴。

开源地址:https://github.com/tesseract-ocr/tesseract开源地址:https://github.com/naptha/tesseract.js

图片

  推荐阅读:

  • 为什么大厂宁愿用go也不用.net,连微软的TypeScript转译器都用了Go?

  • 程序员建议遵守的优秀编程风格

  • 理想汽车开出了满意的薪资!

  • 字节跳动Java岗地狱级一面实录:我如何用27分钟征服面试官?

  • 42.8k Star! 一款懒人专项的开源 Docker 容器管理神器!

  • (0)
    wd123_cnwd123_cn
    上一篇 2025年3月20日 上午10:35
    下一篇 2025年3月20日 上午10:36

    相关文章

    • 金毛犬鲍里斯与奶牛邻居的跨物种友谊

      在许多城市和社区,邻里之间的情谊已不如往昔。许多人回忆起童年时的街区派对和与街坊孩子们一起玩耍的时光,但成年后却连邻居的名字都叫不上来。然而,金毛犬鲍里斯(Boris)却以其独特的方式,重新点燃了邻里之间的温暖。 鲍里斯的特殊友谊 鲍里斯是格林家族(The Green Family)中的三只金毛犬之一,但他与邻居的关系尤为特别。他的邻居并非人类,而是一群奶牛…

      2025年3月12日
    • 65岁知名演员张振寰去世,家中死亡多日无人知

      来源 | 晨视频、潇湘晨报 3月15日,据报道,张振寰(别名龙少飞),也是鲍正芳前夫,14日下午在台湾台北市南港住家被发现遗体,享年65岁,警方已证实其身份。台媒询问前妻鲍正芳,她尚未回复。张振寰的代表作为1983年演出《小李飞刀》中之荆无命,造型和演技大受瞩目,他与鲍正芳于1996年,育有一子张熙宇,但因家暴原因,两人于2002年结束婚姻。 转载:潇湘晨报…

      新闻资讯 2025年3月16日
    • 阿里云高管回应特斯拉与阿里合作,淘宝买菜逐步退出社区团购,萝卜快跑开启迪拜市区测试服务,xAI全股票收购X,这就是今天的大新闻。

      今天是3月29日 农历三月初一 已经 3 月底了 杭州西边的太子尖 又下雪了 。。。 这话说出去谁信啊 下面是今天的其他大新闻   # 阿里云高管回应“特斯拉或与阿里合作”:特斯拉正在和本土企业普遍接触 ( IT之家 )《 自动驾驶 Daily 》昨日透露,特斯拉正在和阿里云深入接触,或许未来双方有合作的可能。 针对 “ 特斯拉…

      2025年3月31日
    • 男子涂屎在同事工位被拘5日,公司将其开除后遭索赔29万,法院判了!

      来源 | 申工社 刘某于2005年9月18日入职北京某汽车公司。2019年3月1日13时许,刘某将粪便涂抹在同事的办公桌上被查获。3月6日上午他被公安机关带走。3月7日至3月12日被北京市公安局顺义分局处以行政拘留五日的处罚。3月9日,公司以刘某旷工为由,短信通知与其解除劳动关系。刘某不服,表示旷工应当是主观上不提供劳动,而其因被限制人身自由,客观上无法提供…

      新闻资讯 2025年3月20日
    • 私人月球着陆器侧翻着陆后停止工作,任务提前结束

      美国佛罗里达州卡纳维拉尔角消息——周五,官员宣布,一家私人公司研发的月球着陆器在月球南极附近的一个陨石坑侧翻着陆后停止工作,任务宣告结束。 着陆失败 这一消息是在得克萨斯州直觉机器公司(Intuitive Machines)的着陆尝试失败不到24小时后发布的。该公司表示,着陆器“雅典娜”偏离目标超过800英尺(250米),最终降落在了一个寒冷的陨石坑中,并宣…

      2025年3月8日
    • 大卫·哈塞尔霍夫悼念前妻帕梅拉·哈塞尔霍夫离世 请求公众尊重隐私

      近日,前妻帕梅拉·哈塞尔霍夫的离世让大卫·哈塞尔霍夫及其家人深陷悲痛之中。大卫·哈塞尔霍夫与帕梅拉·哈塞尔霍夫曾于1989年至2006年期间共度婚姻生活,并育有两个女儿泰勒(34岁)和海莉(32岁)。大卫向《人物》杂志发表声明,表达了家人对帕梅拉去世的深切哀悼。 “我们的家庭对帕梅拉·哈塞尔霍夫的离世感到无比悲痛。我们感谢大家在这个艰难时刻给予的爱与支持,但…

      2025年3月7日