General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
通用 OCR 理论:通过统一的端到端模型实现 OCR-2.0
Abstract
随着人们对人工光学字符的智能处理需求日益增长,传统的OCR系统(OCR-1.0)已越来越不能满足人们的使用需求。本文,我们将所有人工光学信号(例如纯文本、数学/分子式、表格、图表、乐谱甚至几何图形)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型GOT,以推动OCR-2.0的到来。GOT拥有580M参数,是一个统一、优雅、端到端的模型,由高压缩编码器和长上下文解码器组成。作为OCR-2.0模型,GOT可以在各种OCR任务下处理上述所有“字符”。在输入端,该模型支持切片和整页样式的常用场景和文档样式图像。在输出端,GOT可以通过简单的提示生成纯文本或格式化结果(markdown/tikz/smiles/kern)。此外,该模型还具有交互式OCR功能,即通过坐标或颜色引导的区域级识别。此外,我们还将动态分辨率和多页OCR技术应用于GOT,以提高实用性。在实验中,我们提供了足够的结果来证明我们模型的优越性。
1 Introduction
OCR 是一项广泛应用的技术,在光学图像中提取嵌入字符并将其转化为易于编辑的形式。基于多模块流水线架构设计的 OCR-1.0 时代典型 OCR 系统 [10] 主要致力于这一领域。然而,在系统优化方面仍存在改进空间。尽管传统 OCR 方法在通用性方面存在不足,并且会根据不同的子任务进行定制化设计 [5,9,24,27,36,46,49] 。近年来大型视觉语言模型 (LVLM) 发展现状良好,在指令调整阶段后自然获得了英文 OCR 能力 [37] 。为了提高OCR准确率并支持中文等其他语言 [5] ,Qwen-VL[5] 解冻了其图像编码器(CLIP-G)并在其第二阶段训练中使用了大量OCR数据 [27] 。相比之下,在处理文档级密集OCR方面 Vary[46] 开发了一个与CLIP分支并行的新高分辨率OCR视觉词汇表。InternVL-1.5[9] 和其他模型则采用了滑动窗口的方式将整个图像划分为多个子块来进行高分辨率OCR处理 [27,50] 。因此,在文本驱动图像理解领域中光学字符感知和识别被视为基础技术之一 [37] ,这使得研究者们更加关注LVLM的相关技术研究。
然而,在现有 LVLM 架构难以满足多种 OCR 任务的需求的情况下,请解释原因:1)视觉感知与推理间的权衡矛盾。LVLM 更倾向于专注于视觉推理能力(如 VQA [33, 42]),因为这是LLM所擅长的任务。为了快速利用LLM带来的问答优势(QA),大多数 LVLM [15, 24, 19] 将图像token与文本token一一对应。然而,在纯视觉OCR任务(尤其是高密度文本场景)中实施这种对齐策略是不合理的,因为每个对齐的视觉token(偏向于文本token)无法有效提取足够的字符信息。想象一下,在使用数千个图像token(例如通过图像裁剪方式 [9, 23] 对编码同样数量的光学字符时(例如仅在一个A4-PDF页面内的文本),这无疑是一种资源浪费的做法。2)计算资源需求高昂。LVLM通常拥有数亿级参数量级的模型架构,在后端训练部署时会面临极高的计算资源消耗问题。对于LVLM来说,在想要引入新的OCR模式(例如一种新的语言)时仅进行微调是不够的,并且缺乏足够的GPU资源来进行大规模预训练工作更为昂贵也是不可取的做法;而为了引入一个新的OCR特征则需要重新训练具有数亿级参数量级的模型架构这也是一种资源浪费的做法
因此
- 端到端架构。与基于分步处理的传统 OCR-1.0 模型相比,OCR-2.0 应采用统一的 end-to-end 架构,以实现更低的维护成本目标。
- 在低成本训练与推理方面,OCR-2.0 模型应避免像 LVLM 这样的设计,后者专注于对话机器人式的推理任务,而前者则应聚焦于更强力的光学字符识别能力,因此需要适当规模的模型参数配置以保证较低的成本。
- 通用适用性是 OCR-2.0 的另一大特点,它不仅能够处理更多类型的光学字符,例如乐谱、图表与几何图形等,还应支持更加易读的输出格式,例如支持 LATEX 或 Markdown 格式的公式与表格输出。
以提出的一般 OCR 理论为基础,在研究领域中的一项重要探索性工作下,
我们提出了一种主要的 OCR-2.0 模型(GOT),旨在弥合现有 OCR 技术与实际应用需求之间的差距。
在结构上,
我们的模型采用了简单的编码器-解码器架构,
其中,
GOT 的编码器拥有约80 million参数,
而其解码器则具备约50 million参数,
能够处理高达8K长度的输出序列。
该模型设计了一个高效的数据预处理系统,
通过将输入图像转换为其对应的 token 表示,
实现了对常见照片与文档的有效识别与转写。
具体而言,
GOT 将每个输入图像转换为其对应的 token 表示,
这些 token 的大小统一设定为 256×1024像素。
此外,
为了提升系统的鲁棒性与适应性,
我们还引入了细粒度 OCR 功能、动态分辨率策略以及多页 OCR 技术。
这些技术手段不仅增强了系统对复杂场景的支持能力,
还显著提升了其实际应用价值。
为了实现这一目标,
我们构建了一个完整的数据生成框架,
从数据采集到特征提取再到标注处理均有详细规范。
本文将深入探讨这一创新框架的设计原理及其在实际应用中的表现。
基于OCR-2.0设想的模型

Figure 1: 在输入端,GOT支持多种光学图像类型,包括日常使用的照片和文档。此外,在作为通用的OCR-2.0模型的基础上,GOT能够处理更多任务例如乐谱分子式简单几何形状图表等。此外,GOT还具备区域聚焦OCR高分辨率OCR以及多页文档处理的能力。软件主要处理英语和中文内容但允许用户通过提示来管理结构化的输出结果如Mathpix markdown tikz smiles和其他标记语言等
2 Related Work
2.1 Traditional OCR
然而随着技术的进步现代OCR系统的复杂度不断提高这使得开发维护难度相应增加尽管如此复杂的系统也可能面临更高的错误率和高昂的成本投入
2.2 LVLM-driven OCR
大型视觉语言模型 (LVLM) [5, 9, 20, 24, 27, 46, 49]凭借其卓越的通用性受到了人工智能领域的广泛关注。随着对基于文本的理解需求持续增强以及对OCR技术的关注度不断提升,在该领域具有感知推理能力的大型视觉语言模型逐渐成为研究热点。其中绝大多数LVLM依赖现成的CLIP技术 [37] ,特别是那些固定CLIP编码器构建整体LVLM架构的模型表现出一定的局限性。这一局限主要体现在它们在处理非英语场景下的OCR任务时表现不足。为应对这一挑战一些研究者采用动态分辨率策略将输入图像划分为较小块来提升OCR性能然而这种方法在处理高分辨率图像如PDF文件时虽然有效但也带来了大量图像分割块进而限制了生成结果的最大长度
General OCR Theory
在本文中阐述了通用的OCR理论,并命名为OCR-2.0(参考第1节的相关内容),旨在推动该领域的发展。在此新理论的基础上提出了具有创新性的OCR模型GOT。本节将详细阐述技术架构及其包含的关键组件、多阶段训练策略以及相关的数据驱动方法。
3.1 Framework
如图所示,GOT架构由三个主要模块组成,包括图像编码器,线性层以及输出解码器.其中线性层起着连接作用,用于建立连接,在此过程中将视觉编码器与语言解码器之间的通道维度进行映射.为了优化整个GOT架构模型,在此阶段中我们采用了三个关键步骤.首先,在预训练视觉编码器方面,我们进行了纯文本识别任务.为了提高训练效率并节省GPU资源,我们选择了一个微型解码器来传递梯度至编码以提升效率.在此过程中,我们将包含场景文本的图像以及包含文档级字符的手册图像输入模型以便于让模型捕获两个最常见的字符的潜在表示特性.在下一步骤中,我们将通过结合预先训练好的视觉编码子网络与新的更大规模的解码子网络构建了GOT架构.为增强模型泛化能力扩展其知识体系为此阶段准备了大量更加通用的数据集例如乐谱数学分子式几何形状等来进行OCR技术的发展.最后在后续阶段中我们将进一步提升模型的整体性能为此目标我们将引入细粒度多裁剪页面合成等细节数据以支持区域提示OCR功能大图像OCR以及批量PDF OCR功能[20].

图2展示了所提出的GOT框架的架构。第一阶段:我们通过训练一个较小规模的OPT-125M模型来进行OCR任务的有效适应。第二阶段:构建为将视觉编码器连接到Qwen-0.5B,并且在这一阶段充分运用了更通用的OCR技术(OCR-2.0)。第三阶段:无需对视觉编码器进行任何修改即可完成设计工作,并将其专门定制以支持新型字符识别功能。
3.2 Pre-train the OCR-earmarked Vision Encoder
如前所述,GOT基于Encoder-Decoder架构设计而成,其解码器模块参考LVLM设计,具备良好的初始化基础,但目前尚未发现适用于OCR-2.0模型的预训练编码器,因此我们需要自行进行相关研究与开发工作,以确保新开发的OCR编码器能在不同输入形态(如截取片段与完整页面)以及文档文本识别任务中展现出卓越性能
3.2.1 The Vision Encoder Generation.
我们采用了VitDet[17](简洁版),该模型仅包含约80 million参数),因为它具备高效的局部注意力机制能够有效地降低计算开销
3.2.2 Data Engine Towards Encoder Pre-training
在该编码器预训练过程中, 我们采用了约500万个图文配对样本, 其中包含场景文本的OCR数据300万条和文档中的OCR数据200万条. 获取这些样本的方式如下:
对于自然场景数据集的采集工作,我们采用了Laion-2B [40] 和Wukong [12] 两个数据集进行英文与中文图像的采样操作。随后运用PaddleOCR [10] 工具提取了这些不同真实场景中的伪Ground Truth信息。经过统计发现,在总共获得的200万个数据样本中各有一半为中文与英文标注。针对Text Ground Truth类型的数据处理主要包括两种方式:首先对所有标注进行边界框去除后按照从上至下、从左往右的顺序整合每个文本内容;其次通过提取边界框范围并截取对应的文本区域生成图像切片形式的数据样本。其中第二种方式能够额外获取约1百万个图像切片类型的数据样本用于后续研究。而对于Document级数据集的采集流程则包括以下步骤:首先通过Common Crawl开源资源收集PDF样式文件并利用Fitz Python包解析相应的密集文本内容;在此过程中我们获得了总计1.2百万个整页PDF格式图像-文本对以及8十万段图像切片数据样本。这些切片数据包括了行级和段落级两种类型的信息,并全部来源于原始PDF文件中的边界框截取结果。
3.3 Scaling Up the OCR-2.0 Knowledge via Multi-task Joint-training
3.3.1 The Final Architecture of GOT
在完成视觉编码器预训练步骤后
3.3.2 Data Engine for Joint-training
为使足够的 OCR-2.0 知识成功注入到 GOT 中,并非仅限于传统的简单 OCR 数据,在此阶段我们进行了深入研究以探索多种合成方法及其相关数据引擎。 如 Figure 3 所示,并将在后续段落中详细讨论各类合成数据的具体细节。

Figure 3: 我们采用六种渲染工具来操作数据引擎以使GOT能够在多样的OCR任务中发挥作用。我们分别采用LATEX来处理表格Mathpix-markdown-it来处理数学/分子公式Tikz来处理简单的几何形状Verovio来处理乐谱以及Matplotlib/Pyecharts来生成图表依次
Plain OCR数据。我们基于第3.2.2节所述方法选取了数据总量的80%来构建普通OCR数据集。为了提升GOT模型的鲁棒性需求,我们引入了 handwritten text recognition子任务,该任务涉及多种语言书信与日记中的不同笔迹形式。为此,我们采用了来自中文CASIA-HWDB2[1]、英文IAM[2]以及挪威语NorHand-v3[3]的数据集合成训练所需的数据库。针对具有行级切片格式原始图像-文本配对,我们将6至8对配对随机分配到空白文档页面上,并通过此方法实现较长文本的手写识别过程,并进一步提高训练效率。
Mathpix-Markdown格式化数据。为了保证输出结果清晰具有重要意义,我们需要保留所有数学公式与表格信息,因此采取了多样化的采集策略与制作流程细节如下:
- Math formulas. 我们在Arxiv上爬取了大量的LaTeX源.tex文件,并从中提取了大约1M个公式片段。随后我们将这些LaTeX源转换为Mathpix-Markdown-it格式,并利用Chorme-driver工具调用该软件将这些公式渲染成HTML格式。接着我们把生成的HTML文件转码成SVG格式,并导出为PNG图片保存。经过测试发现这种方法比直接使用LaTeX快了超过20倍。
- Molecular formulas. 我们首先下载包含了s 2M SMILES来源的ChEMBL_25文件。然后通过结合Mathpix-Markdown-it工具与rdkit.Chem模块库,我们成功获得了约100万个分子式的图像与文本配对数据。
- Table. 在爬取的大约30万份LaTeX文件中提取出大量表格源,并通过自动生成高质量的图片形式呈现这些表格信息。
- Full page data. 我们将所有内容统一转换为Mathpix-Markdown-it格式,并补充了来自书籍、论文和财务报告等领域的约20万条数据样本作为标注参考。
More general OCR data.
- Sheet music. 音乐是人类文化遗产的重要组成部分, 光学音乐识别技术在发挥乐谱自动识别与转录功能方面具有显著作用 [7, 38]。本研究采用GrandStaff[39]数据集作为视觉编码基础, 并利用复调乐谱数据集获取来自音乐摘录的Humdrum kern转录版本。为扩大训练样本规模, 我们不仅从现有约10万图像文本样本中进行了补充, 还特意采集了一些纯文本样本, 并借助Verovio Python模块进行了重绘处理。值得注意的是, 本研究主要关注单系统乐谱的渲染效果, 这是因为缺乏相关领域专家指导难以实现多系统乐谱的整体合成展示。经过渲染处理后, 我们获得了约0.5 million个高质量样本。
- Geometric shape. 几何学是LVLM体系构建AGI能力的关键基础之一, 是通向通用人工智能必经的关键节点之一。GOT系统有望将光学几何元素转化为TikZ[34]格式文本文件。TikZ是一种简洁高效的矢量图形描述语言, 其基本命令能够生成点、线等基础几何元素并支持以LATEX格式精确绘制图形元素关系网络架构图示(例如圆形、矩形、三角形等基本形状以及直线、抛物线等函数曲线)。基于GOT系统的TikZ风格设计框架, 我们成功构建了包含约1 million个高质量几何图形样本的数据集。
- Chart. 图表是多学科研究中数据可视化与分析的重要表现形式之一。本研究提出了一种名为"图表OCR"的新子任务框架: 该框架能够从图表图像中提取视觉知识并将其转化为表格/Python字典格式的可编辑输出表示(例如图表标题信息、来源标注信息等)。基于OneChart[8]基准测试框架, 我们采用Matplotlib与Pyecharts工具库生成图表图像-文本配对实例集合(如柱状图、折线图等)。值得注意的是由于GOT系统仅作为一个纯OCR技术模型, 因此我们设计的图表合成数据集并不考虑图表间的语义关联关系约束条件: 在这种情况下我们采用了开放获取NLP语料库中的随机实体文本作为输入素材来源(如图表标题名称信息等); 数值部分则由受控分布机制生成随机数值序列集合(如正态分布/均匀分布参数设置)。
3.4 Customizing New OCR Features by Post-training the Decoder
经过上述两个步骤对OCR-2.0光学信号中的常规视觉数据进行压缩处理后
3.4.1 Fine-grained Data Engine for Interactive OCR.
细粒度OCR系统[20]是一种具有高度交互性的技术,其基于空间坐标或颜色编码的区域级视觉感知机制。用户可在问题提示字段中输入框坐标信息(框引导OCR)或颜色提示词(颜色引导OCR),从而定位目标区域(RoI)内的字符识别任务,并避免识别到与查询无关的文字内容。这些数据集均附带了清晰的文字边界框信息。遵循Fox[20]的研究思路进行处理,通过Fitz/PDFminer库完成文件内容的解析工作。并记录了页面边缘位置信息及各文字单元的位置坐标,以便生成高质量的训练样本数据用于模型训练。我们最终整理出约60万份高质量训练样本数据用于模型训练
3.4.2 Multi-crop Data Engine for Ultra-large-image OCR.
GOT能够处理高达1024\times 1024像素的分辨率;这一设置完全满足常见OCR任务的需求;例如常见的场景OCR或A4大小格式下的PDF OCR。然而,在处理非常大的图片场景时需要更高容量;如两页PDF文件横向拼接的情况(类似于阅读报纸时常见的情形)。得益于我们采用高压缩率编码器;GOT能够实现动态分辨率是在较大的滑动窗口下完成;从而确保模型能够在处理图像tokens时高效完成高分辨率的任务。为了提高效率;我们采用InternVL-1.5 [9]的方法进行裁剪;其中tiles的最大尺寸为^{*} 12。超分辨率图像通过单页PDF数据合成;包括横向和纵向拼接的方式生成;这种方法生成了总共$5* 万份图文配对。
3.4.3 Multi-page Data Engine for Batched PDF-file OCR.
对于OCR处理工作而言,在实际操作中采用循环结构进行多页处理是非常科学合理的。为此我们开发并实现了多项创新功能其中之一:多页OCR系统(无需依赖for循环),该系统特别适用于那些难以独立分页的PDF格式数据(如ArXiv平台上的LaTeX文件)。通过这一技术实现路径选择更加灵活便捷:我们直接从Mathpix格式的数据中随机选取2至8页内容,并将这些页面合并成一个完整的OCR处理请求。这样做的好处在于确保每一页的内容都不超过650个token字符长度(从而保证整体请求长度不超过8K)。经过这一系列技术处理后总共生成了大约20万组多页面OCR样本数据集:其中绝大多数案例都是中英文混合呈现的形式。
4 Experiments
4.1 Implement Details
我们配备了配备64块L40级GPU的硬件架构来对GOT进行高效训练。在预训练过程中, 我们采用了该方法能够显著提升性能的方式, 设置了全局批量大小为128, 并完成三轮完整的训练周期后达到了预期效果, 总共进行了约3 epochs的迭代学习过程, 并结合了AdamW [29]优化器与余弦退火调度器[28], 初始学习率为1\times{10^{-}^4}, 此时的最大序列长度设定为了限制计算资源的同时保证模型性能的最大化需求, 达到了4k tokens的标准长度要求。随后进入联合微调阶段, 我们将序列长度提升至6k tokens范围, 并继续使用与第一阶段相同的优化器配置策略来进一步提升模型泛化能力, 完成了一整个epoch的学习任务之后切换到全序列微调模式以便更好地适应下游任务需求。最后一轮强化学习过程中, 我们将序列长度扩展到了最大的8k tokens水平以支持多片段/多页面OCR功能实现, 并相应地降低了初始学习率至2\times{10^{-}^5}水平同时维持了相同的总epoch数量以确保算法稳定性和收敛性得到双重保障
在每次训练数据的过程中,在每一轮的数据处理中,在每一次的数据迭代中,在每一次的数据循环中,在每一次的数据更新中,在每一次的数据反馈中,在每一次的数据优化中,在每一次的数据提升中,在每一次的数据强化中,在每一次的数据精炼中,在每一次的数据提炼中
4.2 Main Results
在本节中,我们对GOT在五个不同OCR场景下的性能进行了评估和验证:1)纯文本OCR系统;2)场景文本OCR应用;3)细粒度文档OCR实现;4)基于Mathpix markdown格式化的文档OCR;5)通用字符OCR技术的开发与测试。值得注意的是,在进行所有基准测试时,我们采用了严格的数据筛选方法以避免重复使用训练集中的内容。具体而言,在选择各基准测试集时采取了多维度质量控制措施:首先确保数据来源合法合规;其次对模型性能表现进行了全面评估并记录;最后对实验结果进行了深入分析并整理成报告形式
4.2.1 Plain document OCR performance
采用开源 Fox [20] 资源对 GOT 在中文及英文 PDF OCR 系统进行了评估。所采用的评估指标在 OCR 领域内为常用标准,包括编辑距离(edit distance)、F1-score、精确率(precision)、召回率(recall)、BLEU 和 METEOR 等指标。考虑到文档内容较为冗长,在计算每个指标时采用了词级分词技术。参考 Table 1 的数据可知,在仅 580M 的体积下,在文档的纯文本 OCR 上 GOT 已展现出卓越的性能表现,充分验证了其在 PDF 文本感知与识别方面的出色能力。

表1:不同语言OCR在文档级别上的性能对比分析
4.2.2 Scene text OCR performance
我们获取了400张自然图像,在其中一半标注为中文,在另一半标注为英文,并将其作为场景文本OCR基准使用。其中所有的基础事实均为人工校对。鉴于场景图像中的文本相对简短,在计算各项指标时我们采用了字符级别的分割方法。如表2所示,在自然图像上 GOT 的表现同样优秀这表明该模型在文档OCR任务以及场景文本OCR任务上均表现出色

Table 2: Performance of English (en) and Chinese (zh) OCR for scene texts.
4.2.3 Formatted document OCR performance
该OCR模型的主要功能是将光学PDF图像转换为与Markdown类似的格式。为了评估GOT的这一能力,我们特意选择了90页的高质量样本作为基准测试集。这些样本包括中文和英文文档页面,并通过Mathpix系统生成伪标签后进行人工校对以确保准确性。在表3中可以看出,在单尺度(1024×1024)下GOT能够输出令人满意的格式化文本。当采用多裁剪推理时,在处理包含小文本的公式和表格时效果更为显著。实验结果表明GOT在格式化输出文档方面表现优异。此外,在处理高分辨率图像时动态分辨率方案也展现出良好的性能表现

Table 3: 表示格式化文档(中英对照)以及更通用OCR系统的性能评估。其中,“单模式”表示输入是一个原始图像;而“多裁剪”则代表动态分辨率策略。
Table 3: 表示格式化文档(中英对照)以及更通用OCR系统的性能评估。其中,“单模式”表示输入是一个原始图像;而“多裁剪”则代表动态分辨率策略。
4.2.4 Fine-grained OCR performance
我们展示了GOT的细粒度OCR指标。如表4所示,GOT在基于边界框和基于颜色的参考OCR任务上均显著优于Fox[20]的结果,这表明我们的模型在交互式OCR方面表现出色

Table 4: Comparison of fine-grained document OCR.
4.2.5 More general OCR performance
基于乐谱数据集、几何图形样本以及图表基准图谱的构建与实验设计框架下

Table 5: Performance comparisons on number-centric chart OCR.
5 Conclusion
我们设计了一个基础的OCR-2.0模型,在其架构上相较于现有系统更为简洁,并专注于纯OCR技术而不受其他领域的影响,并展现出卓越的能力。该系统不仅能够处理多种泛OCR任务,并且在集成性方面也具有重要意义。此外,在模型设计、数据架构以及应用场景等方面都具有重要意义的研究方向得到了充分展现。
参考文献
[1] Casia-hwdb2-line. https://huggingface.co/datasets/Teklia/CASIA-HWDB2-line (2024) 6
[2] Iam-line. https://huggingface.co/datasets/Teklia/IAM-line (2024) 6
[3] Norhand-v3-line. https://huggingface.co/datasets/Teklia/NorHand-v3-line (2024) 6
[4] Bai, J., Bai, S., Chu, Y., Cui, Z., Dang, K., Deng, X., Fan, Y., Ge, W., Han, Y., Huang, F., Hui, B., Ji, L., Li,
M., Lin, J., Lin, R., Liu, D., Liu, G., Lu, C., Lu, K., Ma, J., Men, R., Ren, X., Ren, X., Tan, C., Tan, S., Tu,
J., Wang, P., Wang, S., Wang, W., Wu, S., Xu, B., Xu, J., Yang, A., Yang, H., Yang, J., Yang, S., Yao, Y.,
Yu, B., Yuan, H., Yuan, Z., Zhang, J., Zhang, X., Zhang, Y., Zhang, Z., Zhou, C., Zhou, J., Zhou, X., Zhu,
T.: Qwen technical report. arXiv preprint arXiv:2309.16609 (2023) 6
[5] Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., Zhou, J.: Qwen-vl: A versatile visionlanguage model for understanding, localization, text reading, and beyond. arXiv preprint arXiv:2308.12966
(2023) 1, 4, 9, 10
[6] Blecher, L., Cucurull, G., Scialom, T., Stojnic, R.: Nougat: Neural optical understanding for academic
documents. arXiv preprint arXiv:2308.13418 (2023) 4, 6, 8, 9
[7] Calvo-Zaragoza, J., Jr, J.H., Pacha, A.: Understanding optical music recognition. ACM Computing Surveys
(CSUR) 53(4), 1–35 (2020) 7
[8] Chen, J., Kong, L., Wei, H., Liu, C., Ge, Z., Zhao, L., Sun, J., Han, C., Zhang, X.: Onechart: Purify the
chart structural extraction via one auxiliary token. arXiv preprint arXiv:2404.09987 (2024) 7, 10
[9] Chen, Z., Wang, W., Tian, H., Ye, S., Gao, Z., Cui, E., Tong, W., Hu, K., Luo, J., Ma, Z., et al.: How far are
we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint
arXiv:2404.16821 (2024) 1, 3, 4, 8, 9
[10] Du, Y., Li, C., Guo, R., Cui, C., Liu, W., Zhou, J., Lu, B., Yang, Y., Liu, Q., Hu, X., et al.: Pp-ocrv2: Bag
of tricks for ultra lightweight ocr system. arXiv preprint arXiv:2109.03144 (2021) 1, 4, 5
[11] Graves, A., Fernández, S., Gomez, F., Schmidhuber, J.: Connectionist temporal classification: Labelling
unsegmented sequence data with recurrent neural networks. In: International Conference on Machine
Learning (ICML) (2006) 4
[12] Gu, J., Meng, X., Lu, G., Hou, L., Minzhe, N., Liang, X., Yao, L., Huang, R., Zhang, W., Jiang, X., et al.:
Wukong: A 100 million large-scale chinese cross-modal pre-training benchmark. Advances in Neural
Information Processing Systems 35, 26418–26431 (2022) 5
[13] Hu, A., Xu, H., Ye, J., Yan, M., Zhang, L., Zhang, B., Li, C., Zhang, J., Jin, Q., Huang, F., et al.:
mplug-docowl 1.5: Unified structure learning for ocr-free document understanding. arXiv preprint
arXiv:2403.12895 (2024) 9, 10
[14] LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition.
Proceedings of the IEEE 86(11), 2278–2324 (1998) 4
[15] Li, J., Li, D., Savarese, S., Hoi, S.: Blip-2: Bootstrapping language-image pre-training with frozen image
encoders and large language models. arXiv preprint arXiv:2301.12597 (2023) 3
[16] Li, M., Lv, T., Chen, J., Cui, L., Lu, Y., Florencio, D., Zhang, C., Li, Z., Wei, F.: Trocr: Transformerbased optical character recognition with pre-trained models. In: Proceedings of the AAAI Conference on
Artificial Intelligence. vol. 37, pp. 13094–13102 (2023) 4
[17] Li, Y., Mao, H., Girshick, R., He, K.: Exploring plain vision transformer backbones for object detection.
In: European conference on computer vision. pp. 280–296. Springer (2022) 5
[18] Liao, M., Shi, B., Bai, X., Wang, C., Lu, T., Mei, T.: Textboxes: A fast text detector with a single deep
neural network. In: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (2017) 4
[19] Liao, M., Zou, Z., Wan, Z., Yao, C., Bai, X.: Real-time scene text detection with differentiable binarization
and adaptive scale fusion. IEEE transactions on pattern analysis and machine intelligence 45(1), 919–931
(2022) 4
[20] Liu, C., Wei, H., Chen, J., Kong, L., Ge, Z., Zhu, Z., Zhao, L., Sun, J., Han, C., Zhang, X.: Focus anywhere
for fine-grained multi-page document understanding. arXiv preprint arXiv:2405.14295 (2024) 4, 8, 9, 10
[21] Liu, C., Wei, H., Yang, J., Liu, J., Li, W., Guo, Y., Fang, L.: Gigahumandet: Exploring full-body detection
on gigapixel-level images. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 38, pp.
10092–10100 (2024) 14
[22] Liu, F., Eisenschlos, J.M., Piccinno, F., Krichene, S., Pang, C., Lee, K., Joshi, M., Chen, W., Collier, N.,
Altun, Y.: Deplot: One-shot visual language reasoning by plot-to-table translation. In: Findings of the 61st
Annual Meeting of the Association for Computational Linguistics (2023), https://arxiv.org/abs/
2212.10505 10
[23] Liu, H., Li, C., Li, Y., Li, B., Zhang, Y., Shen, S., Lee, Y.J.: Llava-next: Improved reasoning, ocr, and
world knowledge (January 2024), https://llava-vl.github.io/blog/2024-01-30-llava-next/
3, 9
[24] Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning (2023) 1, 3, 4
[25] Liu, X., Zhang, R., Zhou, Y., Jiang, Q., Song, Q., Li, N., Zhou, K., Wang, L., Wang, D., Liao, M., et al.:
Icdar 2019 robust reading challenge on reading chinese text on signboard. arXiv preprint arXiv:1912.09641
(2019) 8
[26] Liu, Y., Jin, L., Zhang, S., Luo, C., Zhang, S.: Curved scene text detection via transverse and longitudinal
sequence connection. Pattern Recognition 90, 337–345 (2019) 4
[27] Liu, Y., Yang, B., Liu, Q., Li, Z., Ma, Z., Zhang, S., Bai, X.: Textmonkey: An ocr-free large multimodal
model for understanding document. arXiv preprint arXiv:2403.04473 (2024) 1, 3, 4, 9
[28] Loshchilov, I., Hutter, F.: Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint
arXiv:1608.03983 (2016) 8
[29] Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. In: ICLR (2019) 8
[30] Lyu, P., Yao, C., Wu, W., Yan, S., Bai, X.: Multi-oriented scene text detection via corner localization and
region segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition.
pp. 7553–7563 (2018) 4
[31] Masry, A., Kavehzadeh, P., Do, X.L., Hoque, E., Joty, S.: Unichart: A universal vision-language pretrained
model for chart comprehension and reasoning. arXiv preprint arXiv:2305.14761 (2023) 10
[32] Masry, A., Long, D.X., Tan, J.Q., Joty, S., Hoque, E.: Chartqa: A benchmark for question answering about
charts with visual and logical reasoning. arXiv preprint arXiv:2203.10244 (2022) 10
[33] Mathew, M., Karatzas, D., Jawahar, C.: Docvqa: A dataset for vqa on document images. In: Proceedings
of the IEEE/CVF winter conference on applications of computer vision. pp. 2200–2209 (2021) 3
[34] Mertz, A., Slough, W.: Graphics with tikz. The PracTEX Journal 1, 1–22 (2007) 7
[35] Methani, N., Ganguly, P., Khapra, M.M., Kumar, P.: Plotqa: Reasoning over scientific plots. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. pp. 1527–1536 (2020) 10
[36] OpenAI: Gpt-4 technical report (2023) 1, 10
[37] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P.,
Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International
conference on machine learning. pp. 8748–8763. PMLR (2021) 1, 4
[38] Ríos-Vila, A., Calvo-Zaragoza, J., Paquet, T.: Sheet music transformer: End-to-end optical music recognition beyond monophonic transcription. arXiv preprint arXiv:2402.07596 (2024) 7
[39] Ríos-Vila, A., Rizo, D., Iñesta, J.M., Calvo-Zaragoza, J.: End-to-end optical music recognition for
pianoform sheet music. International Journal on Document Analysis and Recognition (IJDAR) 26(3),
347–362 (2023) 7
[40] Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta,
A., Mullis, C., Wortsman, M., et al.: Laion-5b: An open large-scale dataset for training next generation
image-text models. Advances in Neural Information Processing Systems 35, 25278–25294 (2022) 5
[41] Shi, B., Yao, C., Liao, M., Yang, M., Xu, P., Cui, L., Belongie, S., Lu, S., Bai, X.: Icdar2017 competition
on reading chinese text in the wild (rctw-17). In: 2017 14th iapr international conference on document
analysis and recognition (ICDAR). vol. 1, pp. 1429–1434. IEEE (2017) 8
[42] Singh, A., Natarajan, V., Shah, M., Jiang, Y., Chen, X., Batra, D., Parikh, D., Rohrbach, M.: Towards
vqa models that can read. In: Proceedings of the IEEE/CVF conference on computer vision and pattern
recognition. pp. 8317–8326 (2019) 3
[43] Tian, Z., Huang, W., He, T., He, P., Qiao, Y.: Detecting text in natural image with connectionist text
proposal network. In: European conference on computer vision. pp. 56–72. Springer (2016) 4
[44] Veit, A., Matera, T., Neumann, L., Matas, J., Belongie, S.: Coco-text: Dataset and benchmark for text
detection and recognition in natural images. arXiv preprint arXiv:1601.07140 (2016) 8
[45] Wang, Y., Xie, H., Zha, Z.J., Xing, M., Fu, Z., Zhang, Y.: Contournet: Taking a further step toward accurate
arbitrary-shaped scene text detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition. pp. 11753–11762 (2020) 4
[46] Wei, H., Kong, L., Chen, J., Zhao, L., Ge, Z., Yang, J., Sun, J., Han, C., Zhang, X.: Vary: Scaling up the
vision vocabulary for large vision-language models. arXiv preprint arXiv:2312.06109 (2023) 1, 4, 5, 6, 9
[47] Wei, H., Kong, L., Chen, J., Zhao, L., Ge, Z., Yu, E., Sun, J., Han, C., Zhang, X.: Small language model
meets with reinforced vision vocabulary. arXiv preprint arXiv:2401.12503 (2024) 6, 9
[48] Xia, R., Zhang, B., Ye, H., Yan, X., Liu, Q., Zhou, H., Chen, Z., Dou, M., Shi, B., Yan, J., Qiao, Y.: Chartx
& chartvlm: A versatile benchmark and foundation model for complicated chart reasoning (2024) 10
[49] Ye, J., Hu, A., Xu, H., Ye, Q., Yan, M., Dan, Y., Zhao, C., Xu, G., Li, C., Tian, J., et al.: mplugdocowl: Modularized multimodal large language model for document understanding. arXiv preprint
arXiv:2307.02499 (2023) 1, 3, 4
[50] Ye, J., Hu, A., Xu, H., Ye, Q., Yan, M., Xu, G., Li, C., Tian, J., Qian, Q., Zhang, J., et al.: Ureader:
Universal ocr-free visually-situated language understanding with multimodal large language model. arXiv
preprint arXiv:2310.05126 (2023) 3, 4, 9
[51] Zhang, C., Peng, G., Tao, Y., Fu, F., Jiang, W., Almpanidis, G., Chen, K.: Shopsign: A diverse scene text
dataset of chinese shop signs in street views. arXiv preprint arXiv:1903.10412 (2019) 8
[52] Zhang, S.X., Zhu, X., Yang, C., Wang, H., Yin, X.C.: Adaptive boundary proposal network for arbitrary
shape text detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp.
1305–1314 (2021) 4
[53] Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X.V.,
et al.: Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068 (2022) 5
[54] Zhong, X., Tang, J., Yepes, A.J.: Publaynet: largest dataset ever for document layout analysis. In: 2019
International conference on document analysis and recognition (ICDAR). pp. 1015–1022. IEEE (2019) 4
[55] Zhou, X., Yao, C., Wen, H., Wang, Y., Zhou, S., He, W., Liang, J.: East: An efficient and accurate scene
text detector. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV) (2017) 4
