Advertisement

【多模态】paper阅读笔记:Donut

阅读量:
在这里插入图片描述

论文地址: https://arxiv.org/abs/2111.15664v5
项目地址: https://github.com/clovaai/donut
摘要:
理解文档图像(例如发票)是一项核心但具有挑战性的任务,因为它需要阅读文本和全面理解文档等复杂功能。当前的视觉文档理解(VDU)方法将阅读文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于OCR输出的理解任务。尽管这种基于OCR的方法已经显示出有效果的性能,但是它们受限于1)使用OCR的高计算成本;2) OCR模型对语言或文档类型的不灵活;3) OCR错误传播到后续进程。为了解决这些问题,在本文中,我们介绍了一种新的OCR-free的VDU模型Donut,它代表文档理解转换器。作为OCR-free VDU研究的第一步,我们提出了一种具有预训练目标(即交叉熵损失)的简单架构(即Transformer)。Donut在概念上简单而有效。通过广泛的实验和分析,我们展示了一个简单的OCR-free VDU模型Donut,它在各种VDU任务中在速度和准确性方面都达到了最先进的性能。此外,我们提供了一个合成数据生成器SynthDoG图片,帮助模型预训练在各种语言和领域中具有灵活性。

介绍

当前的VDU方法采用两阶段的方式完成任务:首先是对文档图像中的文本内容进行解析;然后是对其全面的理解与分析过程。研究者们通常依赖于基于深度学习技术的应用(如OCR技术),以便实现对文字信息的有效获取,并且特别关注于理解环节的具体建模工作。例如,在下图中所示的传统管道体系(也可称为文档解析流程),主要包含三个核心模块:用于实现'文本检测'功能、'文本识别'功能以及'信息解析'功能

图片

然而依赖于OCR的技术存在一些关键问题。首先,在使用传统的OCR作为预处理步骤时往往会产生高昂的成本。我们可以考虑采用现有的现成OCR引擎来进行这一过程;然而,在生成高质量OCR结果的过程中计算资源的成本仍然很高。此外,在跨语言或多领域适应性方面现有的一些OCR方法表现不足这可能导致系统泛化能力较弱为了克服这一挑战我们通常需要投入巨大的时间和数据资源来训练有效的OCR模型另一个问题是由于OCR错误的存在会导致后续流程出现问题特别是在VDU系统中这种错误可能会引发更大的负面影响因此对于像中文或韩语这样拥有复杂字符集的语言来说仅仅依靠简单的后端校正模块往往无法满足实际需求因为它不仅会增加系统的规模还会提高维护成本

我们突破了传统框架,在无需依赖OCR技术的情况下实现了从原始输入图像到所需输出结果的直接建模。我们开发出一种全新的OCR-free VDU模型来缓解由于依赖OCR技术所带来的挑战。我们的模型以Transformer-only架构为基础,并命名为文档理解转换器(Donut),在视觉处理和语言理解方面均取得了显著成果。我们提出了一种最小基准方案, 包含了一个简洁而高效的架构设计以及相应的预训练方法。尽管该方案较为简单明了, 但实验结果表明该方法能够达到或超越现有先进方案的总体性能水平

图片

针对Donut模型的训练采用预处理与微调策略。
在预处理阶段,Donut通过结合图像信息及其前文内容进行联合学习,以预测后续词汇并掌握阅读技巧。
该模型基于文档图像及其对应的文本标注完成前期培训。
由于预处理目标专注于基础文本理解(即单纯涉及文字内容),因此我们可以利用合成数据集快速实现跨领域/跨语言适应性。
在微调过程中,Donut能够根据下游任务的需求来深入解析完整的文档内容。
通过系统评估不同VDU场景下的多种数据集,我们验证了该模型具备全面的理解能力。
实验结果表明,在速度与准确性两项关键指标上,无需依赖OCR技术的VDU模型均表现出超越现有方法的能力。

方法(Document Understanding Transformer)

Donut是一个自包含的端到端VDU模型,在文档图像的理解与处理领域具有重要应用价值。该模型由视觉编码器和文本解码器两个关键组件构成,并未依赖任何与OCR相关的功能模块。通过使用视觉编码器从输入图像中提取高质量特征特征向量作为基础信息源输入至文本生成机制进行处理并输出结果这一过程实现了对原始图像内容的有效解析与转换目标输出形式则采用了更为规范化的结构化表示形式(如JSON)。由于所有组件均基于Transformer架构设计因此能够实现完整的端到端训练流程而无需额外依赖复杂的计算资源或外部数据支持整个系统运行效率得到了显著提升其工作流程图如下所示

图片

视觉编码模块将输入文档图像划分为一组嵌入向量表示。请注意,在本研究中我们采用了基于CNN或Transformer架构的设计方案作为编码器网络的选择都是可行且有效的策略值得注意的是我们最终选择了基于Swin-Transformer架构的原因是其在处理文本理解任务时展现出卓越的效果在此架构中每个块由基于滑动窗口的多头自注意力机制以及两层MLP模块构成这些组件协同工作实现了对输入图像特征的有效提取与建模随后通过一系列块级联操作将局部特征逐步融合并传递给后续文本解码器模块

基于输入变量{z},文本解码器对给定输入进行编码,并生成一个代表整个序列的one-hot向量序列图片。每个位置i对应于该序列中的第i个token对应的one-hot向量。其中v是从该词汇表中获取的大小参数。为了构建解码器架构,在初始化过程中我们选择使用公开可用的预训练multi-lingual BART模型,并将其权重作为初始值配置

结果
分类

图片

信息抽取

图片

文档可视化问答

图片

进一步展示Donut的优势

在这里插入图片描述

总结

全部评论 (0)

还没有任何评论哟~