Advertisement

DiT: Self-supervised Pre-training for Document Image Transformer论文阅读笔记

阅读量:

DiT(DiffiT),一种专门针对通用文档 AI 任务设计的自监督预训练模型,在处理文档图像时采用了 Transformer 结构。与现有方法不同的是,并不需要依赖人工标注的数据即可运行。
其创新之处在于:

  1. 其本身基于自然场景图片训练得到的DALL-E tokenizer无法直接应用于文本处理,在经过优化后才能更好地服务于文档图像的任务。
  2. 在这一过程中特别设计了MIM预训练目标使其能够根据上下文预测被[MASK]掉的部分图像块(注意是图像块而非像素)。

(1)预训练

与自然语言中的Token一样,图像是通过图像tokenizer获取的一系列离散Token来表示的。借鉴了BEiT模型思想的基础上,本文采用了与文档图像预训练类似的策略进行处理。首先对输入的文本图像进行调整(缩放)至224×224像素尺寸,并将其划分为多个16×16像素大小的patchs作为Document Image Transformer(DiT编码器)的输入。

相较于DALL-E中视觉Token源自于离散VAE的BEiT模型而言,该文提出了一种基于大规模文档图像重构离散VAE (dVAE)模型的方法,并使其生成的视觉Token更加具有与文档AI任务的相关性。BEiT则采用了来自DALLE的离散变分自动编码器(dVAE)作为其图像标记机制,在包含400万张图片的大规模数据集上进行训练。然而由于自然图像与文档图像之间存在领域不匹配的问题,在这种情况下,DALL-E tokenizer并不适合直接用于处理文档图像的任务。因此为了提升在文档图像领域的表现效果,该研究团队选择了一个包含42,000万个高质量文档图像的数据集IIT-CDIP来进行dVAE模型的重构。

该研究旨在通过系统地利用图像patchs数据集来实现DiT模型的有效预训练。在编码器中引入一种特殊的遮蔽机制[MASK]以随机屏蔽输入序列中的某些位置,并在此过程中加入位置嵌入信息辅助后续处理步骤。随后将此编码结果与多个Transformer块依次交互以完成特征提取过程。研究开发的模型架构旨在根据掩膜位置推断对应的视觉标记索引,并在此过程中关注特定区域所对应的离散视觉标记特征而非直接复现实例中的原始像素信息。

(2)微调

该文在四个文档 AI 基准上微调预训练模型,并涉及 RVL-CDIP 数据集(文档图像分类)、PubLayNet 数据集(文档布局分析)、ICDAR 2019 cTDaR 数据集(表检测)以及 FUNSD 数据集(文本检测)。这些基准数据则可被归类为图像分类和目标检测两大任务。

(3)微调结果

在文档图像分类数据集上的对比结果:

文档布局分析上的结果:

这里我与LayoutLMV3的实验结果作了对比如下:

在表格检测上的准确率:

文本检测准确率:

全部评论 (0)

还没有任何评论哟~