Advertisement

《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读

阅读量:

参考博文:
CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么?

文章目录

  • make decision

  • step1:读摘要

  • step2:读Introduction

  • step3:读 Conclusion

  • step4:读 Related works

    • 2.1 基于单字符的文本行识别方法
    • 2.2 基于整行文本的文本行识别方法
  • step5:The multi‑scale attention CRNN

    • 3.1 不对称卷积
    • 特征重用网络
    • 3.3 识别组件
      • 3.3.1 带有注意力的双向LSTM
      • 3.3.2 CTClayer
  • step6:实验

    • 4.1数据集和评价指标

    • 4.2 实验结果与消融分析

      • 4.2.1 三个关键参数的影响
      • 4.2.2 自己增加的三个模块的效果
    • 4.3 比较评价

      • 4.3.1 在CTLD上进行的对比评估
      • 4.3.2 MTWI实验的比较评价
  • step7:总结

make decision

  • 论文名称:《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》
    MA-CRNN:一种用于自然场景中中文文本行识别的多尺度注意力CRNN

  • 作者:Guofeng Tong · Yong Li· Huashuai Gao · Huairong Chen · Hao Wang · Xiang Yang1

  • 机构:德国Springer Verlag股份有限公司

  • 年份:2020

  • 是否精读:否,泛读

  • 做出决定日期:2021-9-7

step1:读摘要

中文文本行识别方法作为光学字符识别的重要组成部分,在许多具体任务中得到了广泛的应用。然而,仍然存在一些潜在的挑战:
(1)缺乏开放的中文文本识别数据集
(2) 汉字的特点所带来的挑战。类型多样,结构复杂,规模多样
(3) 文本图像在不同场景中带来的困难,如。模糊、照明和失真。
为了应对这些挑战,我们提出了一种基于卷积递归神经网络(CRNNs)的端到端识别方法,即。多尺度注意CRNN,在CRNN的基础上增加了三个组成部分:非对称卷积、特征重用网络和注意机制。该模型主要针对包括汉字在内的场景文本识别。然后在两个中文文本识别数据集上对模型进行训练和测试。开放数据集MTWI和我们构建的大规模中文文本行数据集收集自不同场景。实验结果表明,该方法比其他方法具有更好的性能。

step2:读Introduction

文本在我们的日常生活中无处不在,可以在文档、图片、视频和其他物体(如汽车或交通标志)上找到,在理解其内容方面起着重要作用。因此,对文本识别算法的研究是一项必不可少的工作。例如,通过分析交通标志上的文字,文字识别可以帮助智能交通系统(ITS)了解车辆位置和前方路况。文本识别还可以通过分析图像中的商店标识帮助人们了解更多的道路场景信息。此外,该方法还可以用于自动分析图像中的文本报告,减少了人工操作,提高了效率。[1]中的作者应用文本识别技术将阅读材料中的图像转换为文本,并进一步转换为视力障碍者的声音。此外,文本识别技术在机器人技术、虚拟现实、车牌识别、工业自动化和人机交互等领域也发挥着同样重要的作用。对于文本行识别,传统方法[2–4]通常逐个提取字符特征,然后通过机器学习算法对这些字符进行分类。G随机森林[4]或支持向量机(SVM)[5],以获得最终的识别结果。最近的算法[6–8]大多采用基于深度学习的方法来识别整个文本行,并且这些方法中的大多数只在一种语言上进行测试。但是,中文文本识别任务可能有多种语言。此外,尽管传统光学字符识别(OCR)的问题由于背景和文本之间的显著差异而能够识别打印文档文本,但由于照明、拍摄角度、多样的复杂背景等原因,在其他场景图像中检测和识别文本仍然具有挑战性,由于以下因素,中文文本行识别更具挑战性,示例如图1所示。
(1) 中国有数千个汉字,包括3500多个常用汉字。此外,许多汉字都有相似的外观,例如。 "土” 及"士,” “王 及"玉. ”
(2) 在中文文本行中,可能有几种类型的字符,例如汉字、英文字母、数字和标点符号。这些字符有不同的形状和大小
(3) 在文本识别的一些应用场景中,文本图像可能会出现失真、模糊、光照,包括字符不完整和字体多样等问题。艺术字体
(4) 目前缺乏公开的包含汉字的文本识别数据集

显然,仅仅依靠卷积神经网络(CNN)最后一层的特征映射不足以解决上述挑战,就像CRNN模型[7]。此外,多尺度CNN已被应用于许多计算机视觉任务中,例如。目标检测[9,10]和交通标志识别[11],并获得比单尺度方法更好的性能。因此,为了应对上述挑战,我们提出了一种多尺度注意CRNN模型,该模型加入了非对称卷积、特征重用网络和注意机制[12],即MA-CRNN。MACRNN首先提取文本图像的多尺度特征,然后利用双向LSTM和注意机制[12],然后是连接主义时间分类(CTC)[13]层,将特征序列转换为最终识别结果。MA-CRNN的具体细节见第节。3.

总之,本文的主要贡献如下:

  1. 我们构建了一个大规模的中文文本行识别数据集,即。中文文本行数据集(CTLD),包含500000幅图像。CTLD包含文本行图像,包括具有不同类型、大小、形状和字体的字符以及各种具有挑战性的情况(例如。失真、模糊和照明),这可以更好地评估我们提出的方法的性能。CTLD的所有图像都来自不同的自然场景,如广告牌、海报、商业广告和杂志
  2. 我们提出了一个文本行识别模型,即。基于CRNN[7]的MACRNN,其目标是包括汉字在内的场景文本识别。MA-CRNN增加了非对称卷积和特征重用网络,可以提取更丰富的语义信息,更好地处理上述挑战性条件
  3. 我们在MA-CRNN中加入了注意机制,使模型充分融合了字符之间的上下文信息,从而更好地预测长文本。

step3:读 Conclusion

本文提出了一种端到端的文本行识别算法。MA-CRNN,针对基于CRNN的复杂中文文本行。该方法解决了由于细节特征信息容易丢失而导致较小或相似字符被错误识别的问题。特别是,非对称卷积和特征重用网络可以分别增强水平文本区域的特征提取能力和图像中的细节特征信息。此外,在负责序列预测的Bi LSTM中加入注意机制,使得字符之间的上下文信息增强了对长文本的识别能力。最后,我们构建了一个从不同场景采集的中文文本行识别数据集。在我们构建的数据集和开放数据集上的实验表明,MA-CRNN在中文文本行识别方面比其他方法有更好的性能。

光学字符识别(OCR)的研究由来已久。OCR通常是一个多步骤的过程,首先是页面分割和文本行检测,然后是文本行识别和语言建模。文本行识别算法作为OCR的重要组成部分,目前得到了广泛的研究。主要的研究方法可以分为两类:基于单个字符的研究方法和基于整行文本的研究方法。

2.1 基于单字符的文本行识别方法

基于单个字符的典型方法首先使用传统算法[2-4]或深度学习方法[14-16]逐个检测字符,然后将它们组合到最终文本中。Yao等人[2]采用图像块聚类算法学习图像中字符的笔划特征,然后利用随机森林算法提取HOG特征识别字符[4]。Belongie等人[3]基于计算机视觉中的目标检测方法,提出了一种新的文本识别系统。他们利用字符之间的空间关系以及相应的字符置信度来给出最可能的识别结果。然而,该算法只适用于水平文本的检测和识别,不适用于倾斜文本。
随着深度学习和CNN的成功应用,一些研究人员开发了基于CNN的方法[14–16],对单词图像的特征表示进行编码。Bissacco等人[14]通过结合无监督和有监督的方法将单词图像分割成不同的潜在字符区域来训练分类器。他们设计了一个PhotoOCR系统,该系统将提取的HOG特征与CNN相结合,对不同区域的候选结果进行评分,然后使用波束搜索算法与N-gram模型相结合,获得可能的字符组合,并使用形状模型和语言模型进行排序,从而获得识别结果。Alsharif等人[15]使用复杂的CNN(包括分割、校正和字符识别),并将其与隐马尔可夫模型(HMM)相结合,以生成最终的识别结果。Jaderberg等人[16]结合了三种分类器模型,然后通过滑动窗口方法扫描输入图像,最后进行进一步分析,以获得基于固定词典的最终结果。

2.2 基于整行文本的文本行识别方法

这些基于文本行的方法也采用了传统算法[17-20]和深度学习方法[6-8,21]。Mishara[17]和Novikova[18]等人使用显示字符分类器进行分类,然后构建一个图形结构,以导出整行文本或单词。Goel等人[19]计算了整个文本行图像的梯度特征映射,然后使用动态最近邻算法识别每个字符。Rodriguez等人[20]采用SVM和Fisher向量[22]建立图像和字符之间的编码关系。
目前,CNN和RNN,特别是长短时记忆递归神经网络(LSTM-RNN),在文本行识别中发挥着越来越重要的作用。Sutskever等人[21]提取HOG特征序列来表示图像,然后使用RNN生成字符序列。Graves等人[6]首次提出了一种新的基于RNN的文本识别方法,其识别结果优于基于两个大型无约束手写数据库的最新HMM系统。在基于深度学习的文本行识别方法中,除了仅使用RNN提取特征外,CNN和RNN的结合可以更有效地提取特征。这些方法分为两类,即。基于连接主义时间分类(CTC)的方法[13]和基于注意的方法[12]。CTC和注意机制都是将图像特征与相应的标签序列对齐的技术。CTC通过计算条件概率P(L | Y)将图像特征与标签序列对齐,其中Y=y1,…,yT表示RNN的每帧预测,L是标签序列。目前,该技术广泛应用于文本识别,其中一种代表性算法是卷积递归神经网络(CRNN)[7]。CRNN作为第一个采用深度学习方法的图像序列模型,由三部分组成:(1)卷积层,负责从图像中提取特征序列(2) 递归层,预测每个特征序列的标签分布(3) 转录层。CTC层,将标签分布转换为最终标签序列。CRNN实现了文本识别任务的端到端训练,与其他传统算法相比,具有更好的性能。在自然语言处理(NLP)中广泛应用的注意机制[12]在文本行识别领域也取得了良好的性能。它用于根据RNN精确对齐目标和标签,并直接生成目标序列̂Y=̂y1,…,̂yT。例如,REVER(具有自动校正功能的鲁棒文本识别器)[8]是第一个在场景文本识别任务中探索此类基于注意的模型的人。它采用了基于卷积递归网络的编码器和具有注意结构的解码器,直接从输入图像中识别序列。同时,设计了空间变换网络(STN)来解决不规则文本的识别问题。此外,最近有许多研究将注意机制应用于场景文本识别任务中。例如,Shi等人[23]采用卷积递归神经网络作为编码器,注意序列到序列模型作为解码器,直接预测字符序列。Luo等人[24]将多目标校正网络与基于注意的序列识别网络相结合,以解决场景文本识别问题,尤其是不规则文本的识别问题。Cong等人[25]对基于注意的场景文本识别编码器-解码器方法进行了比较全面的总结。总之,充分考虑词与词之间相关性的注意机制也成为文本行识别网络的重要组成部分。

上述方法大多集中在英语和数字的识别上。然而,许多文本识别任务可能不仅包括英文和数字,还包括汉字。复杂的汉字结构、多样的汉字类型和不同的字符大小使得包括汉字在内的文本行难以识别。CRNN[7]显然不足以完成仅依赖于最后一个卷积层特征的包含汉字的文本行识别任务。此外,还需要考虑字符之间丰富的上下文信息。因此,我们提出了一种多尺度注意CRNN模型,即MA-CRNN

step5:The multi‑scale attention CRNN

在这一节中,介绍The multi‑scale attention CRNN的结构
在这一部分中,我们将详细介绍多尺度注意CRNN(MACRNN)的网络结构。端到端文本行识别算法采用CNN、RNN和CTC相结合的网络框架[13]。如图2所示,整个识别网络从左到右可分为三个部分:卷积层、循环层和转录层。
整个网络的起点是由非对称卷积层和特征重用网络组成的卷积神经网络层。CNN用于自动提取来自不同卷积层的每个输入图像的特征序列。然后,RNN预测从CNN中提取的特征序列的每一帧。网络的最后一部分是转录层,负责将预测从RNN转换为实际标签。
在这里插入图片描述

  • MA-CRNN的网络结构。整个网络由三部分组成:(1)由非对称卷积层和特征重用网络组成的卷积层负责特征提取(2) 由注意机制和双向LSTM组成的递归层用于将特征序列转换为每帧预测(3) 转录层根据重复层的每帧预测输出最终预测标签

3.1 不对称卷积

与普通图像识别相比,文本识别的任务是识别整个文本行,因此输入的图像通常比高度宽得多。例如,在CTLD中将所有图像的高度缩放到32像素后,平均宽度为210像素。因此,图像的宽度远大于高度。然而,普通卷积的感受野具有相同的宽度和高度,因此可能无法很好地提取文本图像的特征。因此,我们采用了水平非对称卷积运算,这是在inception架构[26]中首次提出的,用于在不降低性能的情况下降低计算成本。这样,网络就可以更适应文本行图像的特点。实验结果(见第节)。4) 结果表明,非对称卷积可以显著提高文本行识别的准确率。本文中的非对称卷积运算如图3所示。如图3所示,我们将1×3和2×3非对称卷积核添加到CNN中进行卷积运算。此操作相当于增加图像中水平文本区域的感受野,使网络增强从水平文本区域提取特征的能力。
在这里插入图片描述

  • 非对称卷积运算。a是1×3卷积运算,b是2×3卷积运算

特征重用网络

尽管CNN中的多重卷积和池运算可以提取更抽象、高维的特征,但随着网络深度的增加,图像细节更容易丢失。对于整个文本行识别,需要输入图像并输出多个预测结果。对于这种单输入和多输出的情况,细节特征尤其重要。例如,如果文本行中有不同大小的字符,当仅使用高级特征时,很容易丢失小字符的特征信息。因此,我们在卷积神经网络中执行特征重用操作。图4说明了功能重用网络的具体结构。整个特征重用网络是在ResNet50[27]的基础上修改的。
在这里插入图片描述

  • 特征重用网络的具体结构。Block1、Block2、Block3和Block4的符号分别代表ResNet50中的conv2_x、conv3_x、conv4_x和conv5_x[27]。下采样是最大池操作。conv1×1表示1×1卷积运算,以便在进行特征融合时匹配维数。象征⊕ 是元素加法运算

从图4可以看出,特征重用网络结合了网络中不同层的特征,而不仅仅是最后一层的特征。我们将Blocki(i=1,2,3,4)的输出特征定义为fi(i=1,2,3,4),并将融合特征定义为mfi(i=2,3,4)。特征重用网络的计算过程可以表示为
在这里插入图片描述
其中,mf_1=f_1,D的功能是下采样操作,比如:max pooling,C的函数表示1×1卷积运算,该运算负责维度匹配和⊕ 代表是元素的加法运算。最终的融合特征输出到以下重复层是mf_4

通过自底向上的级联特征重用模块,可以看出特征重用网络将浅层网络的底层特征和深层网络的高层语义特征结合起来。由于较浅的层可以保留原始图像的更详细信息,因此该特征重用网络可以极大地提高文本行识别的性能,并且对图像中不同字符的比例和失真具有更高的鲁棒性。块体的具体结构如图5所示,是具有相同比例的残余连接。形式上,本文考虑了一个由
在这里插入图片描述
在这里插入图片描述
其中,x_l是残差块l的输入特征,W_l是与残差块l相关的一组权重和偏差,F是残差函数,f表示ReLU的非线性函数。

如图5所示,剩余块通过建立标识映射将先前信息直接传输到后一层;从而有效地缓解了深层神经网络的梯度消失问题。此外,剩余块加深和加宽了网络结构,从而增强了具有一定深度的网络结构表达复杂函数的能力。总之,特征重用网络通过低层特征和高层特征的结合,提高了特征表达能力。因此,它有助于提取更强的表达特征并克服各种挑战性情况(例如。各种比例的字符、图像失真、模糊和照明)。
在这里插入图片描述

  • 图4中块的具体架构。块1–块4的剩余块数分别为3、4、6和3。每个块后,特征图大小减少一半,特征图数量增加一倍

3.3 识别组件

整个识别组件由三部分组成:注意模型[12]、双向LSTM和CTC[13]层。注意力模型可以捕获上下文信息,并充分考虑字符之间的关系以做出更好的预测。双向LSTM可以预测一个结果,针对特征序列x= x1,…,xtx中的每个特征序列席。然后,CTC层将yi转换为一个真正的标签。

3.3.1 带有注意力的双向LSTM

在文本识别中,RNN可以被视为解码模块,对来自CNN的特征序列进行解码并输出最终的预测结果。在研究神经机器翻译(NMT)的译码器模型时,BahdAu等人(28)发现,如果使用固定长度向量编码句子,则会导致严重的过拟合问题,特别是对于长输入序列。这是因为输入序列被编码为固定长度向量表示,不管它有多长,但是,由于输入固定长度向量,解码器在解码过程中将受到限制。然后,提出了注意机制来解决这一问题。我们还将注意机制添加到双向LSTM中。因此,注意机制使得双向LSTM能够接收与当前输出相关的特征序列,并更加关注那些重要的特征序列,以获得更好的识别结果。在本文中,我们采用加权注意机制[12],该机制根据相关性对特征序列进行加权平均,并获得一个上下文向量作为双向LSTM的输入。其结构如图6所示。
在这里插入图片描述

  • 有注意机制的双向LSTM的结构。一个注意力模型,回应了⊕ 在图中,首先取T_x特征序列x_1…x_x(T_x)和隐藏状态s_{i− 1} ,然后返回一个上下文向量c_i,该向量代表所有的x_i的。详细计算过程如下所示

3.3.2 CTClayer

CTC[13]用于将每帧预测从Bi LSTM转换为最终实数标签。这一过程是在每次预测的条件下找到最高概率。我们基于每帧预测Y=y1,…,yTx,使用
在这里插入图片描述
\pi 是通过为每个时间步分配一个标签并连接标签以形成标签序列来构造的,B表示来自\pil的映射关系,它首先删除重复的标签,然后在映射时删除“空白”标签。\pi ∶ B(\pi) = l表示可通过B映射到l的所有可能标签序列。π的概率定义为p(\pi|Y)=\textstyle \prod_{T_x}^{t=1}y^t_a,在这里y^t_a表示概率预测特征\pi 在集合L中(包含任务中的所有标签和“空白”标签,例如 在时间t时,L=6736 在CTLD)。
[13]中提出了关于式(9)的详细计算过程。这里,我们给出了CTC层的直观解释,如图7所示。
在这里插入图片描述

  • CTC计算图。第一行是Bi LSTM的输入序列。第二行表示标签对齐的过程。第三是删除重复的标签。最后是删除“空白”标签后的最终预测结果

step6:实验

在本节中,我们将首先介绍我们构建的数据集,即。中文文本行数据集(CTLD)和开放式文本行识别数据集,即。EMTWI[29]。然后进行了一系列实验以选择合适的参数,并对所提出的模块进行了详细的消融分析,以探索其效果。最后,我们将评估MA-CRNN的性能,并在CTLD和MTWI上与其他最先进的方法进行比较。

4.1数据集和评价指标

英语单词由26个字母组成,而中文文本由成千上万个汉字组成。因此,需要一个更大的数据集来训练包含汉字的文本行识别模型。然而,目前缺乏同时包含中文和英文的公开文本识别数据集。因此,我们构建了一个具有挑战性的中文文本行数据集CTLD(https://pan)。百度。com/s/1t9rh dH8zS o0rWl IvEwx dOA),其中包含6735种类型的字符。数据集共分为500000张训练图像和10000张测试图像。数据集中的典型图像如图1所示。同时,为了将所提出的MA-CRNN与其他算法进行比较,我们还对一个开放的文本行识别数据集,即。EMTWI[29]。MTWI是一个新颖的大规模数据集,包含20000幅图像,主要由中文和英文web文本构建。

我们使用行识别精度作为衡量文本行识别算法性能的指标,定义如下:
在这里插入图片描述
其中M表示正确识别的图像数量,N表示总图像数量。在没有错误识别字符的情况下,可以正确识别文本行图像。例如,如果“文字和思想” 被认为是"文字和−想” 或"又字和思想,” 该图像不被视为正确识别。

4.2 实验结果与消融分析

本文提出的文本行识别网络是在PyTorch平台上实现的。网络培训是在单个NVIDIA GTX 1080Ti图形卡上进行的,该图形卡具有11GB内存和Ubuntu 16.04系统。在中文识别模型中,由于汉字数量较多,需要更多的迭代次数和更长的训练时间。因此,我们将训练迭代次数设置为400000次,学习率为0.0001,总训练时间约为6天。
我们提出的方法的性能受到三个关键参数的影响,即图像的高度、LSTM层的数量和LSTM中隐藏层神经元的数量 。因此,我们研究了MA-CRNN的这些主要参数的影响,并为每个参数设置不同的值以进行对比实验。此外,我们还探讨了自增加模块的作用,即:非对称卷积、特征重用网络和注意机制。

4.2.1 三个关键参数的影响

从表1可以看出,当图像高度为16时,CNN最后一层的高度仅为1;结果,丢失了更多的图像信息,线条识别准确率较低(仅为86.2%)。当图像高度设置为32时,线条识别精度大大提高(提升了7. 7%). 这是因为图像高度的降低会丢失一些细节信息,这对小字符的识别有不利影响。由于图像高度变化到48(或64)后,线条识别精度基本不变,且训练时间较长,因此我们最终将图像高度设置为32。
然后在其他参数不变的情况下,改变LSTM层数。如表2所示,当LSTM层数从1变为2时,直线识别精度明显提高。当从4变为6时,模型性能反而下降。结果表明,由于存在过拟合现象,较深的LSTM可能会对试验结果产生负面影响。因此,考虑到性能和速度,本文选择的LSTM层数为2。
在这里插入图片描述

  • 不同图像高度下的行识别精度,LSTM层数和隐藏层神经元数分别设置为2和256。最佳结果为黑体
    在这里插入图片描述

  • 不同LSTM层的行识别精度,图像的高度和隐藏层神经元的数量分别设置为32和256。最好的结果是粗体

此外,LSTM网络中隐层神经元的数量对模型性能也有一定的影响,如表3所示。当数量从64设置为256时,线条识别准确率提高了3。在进一步增加隐层神经元数量的同时,模型性能并未得到明显改善。因此,我们将隐层神经元的数量设置为256。
在这里插入图片描述

  • LSTM网络中不同隐层数量的神经元的行识别精度,图像高度和LSTM层数分别设置为32和2。最好的结果是粗体

4.2.2 自己增加的三个模块的效果

在第三部分中。我们增加了三个模块,即。非对称卷积、特征重用网络和基于CRNN的注意机制。但这是一个很好的中文文本行识别策略吗?为了进一步强调改进算法MA-CRNN的优点,我们比较了MA-CRNN中不同改进模块的实验结果。从表4总结的结果来看,在原始CRNN中加入不对称卷积后,线条识别精度提高了0.8。可以推断,非对称卷积能够更好地提取图像水平区域的特征信息,更适合于文本行识别。在CRNN中加入特征重用网络和非对称卷积后,文本行的准确度有了很大的提高1. 8%. 这主要是由于在第一节中列出的一些困难情况下提高了识别精度。1,例如各种大小的字符、字体和形状、图像模糊和字体失真。如第节所示。3.2、特征重用网络将不同程度的语义信息结合在一起,充分考虑了上下文信息之间的关系。在CRNN上加入注意机制后,通过特征重用网络和非对称卷积,文本行的准确率提高了0.5。虽然注意机制的效果不如特征重用网络明显,但仍带来一定程度的改善。这是因为CTLD中存在一些长文本图像,注意机制充分考虑了字符之间的关系。综上所述,本文提出的三个模块都在文本行识别任务中发挥着重要作用。非对称卷积和特征重用网络有助于提取丰富的表达性特征,有助于克服长文本、小字符、图像模糊和失真等困难。注意机制在一定程度上解决了特征序列和标签序列之间的对齐问题,特别是对于一些容易混淆的字符。

4.3 比较评价

为了将提出的MA-CRNN与其他最先进的算法进行比较,并证明提出的数据集CTLD的有效性,我们在CTLD和MTWI上进行了实验[29]。

4.3.1 在CTLD上进行的对比评估

根据第4.2节中选择的参数。、首先采用改进的文本行识别算法,即。MA-CRNN对CTLD进行训练和测试,然后进行定性和定量分析。图8显示了测试集中正确识别的示例。从图8可以看出,该算法能够正确识别具有各种字符的文本行图像。即使有一些复杂在图像模糊、倾斜文本线、不同大小或颜色的字符以及复杂背景等情况下,MA-CRNN仍能准确识别图像中的文本并保持良好的鲁棒性。
在这里插入图片描述
为了比较MA-CRNN和原算法CRNN的识别效果,我们分别在CTLD上测试了两种算法。表5列出了一些具有不同识别结果的图像。从定性角度来看,我们的MA-CRNN与CRNN相比具有以下优势:
(1)更好地识别易混淆字符原始算法CRNN由于对细节信息的特征提取能力较弱,无法正确识别易混淆字符。例如,”士” 被错误地认为是“土” 在表5a中,“O”在表5c中被错误识别为“O”,但我们的MACRNN可以正确识别这些字符。
(2)更好地识别手写字体、艺术字体、扭曲文本线和长文本线例如,当采用CRNN算法时,手写字体范” 及"报” 被误认为是"艳” 及"枨” 分别在表5d中,和“铝” 表5e中未识别艺术字体。对于扭曲的文本行和长文本行,CRNN算法也存在误识别和误识别的情况,如表5f,g所示。相比之下,我们改进的方法可以获得更好的性能。
在这里插入图片描述
然后,我们将提出的MA-CRNN与其他文本行识别算法进行了比较。我们对文本识别的代表性算法进行了实验和评估,包括基于CTC的方法(e.g., CRNN [7] and GRCNN [30])和基于注意力的方法(e.g., RARE [8] and ASTER [23])。实验结果如表6所示。与基于CTC的方法相比,i。E与GRCNN相比,MA-CRNN的直线识别准确率分别提高了3.1%和2。我们认为这主要是由于MA-CRNN的两个优点:一是与简单叠加CNN的方式相比,特征重用网络提供了更好的特征表示;另一方面,注意机制从整体角度考虑了特征序列之间的关系,有助于更好地将图像特征序列与标签序列对齐。与基于注意的方法相比, i.e., RARE [8] and ASTER
[23], ,MA-CRNN的精度分别提高了2.7%和0.4%。虽然这两种方法都采用了注意机制,但当采用普通CNN或残差网络时,它们的编码器并没有结合高级和低级特征。从表4可以看出,特征重用的方式在文本识别任务中起着重要的作用。总之,提出的MA-CRNN通过使用联合CTC注意模型,提高了文本行识别的鲁棒性,并取得了良好的性能。此外,非对称卷积和特征重用网络有助于提取更健壮的特征。
MA-CRNN的最终线条识别准确率为93.9%,与CRNN的90.8%相比有显著提高,但仍存在一定的识别误差。为了分析改进算法的缺点,我们在图9中列出了一些无法正确识别的图像。如图9所示,我们的改进算法无法正确识别字体奇怪、字符明显不完整的文本图像,长文本行和背景极其复杂的文本行。例如,”啦” 被认为是“斑” 由于图9第一幅图像中网格背景的干扰,第四幅图像中的最后两个字符由于奇怪的艺术字体而无法识别。然而,与原CRNN算法相比,MA-CRNN的识别结果更接近于实际结果。因此,我们仍然需要设计一个更精细的网络结构,可以提取精细的特征
在这里插入图片描述

4.3.2 MTWI实验的比较评价

在MTWI-2018竞赛中,标准化编辑距离(NED)被用作方法排名的最终指标。在这里,NED仅定义为编辑距离(pred,gt)∕|gt |,其中pred和gt分别表示预测结果和基本事实。我们还在MACRNN上评估NED。为了训练和评估所提出的方法,我们首先根据提供的坐标裁剪MTWI[29]的文本行,并去除没有任何文本的图像。然后我们在MTWI上对模型进行训练和评估,无需任何其他数据集。结果如表7所示。与CRNN相比,我们可以看到MACRNN显著改进了NED度量。与带有VGG的CRNN相比,MA-CRNN改进了0.003。E非对称卷积和特征重用网络,增强了图像细节信息的特征提取能力。此外,MA-CRNN的性能比现有技术REVER[8,13]高出近0.05,表明识别性能明显改善。值得注意的是,我们提出的方法在MTWI-2018竞赛中也优于top算法。该算法以DenseNet为编码器,采用根分析网络(RAN)处理大量的中文文本行识别。总之,我们提出的MA-CRNN结合了基于CTC的方法和基于注意的方法的优点,在文本行识别任务中取得了良好的性能。提取更丰富的特征信息和采用更有效的对齐方法是提高文本识别性能的两个关键因素。
在这里插入图片描述

step7:总结

该篇论文主要是针对包括汉字在内的场景文本识别。
中文文本识别作为OCR的重要组成部分,在许多具体任务中得到了广泛的应用。然而,仍然存在一些潜在的挑战:
(1)缺乏开放的中文文本识别数据集
(2) 汉字的特点所带来的挑战。类型多样,结构复杂,规模多样
(3) 文本图像在不同场景中带来的困难,如模糊、照明和失真。
为了应对这些挑战,作者提出了基于CRNN的端到端识别方法,a multi‑scale attention CRNN,在CRNN的基础上增加了三个组成部分:非对称卷积、特征重用网络和注意力机制。
与普通图像识别相比,文本识别的任务是识别整个文本行,因此输入的图像通常比高度宽得多。普通卷积的感受野具有相同的宽度和高度,因此可能无法很好地提取文本图像的特征。因此采用了水平非对称卷积运算。
尽管CNN中的多重卷积和池运算可以提取更抽象、高维的特征,但随着网络深度的增加,图像细节更容易丢失。对于整个文本行识别,需要输入图像并输出多个预测结果。对于这种单输入和多输出的情况,细节特征尤其重要。因此,在卷积神经网络中执行特征重用操作。
在研究神经机器翻译(NMT)的译码器模型时,BahdAu等人(28)发现,如果使用固定长度向量编码句子,则会导致严重的过拟合问题,特别是对于长输入序列。这是因为输入序列被编码为固定长度向量表示,不管它有多长,但是,由于输入固定长度向量,解码器在解码过程中将受到限制。然后,提出了注意机制来解决这一问题。我们还将注意机制添加到双向LSTM中。因此,注意机制使得双向LSTM能够接收与当前输出相关的特征序列,并更加关注那些重要的特征序列,以获得更好的识别结果。

全部评论 (0)

还没有任何评论哟~