《Focusing Attention:Towards Accurate Text Recognition in Natural Images》阅读
论文链接:https://arxiv.org/abs/1709.02054
摘要
1、简介
场景文本识别在计算机视觉领域吸引了很多研究。识别场景文本对于理解场景是至关重要的。尽管OCR相关的研究已经有数十年,但识别自然场景中的文本仍是一项具有挑战性的任务。目前最先进技术采用注意力机制来识别字符,并且实际性能获得提高[18][25]。
一般情况下,基于attention的文本识别是基于编码-解码框架设计的。在编码阶段,一张图通过CNN/LSTM[25]转换为特征向量序列,每个特征向量代表输入图像的一个区域。在本文中,我们称正阳的区域为attention regions。在解码阶段,注意力网络(AN)首先通过参考目标字符的历史和用于生成合成向量(也可以成为glimpse 向量)的编码特征向量计算对齐因子[3],因此获得attention区域和对应的ground-truth-labels之间的校正,也就是使用这种方式使二者对齐。然后,用RNN根据glimpse向量和目标字符的历史来生成目标字符。
动机。我们都知道实际场景文本识别任务,许多图像是复杂的(如扭曲或重叠字符,不同字符、不同尺寸、不同颜色的字符,以及复杂的背景)或低质量的(由于光照变化、模糊、污损和噪音等)。图1显示了一些复杂/低质量图像的例子。仔细分析大量真实数据基于attention模型的中间和最终结果后,我们发现,性能不好的一个主要原因是由于attention模型估计的对齐很容易因为复杂或低质量图而受到损坏。换言之,attention模型不能准确地将每一个特征向量和输入图像相应的目标区域关联起来。我们称这种现象为 注意力漂移。也就是An的注意区域在某种程度上偏离了图像中目标字符的合适区域。这促使我们开发开发一种机制,调整 AN 的注意力,使之集中在输入图像中目标字符的正确位置。
图2说明了在AAN模型中注意力漂移现象。输入左边的图像后,我们期望An模型输出字符串“83KM”,但是实际上它返回“831K”。注意,这不是一个虚构案例,而是从我们实验中选择的真实例子。实际中,有很多这样的案例。明显的,最后两个字符“K”和“M”识别不正确。这是如何发生的?通过计算在图像中这4个字符的attention区域,我们可以获得他们的注意力中心,即右下角原始图像中的黄色‘+’。我们可以看到‘8’和‘3’的注意力中心正好在他们上边,而第三个注意力中心在‘K’的左边半部分,第四个注意力中心是靠近‘K’的右边半部分。因为‘K’的左半边看起来像‘1’,AN模型输出一个‘1’。第四个注意力区域覆盖了‘K’的大部分,AN模型返回‘K’。
我们的工作。为了解决上边的问题,在本文中,我们提出一个新的方法称为FAN来准确识别自然图像中的文本。图2(b)显示了FAN方法的结构。FAN由两个主要的子网络构成:一个AN来识别目标字符和现有方法一样;一个聚焦网络FN,首先评估AN的注意利于去是否和图像中目标字符正确的区域对齐,然后自动调整AN的注意力中心。在图2(b)中,使用FN模型,最后两个字符的注意力区域得到调整,因此FAN输出正确的文本字符串“83KM”。
论文的贡献如下:
1)我们提出了注意力漂移的概念,这解释了现有attention在复杂和低质量的自然图像上表现的较差性能。
2)我们发明了一种新的方法称为FAN来解决注意力漂移问题,这在现有的大多数方法中都有AN结果之外,还引入了完全新的结构FN,该网络使AN偏离的注意力重新聚焦在目标区域上。
3)我们采用了强大的基于ResNet [5]的CNN来丰富场景文本图像的深度表达。
4)我们在多个基准上进行了大量实验,说明了我们的方法的性能优于现有方法。
12
28
25
17
如图2所示,FAN系统包含两大核心模块,即AN与FN.在AN模块中,系统负责生成目标标签与特征之间的对齐因子.每个对齐因子均对应于输入图像中的特定注意力区域.当出现定位偏差或未能聚焦注意力区域时,将导致识别效果不佳.FN模块则首先针对每个目标标签确定其对应的注意力位置,随后利用相应的glimpse向量来进行细致的位置预测.值得注意的是,FN模块会根据AN提供的glimpse信息在输入图像上产生密集的关注点分布,同时AN模块也会根据FN反馈更新相应的glimpse向量.基于attention机制的设计理念下采用的是一个RNN模型.在时间步t时,解码器会输出yt.
St是RNN在t时刻隐藏层的状态,计算如下
Gt是序列特征向量(h1,…hT)的加权和
由注意力机制决定的权重向量也被称为对齐因子。通常会将注意力机制应用于各个输入单元以计算出其对应的权重值,并将这些权重值进行归一化处理。
上边, 为训练参数。
28
28
28
9
在场景文本识别领域中,AN模型存在两个显著的局限性:首先,在这种情况下(注释:原文"1)"应为"第一点"),该模型对复杂低质量场景数据表现出高度敏感性(注释:将"很同意"改为"表现出高度敏感性"),导致定位偏差(注释:"产生不准确的对齐因子"改为更简洁的表达)。这种偏差源于其glimpse向量整合机制缺乏针对性约束(注释:"由于模型在glimpse向量的整合上没有对齐约束"改为更专业的表达)。这种缺陷造成了注意力焦点与目标标签区域之间的错配(注释:"这可能导致注意力区域和标签区域的错误匹配"简化并加强表达)。这就是所谓的注意力偏移问题(注释:"这就是上边所说的..."改为更简洁的说法)。其次,在这种规模的数据集下(注释:"它是很难训练一个这样的模型在巨大的场景文本数据"改为更流畅的说法),难以从海量复杂场景文本数据中训练出高效的模型(注释:"难以训练一个这样的模型..."扩展并加强表达)。本文中,我们主要目的是解决注意力漂移问题(注释:"本文中...解决...问题."改为更简洁的说法)。为此,我们尝试通过引入聚焦网络将AN的注意力仅约束在每个目标字符上(注释:"我们尝试通过引入聚焦网络..."直接陈述事实),这将在下文中详细阐述。
3.2 FN 在注意力机制中,每个特征向量代表输入图像的一个特定区域,并可通过卷积策略来定位目标字符。然而,在复杂或低质量图像场景下,注意力区域的定位往往不够精确。为了应对注意力位置漂移的问题,在本节中我们提出了聚焦网络机制(如图3所示),该机制通过设计有效的聚焦方式来解决这一问题。具体而言:1)首先计算每个预测标签对应的注意力中心;2)随后生成在这些关注点周围可能出现的概率分布作为新的焦点位置集合;3)将这些焦点位置集合映射回上一层的空间位置坐标以获得最终的关注点分布图
在第t步中,我们利用递归的方式计算公式(7),以求得hj在输入图像中的感受域,并将感受域的核心位置定义为attention机制的关注焦点
其中j代表hj的索引编号;而location则用于计算感受域中心点对应的函数值。由此可知,在输入图像的空间位置上进行注意力机制的应用时,则有yt对应地被计算出来。
在关注的目标区域内集中注意力:当计算出目标yt的关注点时,我们将其特征图分割成一个个小块。
用裁剪的特征图,我们计算注意力区域的能量分布如下:
3.3 FAN训练
3.4 解码
基于注意力机制的设计,在隐式学习的过程中,通过概率统计模型生成字符序列。在无限制场景下的文本识别中,默认优先选择出现概率最高的字符。对于受约束条件下的文本识别任务,在不同规模的词典库中进行分析时,我们计算每个单词相对于各个词典库的条件概率。然后将具有最高条件概率的一个字符作为最终输出结果。
4、性能评估
我们在多个广泛认可的标准测试集上展开了系统性实验研究来验证提出的FAN方法。通过系统比较分析,对FAN与现有18种先进算法进行了全面对比,并采用基于ResNet编码器构建的AN模型作为参考基准。
