Advertisement

Show, Attend and Read:A Simple and Strong Baseline for Irregular Text Recognition

阅读量:

Show-Attend-Read: A Simple and Effective Baseline for Irregular Text Recognition

引言

在该论文中,我们开发了一个易于实现的不规则场景文本识别基准网络。该系统基于现有的神经网络组件,并仅依赖于单词级别的标注信息。其架构包含一个深度为31层的ResNet模型、一个基于长短期记忆(LSTM)的编解码器结构以及一个二维注意力机制组件。尽管该方法较为简洁,但它展现出很强的鲁棒性特征,在进行不规则文本识别基准测试和常规文本数据集上的表现均达到当前最优水平。

模型

整个模型由两个主要部分组成:用于特征提取的ResNet CNN和基于数据量的编解码器模型。它接受一个图像作为输入,并输出一个不同长度的字符序列.

ResNet CNN

基于He等人的31层ResNet架构(如表1所示),我们在构建网络时采用了分段策略:在每一个残差块中均采用分步设计的方式进行参数量优化以减少计算开销。具体而言,在每个残差块中若输入与输出的空间维度不一致,则通过1×1卷积操作来实现跳跃连接;若输入与输出的空间维度一致,则直接采用恒等变换以避免额外计算开销。所有卷积核均采用3×3尺寸设计以平衡模型参数规模与计算效率之间的关系。值得注意的是,在本网络结构中我们仅设置了两个标准的2×2最大池化层(SP-2),其余部分则采用了特殊的水平方向拉伸池化(即水平方向拉伸的最大池化操作)。这种特殊的水平方向拉伸池化设计不仅能够有效降低计算复杂度还能较好地保留图像的高度信息并有利于识别较细长形状特征(例如字母' i '、' l '等)。所提取的二维特征图将被用于以下两个目的:一是提取图像的整体特征;二是作为二维关注网络的上下文信息输入到主网络架构中进行后续处理

在这里插入图片描述

基于二维注意的编解码器

序列到序列模型已被广泛应用至机器翻译、语音识别及文本识别领域(Sutskever et al., 2014; Chorowski et al., 2015; Cheng et al., 2017)。本研究提出了一种基于二维注意力机制的编解码器网络架构用于不规则文本识别任务中,在保留原始图像信息的前提下该注意力机制可适应任意形状、排列方式及朝向的文字分布情况。
编码器 部署于图3所示架构中编码器由两层LSTM构成每一层的状态维度均为512维在时序片段处理过程中每一时刻输入一个二维特征映射随后沿高度方向执行最大池化操作更新当前时刻的状态向量ht\mathbf{h}{t}经过W次时序片段处理后将第二层LSTM输出的状态向量hw\mathbf{h}{w}作为输入图像经过统一采样后的全局特征表示并完成后续解码过程。

在这里插入图片描述

如图3所示:本文采用了LSTM编码器来构建其架构。其中v:,i代表二维特征图v中的第i个列向量。对于每一个时间步长t,在垂直方向上聚合对应的列特征后输入到LSTM单元中进行处理。

Decoder 如图4所示, Decoder是一种基于LSTM的模型,包含两层,每层隐藏层大小均为512个单元。值得注意的是,编码器与解码器之间没有共享参数。时间步长设为0时,将全局特征hw\mathbf{h}_{w}作为输入传递给Decoder中的第一个LSTM单元。随后,在第一步中将"START"标记作为输入信号传递给该单元。从第二步开始,将上一步骤的输出作为当前输入传递至下一个LSTM单元,直至接收"END"标记为止。值得注意的是,LSTM的所有输入都会经过一个加性门控机制进行处理:首先提供一个热向量,随后应用一个线性变换Ψ()对其进行处理。在训练过程中,LSTM接收的真实标记字符序列会替代上述人工输入序列。输出端通过以下转换函数计算出最终结果:
yt=φ(ht′,gt)=softmax⁡(Wo[ht′;gt])

其中ht′\mathbf{h}_{t}{\prime}表示当前隐藏状态(gt\mathbf{g}_{t})的作用域范围。映射矩阵Wo\mathbf{W}_{o}\in\mathbb{R}{d_o\times d_i}是一个线性变换,它将输入特征向量映射至94个类别构成的输出空间中,具体包括10位数字(0-9)、52种区分大小写的字母(A-Z,a-z)、31种标点符号以及一个特殊标记"END"来终止序列处理过程。

在这里插入图片描述

现有二维注意模块基于Xu et al. (2015)的研究成果,在处理每个位置时并未考虑其二维空间关联性。为了整合邻域信息并更好地捕捉空间关系, 我们设计了一种新型的空间感知机制:

其中vij\mathbf{v}{i j}为在二维特征向量V中在(i,j)位置的local feature vector中,Nij\mathcal{N}{i j}是这个位置周围的8个邻居;ht′\mathbf{h}{t}^{\prime}为解码器LSTMs在时间步长t处的隐藏状态,被用于指导信号;Wv\mathbf{W}{v}、Wh\mathbf{W}{h}和W~S\tilde{\mathbf{W}}{\mathrm{S}}是需要学习的线性变换;αij\alpha_{i j}位置(i,j)的注意力权重;gt\mathbf{g}{t}为局部特征的加权和,作为 glimpse。与传统的注意机制相比,我们在计算vij\mathbf{v}{i j}的权重时加入了一个部分∑p,q∈NijW~p−i,q−j⋅vpq\sum_{p, q \in \mathcal{N}{i j}} \tilde{\mathbf{W}}{p-i, q-j} \cdot \mathbf{v}_{p q}。从图5可以看出(2)的计算可以通过一系列卷积运算来完成。因此很容易实现。

在这里插入图片描述

该方法所设计的二维注意力机制可通过卷积运算轻松实现;其中包含两个主要组件:一个是权重矩阵\mathbf{W}_v与目标特征图\mathbf{v}_{ij}的乘积项W_{vv}^{ij};另一个是通过邻域加权求和得到的关注权重\sum_{p,q\in\mathcal{N}_{ij}}\tilde{\mathbf{W}}_{p-i,q-j}\cdot\mathbf{v}_{pq};两者之和即为最终输出特征图\mathbf{o}_{ij}的重要组成部分,并明确了中间结果的具体尺寸。在实际操作中,默认情况下该过程会将输入向量[1,1,d]通过重复平铺的方式扩展为H×W大小的空间

全部评论 (0)

还没有任何评论哟~