Show, Attend and Read:A Simple and Strong Baseline for Irregular Text Recognition

阅读量：

Show-Attend-Read: A Simple and Effective Baseline for Irregular Text Recognition

引言

在该论文中，我们开发了一个易于实现的不规则场景文本识别基准网络。该系统基于现有的神经网络组件，并仅依赖于单词级别的标注信息。其架构包含一个深度为31层的ResNet模型、一个基于长短期记忆（LSTM）的编解码器结构以及一个二维注意力机制组件。尽管该方法较为简洁，但它展现出很强的鲁棒性特征，在进行不规则文本识别基准测试和常规文本数据集上的表现均达到当前最优水平。

模型

整个模型由两个主要部分组成:用于特征提取的ResNet CNN和基于数据量的编解码器模型。它接受一个图像作为输入，并输出一个不同长度的字符序列.

ResNet CNN

基于He等人的31层ResNet架构（如表1所示），我们在构建网络时采用了分段策略：在每一个残差块中均采用分步设计的方式进行参数量优化以减少计算开销。具体而言，在每个残差块中若输入与输出的空间维度不一致，则通过1×1卷积操作来实现跳跃连接；若输入与输出的空间维度一致，则直接采用恒等变换以避免额外计算开销。所有卷积核均采用3×3尺寸设计以平衡模型参数规模与计算效率之间的关系。值得注意的是，在本网络结构中我们仅设置了两个标准的2×2最大池化层（SP-2），其余部分则采用了特殊的水平方向拉伸池化（即水平方向拉伸的最大池化操作）。这种特殊的水平方向拉伸池化设计不仅能够有效降低计算复杂度还能较好地保留图像的高度信息并有利于识别较细长形状特征（例如字母' i '、' l '等）。所提取的二维特征图将被用于以下两个目的：一是提取图像的整体特征；二是作为二维关注网络的上下文信息输入到主网络架构中进行后续处理

基于二维注意的编解码器

序列到序列模型已被广泛应用至机器翻译、语音识别及文本识别领域(Sutskever et al., 2014; Chorowski et al., 2015; Cheng et al., 2017)。本研究提出了一种基于二维注意力机制的编解码器网络架构用于不规则文本识别任务中，在保留原始图像信息的前提下该注意力机制可适应任意形状、排列方式及朝向的文字分布情况。
编码器 部署于图3所示架构中编码器由两层LSTM构成每一层的状态维度均为512维在时序片段处理过程中每一时刻输入一个二维特征映射随后沿高度方向执行最大池化操作更新当前时刻的状态向量ht\mathbf{h}{t}经过W次时序片段处理后将第二层LSTM输出的状态向量hw\mathbf{h}{w}作为输入图像经过统一采样后的全局特征表示并完成后续解码过程。

如图3所示：本文采用了LSTM编码器来构建其架构。其中v:,i代表二维特征图v中的第i个列向量。对于每一个时间步长t，在垂直方向上聚合对应的列特征后输入到LSTM单元中进行处理。

Decoder 如图4所示, Decoder是一种基于LSTM的模型,包含两层,每层隐藏层大小均为512个单元。值得注意的是,编码器与解码器之间没有共享参数。时间步长设为0时,将全局特征hw\mathbf{h}_{w}作为输入传递给Decoder中的第一个LSTM单元。随后,在第一步中将"START"标记作为输入信号传递给该单元。从第二步开始,将上一步骤的输出作为当前输入传递至下一个LSTM单元,直至接收"END"标记为止。值得注意的是,LSTM的所有输入都会经过一个加性门控机制进行处理:首先提供一个热向量,随后应用一个线性变换Ψ()对其进行处理。在训练过程中,LSTM接收的真实标记字符序列会替代上述人工输入序列。输出端通过以下转换函数计算出最终结果:
yt=φ(ht′,gt)=softmax⁡(Wo[ht′;gt])

其中ht′\mathbf{h}_{t}^{{\prime}表示当前隐藏状态(gt\mathbf{g}_{t})的作用域范围。映射矩阵Wo\mathbf{W}_{o}\in\mathbb{R}}{d_o\times d_i}是一个线性变换,它将输入特征向量映射至94个类别构成的输出空间中,具体包括10位数字(0-9)、52种区分大小写的字母(A-Z,a-z)、31种标点符号以及一个特殊标记"END"来终止序列处理过程。

现有二维注意模块基于Xu et al. (2015)的研究成果，在处理每个位置时并未考虑其二维空间关联性。为了整合邻域信息并更好地捕捉空间关系, 我们设计了一种新型的空间感知机制:

其中vij\mathbf{v}{i j}为在二维特征向量V中在(i,j)位置的local feature vector中，Nij\mathcal{N}{i j}是这个位置周围的8个邻居;ht′\mathbf{h}{t}^{\prime}为解码器LSTMs在时间步长t处的隐藏状态，被用于指导信号;Wv\mathbf{W}{v}、Wh\mathbf{W}{h}和W~S\tilde{\mathbf{W}}{\mathrm{S}}是需要学习的线性变换;αij\alpha_{i j}位置(i,j)的注意力权重;gt\mathbf{g}{t}为局部特征的加权和，作为 glimpse。与传统的注意机制相比，我们在计算vij\mathbf{v}{i j}的权重时加入了一个部分∑p,q∈NijW~p−i,q−j⋅vpq\sum_{p, q \in \mathcal{N}{i j}} \tilde{\mathbf{W}}{p-i, q-j} \cdot \mathbf{v}_{p q}。从图5可以看出(2)的计算可以通过一系列卷积运算来完成。因此很容易实现。

该方法所设计的二维注意力机制可通过卷积运算轻松实现；其中包含两个主要组件：一个是权重矩阵 $\mathbf{W}_v$ 与目标特征图 $\mathbf{v}_{ij}$ 的乘积项 $W_{vv}^{ij}$ ；另一个是通过邻域加权求和得到的关注权重 $\sum_{p,q\in\mathcal{N}_{ij}}\tilde{\mathbf{W}}_{p-i,q-j}\cdot\mathbf{v}_{pq}$ ；两者之和即为最终输出特征图 $\mathbf{o}_{ij}$ 的重要组成部分，并明确了中间结果的具体尺寸。在实际操作中，默认情况下该过程会将输入向量[1,1,d]通过重复平铺的方式扩展为H×W大小的空间

全部评论 (0)

还没有任何评论哟~

Show, Attend and Read:A Simple and Strong Baseline for Irregular Text Recognition

Show,AttendandRead:ASimpleandStrongBaselineforIrregularTextRecognition 引言该论文中，我们提出了一个易于实现的不规则场景文本识别...

【文本识别系列】Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition

论文原文：【链接】解读代码：【链接】个人体会：这个工作有点像是做了一个伪字符级别（定长处理）的结果，在处理上，通过垂直方向的缩小，在水平方向上进行字符级的注意力机制和序列预测。全文的主要工作在于做...

Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering论文阅读

文章目录摘要介绍 Mehtod Questionembedding Stackedattention Loss 总结摘要本文主要的研究内容是VQA,视觉问题回答，就是输入一张图片和一个问题，让...

（阅读笔记）PARE：A Simple and Strong Baseline for Monolingual and MultilingualDistantly Supervis

来源：2022.ACLPARE：用于单语和多语远程监督关系提取的简单而强大的基线模型的优势： 1、模型简单； 2、每个token都可以和句子中的其他token交换信息（包内句子交换信息，充分利用包中...

2021-CIKM-SimpleX: A Simple and Strong Baseline for Collaborative Filtering

CF三大块：交互Encoder、损失函数、负采样本文提出余弦对比损失，整合到一个简单的统一的CF模型—SimpleX 个人认为亮点在损失函数上，模型大道至简，表现很好；但是拿CCL和BPR比相当于对...

DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis

1研究目的现有的模型方法中存在以下问题： •堆叠生成器引入的纠缠问题 •限制额外网络在语义一致性方面的监督能力 •计算成本导致跨模态注意力文本图像融合受限的问题为了解决这些局限性，作者提出了一种更...

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

目录文章侧重点网络结构实验无motiontoken的消融实验 SwinTrack的消融实验论文链接：<https://arxiv.org/abs/2112.00995 代码链接：<https...

2019 VisualBERT: a Simple and Performant Baseline for Vision and Language

摘要我们提出VisualBERT，一种建模广泛视觉和语言任务的简单和灵活的框架。VisualBERT包含一些Transformer层的堆叠，这些层隐式的将输入文本和与输入图像相关的区域与自注意力对齐...

show,attend,and tell仿真

仿真代码：<https://github.com/yunjey/showattendandtell 一.依赖： numpy，matplotlib，scipy，scikitimage，hickle，Pi...

【论文阅读】A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking

一、背景目标跟踪也是无人驾驶中一个关键性的子任务，广义敌对攻击（UAPs）已经能够在各类计算机视觉任务中产生有效的攻击，但是目前并没有将UAP攻击应用在目标跟踪的先例。这篇文章中作者通过向视频中加入...

是否确定退出登录?

Show, Attend and Read:A Simple and Strong Baseline for Irregular Text Recognition

引言

模型

ResNet CNN

基于二维注意的编解码器

全部评论 (0)

相关文章推荐

Show, Attend and Read:A Simple and Strong Baseline for Irregular Text Recognition

【文本识别系列】Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition

Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering论文阅读

（阅读笔记）PARE：A Simple and Strong Baseline for Monolingual and MultilingualDistantly Supervis

2021-CIKM-SimpleX: A Simple and Strong Baseline for Collaborative Filtering

DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

2019 VisualBERT: a Simple and Performant Baseline for Vision and Language

show,attend,and tell仿真

【论文阅读】A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking