Advertisement

[论文阅读]TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记

阅读量:

TextDragon: A fully integrated system designed to detect and recognize texts with diverse and complex shapes Reading Notes

该文章发表在ICCV 2019会议论文集上。
[论文地址]:http://openaccess.thecvf.com/content_ICCV_2019/html/Feng_TextDragon_An_End-to-End_Framework_for_Arbitrary_Shaped_Text_Spotting_ICCV_2019_paper.html
[代码地址]:暂未找到


摘要

本文开发了一种新的可微运算RoISlide技术,旨在构建基于关系的文本检测与识别系统,并使模型具备端到端的学习能力。该研究在两个复杂的数据集CTW1500和Total-Text上展示了卓越的表现,并且在经典的ICDAR2015测试用例中实现了有竞争力的结果。


介绍

现在,在中文信息处理中通常会遇到两种情况:一种是基于规则的技术用于中文信息抽取;另一种则是基于统计的方法用于完成各种语言处理任务。这种传统模式存在耗时较长且未能体现两者间的关联两个主要缺陷。

本文提出的一种名为TextDragon的方法源自TextSnake[32]这一研究工作。该方法主要通过设计了一系列局部单元来进行文本检测,并最终实现了对任意形状文本的有效识别能力。然而,在实际训练过程中该方法要求每个样本都需要具有详细的字符级标注信息,在某些标准数据集上由于缺乏这类标注信息而导致在实际应用中可能出现较高的标注成本。

本文旨在通过多种方法来达成目标——即检测各种形状的文本,并通过多个局部矩形被用来定位。

图2

如图2所示,在RoISlide架构中包含了检测与识别模块之间的关联性,在特征图分析过程中能够提取修正变形后的文本区域并减少其尺寸及方向上的变化;随后将这些经过校正的特征信息分别输入至卷积神经网络(CNN)以及基于时序分类的连接主义模型(CTC)中进行最终推断;此外该系统首次实现了对任意形状文本的检测能力,并且仅采用单词或行级别的标签即可完成任务

三大主要贡献包括:
(1)TextDragon提出了一种端到端模型。
(2)一种新型可微滑动区域识别器实现了识别与检测的无缝结合。
(3)仅需基于单词级或行级标注完成训练过程。


相关工作

场景文本检测

刘等人[31]采用了水平和垂直偏移链接来识别弯曲特征,这些特征由14个顶点的多边形表示。

Wang等人[46]开发了一种利用循环神经网络的技术用于自适应文本边界检测,并成功实现了对任意形状文本的有效识别和处理。

Long等人[32]报道了一组围绕对称轴设计的相互重叠圆盘用于检测弯曲文本。然而这种设计使得后续集成变得不够高效。

场景文本识别

基于深度学习的方法主要依赖于CNN提取特征,并随后采用循环神经网络生成顺序标签[42]。然而这种方法仅关注了文本的一维特性,并未能适应弯曲文本检测的需求。

研究者们Shi等人(参考文献[39])以及Liu等人(参考文献[28])开发出了一种基于空间注意力机制的技术方案用于对弯曲文本进行姿态调整。研究者Cheng等人(参考文献[5])通过将特征输入至注意力机制的解码器中实现了不规则文本检测的任务。

Scene Text Spotting(场景文本检测与识别,可理解为End-to-End)

该团队开发了一种基于水平文本检测与识别的端到端解决方案。该研究者提出了基于可微运算的RoIRotate算法,在特征图中提取定向文本以实现目标。该团队开发了适用于多种语言的语言处理系统。这些方法仅限于处理常规形式的文本数据。

该方法基于Mask-RCNN框架[11],由Lyu团队[33]提出的文字实例分割技术实现了弯曲文本检测与识别的任务创新;然而该方法仅依赖于字符级别的标注信息


方法

本文方法:首先利用主干网络从图像中提取特征信息;接着引入基于中心线定位的四边形文本检测机制;随后采用RoISlide在特征图上沿着中心线提取相关特征;其中局部转换网络将每个四边形内的原始特征转化为校准后的特征;最后运用卷积神经网络(CNN)对每个四边形进行特征分类,并通过CTC解码器获取最终完整的文本序列。

在这里插入图片描述

文本检测

针对不同尺度的文字识别问题,本文开发了一种多层级特征图整合方法,并将整合后的特征图通过放大至原图像的四分之一尺寸实现目标定位。

Centerline Segmentation : 该算法的主要功能是识别文本的中心线。其核心技术通过标记中心线附近的像素值为1来实现这一目标,并将其他像素值设为0以区分非文本区域。为了平衡中心线像素与背景像素数量上的差异,在现有研究基础上[40]我们采用了**online hard example mining(OHEM)**这一改进方案。

其中符号|S|表示从OHEM中被选中的元素总数,并且p_s代表网络对单个点进行二分类的结果;其值对应于ground truth,并且其取值范围限定在\{0,1\}之间。损失函数L_{seg}则通过以下两个主要项来计算:首先是各子项损失值的平均值\frac{1}{|S|}\sum_{s\in S} L(p_s,p_s^*);其次是各子项损失的具体计算表达式\frac{1}{|S|}\sum_{s\in S}\left(-p_s^*\log p_s - (1-p_s^*)\log(1-p_s)\right)

Local Box Regression : 该步骤的主要目的是实现目标

损失函数定义如下:

\left[\begin{array}{c} L_B \\ L_\theta \end{array}\right] = \frac{1}{|P|} \sum_{i \in P} \operatorname{Smooth}_{L_1} \left[ \begin{array}{c} B_i - B_i^* \\ θ_i - θ_i^* \end{array} \right]

其中,

P

表示正样本区域(即文本中心线区域),

B_i

θ_i

分别代表模型预测得到的box和角度,

B_i^*

θ_i^*

为对应的ground-truth标签,

λ_θ = 10

为超参数(本文实验中取值为10)。
我们选择使用 Smooth L₁ 损失[36] 作为损失函数的原因在于其对目标形状变化具有良好的鲁棒性。

RoISlide

该文提出了一种名为RoISlide的新方法。该方法通过依次变换每个局部四边形的位置与形状关系,在某种程度上实现了所有文本特征向量向轴对称特征求变的过程。具体而言:第一步是沿着文本中心线布置相应的四边形结构;第二步采用了基于滑动窗口机制的设计框架——Local Transform Network(LTN) ,能够对各个独立提取出的矩形区域进行连续性优化处理并输出标准化结果。经过上述两步操作后,在最终生成物中形成了有序排列的方形特征矩阵(如图4所示)。

在这里插入图片描述

文本识别

本文采用了一系列的卷积层来代替[45][46]的LSTM。具体操作见表1。

在这里插入图片描述

文字识别主要涉及两项核心操作:文字分类器和转录层。其中分类器的作用是将上一步骤生成的方形特征图转换为对应的文字及其出现的概率值;而转录层则负责将这些概率值对应转换为英文字符序列。

在转录层中,本文采用了CTC解码器[9]. CTC旨在将概率分布转化为文本序列.

用于文字识别的任务损失函数定义为:L_{r e c}=-\frac{1}{M}\sum _{m=1}^{M}\log p(y|X);进而得到整体端到端模型的损失函数表达式为:L = L_{{s eg}} + \lambda_{{reg}} L_{{reg}} + \lambda_{{rec}} L_{{rec}},其中\lambda_{{rec}}\lambda_{{reg}}分别表示对应的权重系数。

推理

推理步骤如图5所示:

在这里插入图片描述

分类 :本文基于几何关系对目标进行分类。
判断 :在1.步骤中,我们首先判断同一组中的box整体是水平方向还是垂直方向排列。
处理流程 :针对边界生成过程,本文在有序框序列上执行均匀采样操作以提取多边形顶点.随后,通过顺序连接这些顶点即可完成文本边界的构建.
识别流程 :采用RoISlide算法与CTC模型结合的方式完成识别任务.


实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

端到端 vs. 非端到端 :从图6可以看出,在测试集上采用端到端训练策略能够显著提高对非关键文本的识别能力。
RoISlide vs. RoIRotate :从表2、3以及图6(c,d)的数据可以看出,在处理弯曲或旋转过的文本时RotatedNet[29]表现不佳;而SlideNet与RotatedNet在处理常规旋转文本时表现相当。
Spotting with vs. without LSTM :基于CNN算法构建的识别模型比仅依赖于LSTM结构提升约4倍的速度。


参考文献

列出博文中引用原文的部分文献

[32] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, and Cong Yao. Textsnake: A flexible rep- resentation for detecting text of arbitrary shapes. In Euro- pean Conference on Computer Vision (ECCV), pages 19–35. Springer, 2018.

[31] 刘丽阳、金连文、张帅涛和张盛. 在真实场景中识别曲线文字的新数据集与新解决方案. 出自 arXiv 预印本 arXiv:1712.02170, 2017年.

[46] Xiaobing Wang et al. Arbitrary shape scene text detection with adaptive text region representation. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

本研究展示了自动校正技术在场景文本识别中的有效性与可靠性。该方法通过结合深度学习算法实现了对复杂背景下的文字信息提取与处理能力的显著提升,在多个公开数据集上的实验结果表明其性能表现优于现有同类算法。

A spatial attention-based recurrent neural network called StarNet is proposed for scene text recognition. Proceedings of the BMVC conference features this paper on page 7 of Volume 2.

5

The research team advances the field of computer vision through their work on end-to-end text spotting techniques employing convolutional recurrent neural networks within a comprehensive framework designed for robust visual understanding.

[29] Liu Xuebo, Qiao Yu, Shi Yan, Chen Dagui, Ding Liang, and Yan Junjie. The Fots system: A unified network for fast oriented text spotting. In the proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), The pages are from 5676 to 5685. 2018.

[35] Yash Patel, Michal Busˇta, and Jiri Matas. E2e-mlt - an unconstrained end-to-end method for multi-language scene text. In arXiv preprint arXiv:1801.09919, 2018.

[40] Abhinav Shrivastava, Abhinav Gupta, and Ross Girshick. Learning region-based object detectors through online difficult examples for training. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pages 761–769.

Shaoqing Ren and his colleagues introduced Faster R-CNN as a method aimed at achieving real-time object detection using region proposal networks. This contribution was featured in the proceedings of the Advances in Neural Information Processing Systems (NIPS) conference held between 2015 and 2015.

Tao Wang等人的研究表明,在Proceedings of the International Conference on Pattern Recognition (ICPR)上发表的文章中描述了基于卷积神经网络的端到端文本识别技术

Xiaobing Wang et al. introduced a novel approach for arbitrary shape scene-level text detection using an adaptive text region representation in their research paper presented at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) in 2019.

A study titled "Connectionist-based temporal classification" proposes a method for labeling unsegmented sequential data using recurrent neural networks. This research was presented at the ICML conference in 2006.

Kaiming He et al. propose an innovative object detection framework named Mask R-CNN in their research paper published in the IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) in 2017. The proposed method integrates advanced feature extraction techniques with a novel region-based convolutional neural network architecture to achieve state-of-the-art performance in instance segmentation tasks. Their experimental results demonstrate significant improvements over previous approaches, establishing Mask R-CNN as a benchmark for subsequent research in this domain.

Yuan Lyu Peng, Hui Liao Ming, Yao Cong, Hao Wu Wen, and Bai Xiang. Spotting Text with Arbitrary Shapes: A Mask-Based End-to-End Trainable Neural Network. Proceedings of the European Conference on Computer Vision (ECCV), September 2018.

全部评论 (0)

还没有任何评论哟~