Advertisement

[论文阅读]Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning

阅读量:

文章目录

    • 摘要
    • 引言
    • 相关研究综述
    • 基于端到端的文本阅读
    • 弱监督与部分监督学习
  • 方法

      • 全链条中文文本理解
      • 部分监督学习机制
        • 在线提案匹配技术
    • 全 supervision与弱 supervision联合训练方案
    • 训练流程设计

实验研究

复制代码
* 总结
* 参考文献

文章被收录在第23届国际计算机视觉大会(ICCV)上


摘要

  1. 基于现有基准难以评估大量词汇深度学习模型的表现水平,在此背景下 本研究引入了新的基准数据集Chinese Street View Text (C-SVT)。
  2. 该数据集包含了43万幅图片样本,在这之中 有3万幅为全标注图像(即所有文字区域均带有标签),其余4万幅则属于弱标注场景(仅关注感兴趣区域的文字标签)。
  3. 在模型架构中 我们整合了一个在线建议匹配模块 通过共享参数机制实现了关键词区域的最佳匹配定位 并在此基础上实现了端到端的学习优化。

简介

本文贡献:

  1. 开发出了新型大规模中文文本阅读基准C-SVT系统(包含强-弱标签图像),其规模约为现有公开中文文本数据集总量的约十四倍。
  2. 本研究开发了一种端到端可训练模块用于处理大规模弱标签图像(该模块能够从强标签数据中学习并实现目标定位与识别功能)。
  3. 本研究提出了一种部分监督学习方法(其性能指标表现优于传统全监督方法),并在ICDAR 2017-RCTW基准测试任务中取得了最佳成绩。

相关工作

文本阅读基准

英文文本数据集:

  • 规则文本

    • IC- DAR 2013 [19]
    • ICDAR 2015 [20]
  • 弯曲文本

    • Total-Text [10]
    • SCUT-CTW1500 [44]

中文文本数据集:

  • 手写文本

    • Liu 等人提出的 [26]
  • 自然场景文本

    • MSRA-TD500 [42]
    • RCTW-17 [36]
    • CTW [43]

端到端文本阅读

该文提出了一种方法:利用共享特征的方式将文本阅读划分为检测与识别两个阶段,并将其转换为端到端模式。

在位置[8]、[22]和[29]处采用了区域推荐网络RPN来生成文本区域,在位置[14]、[28]和[37]处采用了全卷积网络来预测文本区域

识别:[11], [4] employ CTC (Connectionist Temporal Classification)[7], [28] and attention-based LSTM decoder to perform character-level sequence identification.

弱监督和部分监督学习

弱监督学习方法[38], [15]采用了单字符级别的边界框来进行文本检测,并借助单词级别的边界框进一步提高识别精度


方法

该文所构建的系统整合了骨干网络作为基础架构、基于文本检测的分支用于识别关键区域、透视RoI模块负责兴趣区域转换以及支持文本识别的另一分支,并通过在线推荐机制完成最终匹配

在这里插入图片描述

端到端中文文本阅读

本研究选择ResNet-50作为主干网络,并附加全卷积模块以构建文本检测分支以实现同时完成文本与非文本分类及位置回归功能

Perspective RoI Transform 是一种能够将特征图F中的特定区域精确对齐到小特征图F_p的方法。该方法通过保持每个小特征图在同一比例的高度进行统一缩放,在其高度与宽度之比超过1的情况下(即长宽比高于1),采用以顺时针方向旋转90度的方式处理每一条垂直线(此处仍需进一步明确具体操作细节),从而实现对水平方向和垂直方向文本的有效识别。

该系统在识别分支模块中整合了基于注意力机制的编解码架构,并选用RNN模型作为编码器。其中将输入特征表示为F_p。通过多层堆叠卷积层处理后得到顺序文本特征表示F_s。其中RNN的循环单元采用GRU(Gated Recurrent Unit)如Gated Recurrent Unit(GRU)模型。

部分监督学习

Online Proposal Matching

本文旨在实现OPM功能,通过关键词标记y^w来定位文本内容,并生成一组text proposals{Pw(i)}_{i=1}N},其中N表示预测得到的text proposals的数量。

随后,在每个proposal中使用perspective RoI提取特征图后紧接着采用CNN-RNN编码器将这些图像数据转化为序列形式的特征表示符。为了衡量这一序列特征与弱标签之间的相似程度本文在设计OPM模块时采用了基于注意力机制的RNN解码器来推导出解码状态其中时间步数T_w也对应于标签序列y^w的实际长度

为了正确选择proposals, OPM通过详细计算嵌入空间中的每个text proposal的状态以及标签y^w的字符嵌入序列\{\mathbf{e}_t^{\, w}\}_{t=1}^{T_w}与解码状态\mathbf{h}_i之间的欧几里得距离d_w(i)

W_hW_e分别是嵌入空间中编码h^w_te^w_t的参数。

该模块采用配对损失函数进行计算。数学表达式为:
L_{o p m}=\frac{1}{N} \sum_{i=1}^{N}\left[s^{w}(i)\right]^{2}
其中,在正样本的情况下(即当text proposalP^w(i)与目标标签y^w匹配时),定义s^{w}(i)=d^{w}(i);而在负样本的情况下,则定义s^{w}(i)=\max(0,1-d^w(i))。具体而言,在正负样本的划分上,则是依据text proposalP^w(i)与目标标签y^w之间的最大重叠度IoU来进行分类的。

全监督和弱监督的结合训练

在全监督学习中进行训练时所使用的损失函数由多个部分组成,并且包含一个用于平衡两种不同损失项的重要参数β

在部分监督学习场景下,在线损失函数的形式被定义为L_{r e c o g}^{w}。该损失函数的具体计算式为:对所有样本进行加权求和后再取平均值。具体而言,在第i个样本中权重m(i)等于其对应的权重系数\frac{\sum d^a(i)}{\sum d^b(i)}乘以指示变量\delta(l_i, l_j)的值。

本文提出一个阈值\tau 旨在筛选出合适的text proposals。具体而言,在某时刻t时如果d^w(i)\leq\tau 则将该样本标记为候选样本(即m(i)=1);否则不将其标记(即m(i)=0)。

对于每个候选text proposal i, 其鉴别损失函数被定义为负对数似然函数形式:l_{r e c o g}^{\omega }(i) = -\frac{1}{T^{\omega }}\sum _{t=1 }^{T^{\omega }}\log p(y_t^{\omega }| y_{t-1 }^{\omega }, h_{t-1 }^{\omega }, c_t^{\omega }) 其中c_t^\omega 表示t 时刻通过注意力机制计算得到的上下文向量。

部分监督学习总的loss为
L_{t o t a l}=L_{d e t}+\beta\left(L_{r e c o g}+L_{r e c o g}^{w}\right)

训练流水线

以下是改写后的版本

以上输出严格遵循了用户的所有要求

第二阶段:完成第一阶段任务后,在此基础上利用部分监督损失函数L_{total}对整个模型进行训练,并将这些数据集整合用于模型优化。


实验

本文中指明平均编辑距离Average Edit Distance为AED。其中R、P、F分别代表Recall、Precision、F-score这三个指标数值越高则性能越优;而AED数值越低则性能越优。

定性与定量结果

定性分析结果显示:从图5可以看出,在仅采用完全标注图像进行训练的情况下获得的效果表现优于半监督模型的效果。

在这里插入图片描述

定量结果 :首先注明,在本研究中将仅采用全标注图像训练的模型定义为 End2End;而将基 于 端 到 端 的 部 分 监 谭 的 学 习 模 型 称 之 为 End2End-PSL。

此外

在这里插入图片描述
比较其他方法

用于多尺度训练的模型是End2End2-MS。数据显示,在表4中可以看到,在端到端评估指标下(AED),相比于传统的端到端方法(End2End),该方法取得了显著的进步(减少了3.3%)。此外,在多尺度测试任务中,在端到端评估指标下(AED),该变体(即带有多尺度支撑的端到端方法)表现出了最佳水平(达到 AES 的最佳水平)。

在这里插入图片描述
模型设计的有效性

Online Proposal Matching:选取了500张随机选取的弱标注图片,并通过设定不同的阈值\tau来筛选text proposals。在实验中设置\tau=0.1时的表现表明,在测试集上实现了Recall具有可接受性同时Precision较高。

在这里插入图片描述

部分匹配样本如下图所示:

在这里插入图片描述

c图表明即使GT被融入多个text proposals中,模型依然能够检测出来。d图揭示了GT如何被分配到不同的text proposals中,这会使得Recall变得较低。

弱标注的识别有效性
在这里插入图片描述

总结

开发了C-SVT作为中文文本检测的最新基准。
引入了在线建议匹配模块OPM用于训练部分监督的端到端模型,并支持从强标注和弱标注样本中学习。
相比仅依赖强标注的学习,在加入弱标注学习后F-score提升了4.03%;在ICDAR 2017-RCTW评估中实现了最佳表现。


参考文献

[19] Dimosthenis Karatzas et al., ICDAR-2013 Robust Reading Competition. In the proceedings of ICDAR, spanning pages 1484 to 1493, published by IEEE in 2013.

Dimosthenis Karatzas and others participated in the ICDAR 2015 reading competition conducted on robust methods. In the proceedings of ICDAR, pages 1156–1160 were published by IEEE in the year 2015.

[10] Chee Seng Chan and Chee Kheng Chng. Total-text: An extensive dataset for scene text detection and recognition. In Proc. of ICDAR, 2017.

Liu Yuliang et al. propose a novel method for detecting curved text in outdoor scenes. They introduce a new dataset and an advanced approach to address this challenge. The research is published as a preprint on arXiv with the identifier arXiv:1712.02170 in 2017.

A comprehensive study titled "CASIA online and offline Chinese handwriting databases" was presented at the Proceedings of the 2011 International Conference on Document Analysis and Recognition (ICDAR), published by IEEE in 2011. This research involved four key contributors: Cheng-Lin Liu, Fei Yin, Da-Han Wang, and Qiu-Feng Wang.

Cong Yao et al. proposed an effective method for identifying texts with complex or varying angles in natural images. The approach was validated at the Computer Vision and Pattern Recognition (CVPR) conference, achieving notable success on pages 1083–1090 in the year 2012.

Proceedings of the 2017 IAPR International Conference on Document Analysis and Recognition (ICDAR), held in October 2017, presented the competition details for reading Chinese text in the wild (RCTW-17). The paper was published in volume 1 of the conference proceedings, spanning pages 1429–1434. The work was carried out by Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, and Xiang Bai under IEEE publication guidelines.

[43] Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, and Shi-Min Hu. Chinese text in the wild. arXiv preprint arXiv:1803.00085, 2018.

[40] Tao Wang, David J Wu, Adam Coates, and Andrew Y Ng. 全连接文本识别基于卷积神经网络。在ICPR会议论文集上,第...页。...

This paper presents a method to generate synthetic data to address the challenge of text localization in natural images. The research was presented at the Conference on Computer Vision and Pattern Recognition (CVPR), covering pages 2315–2324, published in 2016.

Max Jaderberg et al., examining textual content in real-world scenarios through convolutional neural networks (IJCV), Vol.45 (Issue: ...), pages x–y (20th Century).

This variant of TextBoxes++ is designed to detect oriented scene text in a single-shot manner.

Hui Li et al., Focuses on full-text recognition systems with CNN-based RNN models in the proceedings of the ICCV conference, pages 5238–5246, 2017.

[7] Michal Bus̆tā, Luka Neumann, and Jiří Matas. 该文提出了一种深度文本识别框架:An end-to-end trainable scene text localization and recognition system. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.

Christian Bartz, Haojin Yang, and Christoph Meinel propose that Stn-OCR is a single neural network aimed at detecting and recognizing text. This method is available as a pre-publication on arXiv with the identifier arXiv:1707.08831, published in 2017.

[6] Christian Bartz, Haojin Yang, and Christoph Meiner. for exploring towards semi-supervised end-to-end scene text recognition. at the AAAI conference in 2018 year.

刘学波、梁定、严士、陈代国、邱亚辉及于俊杰. Fots: 具有统一网络的快速方向化文本定位. 《计算机视觉与模式识别会议论文集》(Proc. of CVPR), 第5676-5685页. 2018年

[14] Tong He, Zhi Tian, Weilin Huang, Chunhua Shen, Yu Qiao, and Changming Sun. 该文提出了一种基于端到端架构的文本定位系统具有明确的对齐机制与注意力机制特性。Proceedings of the CVPR conference, pages 5020–5029, 2018.

[29] Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, and Xiang Bai. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In Proc. of ECCV, pages 67–83, 2018.

[37] Yipeng Sun, Chengquan Zhang, Zuming Huang, Jiaming Liu, Junyu Han, and Errui Ding. Textnet: Irregular text read- ing from images with an end-to-end trainable network. In Proc. of ACCV, 2018.

The research paper authored by Michal Busˇta, Luka ́sˇ Neumann, and Jirı Matas introduces an innovative methodology for identifying and recognizing scene texts within images or videos. The study titled "Deep textspotter: A fully trainable end-to-end system" was presented at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) in 2017, covering pages 2223 to 2231 of the proceedings.

[22] Hui Li, Peng Wang, and Chunhua Shen. Text detection in an end-to-end manner using convolutional and recurrent neural networks. In the proceedings of ICCV, pages 5238–5246, 2017.

[38] Shangxuan Tian, Shijian Lu, and Chongshou Li. W wetext: W wetext under weak supervision scene text detection. In the proceedings of CVPR, pages 1501–1509. IEEE, 2017.

[15] Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, and Errui Ding. Making use of word annotations for character-based text detection is the focus of this study. In the proceedings of the ICCV conference, 2017.

全部评论 (0)

还没有任何评论哟~