Advertisement

文本检测与识别(Text Detection and Recognition)

阅读量:

文本检测与识别综述
场景文字识别(STR)是根据环境自动区分自然场景中的文字信息的关键技术。本文主要探讨了其中的两个核心任务:文本检测(Text Detection) 和 文本识别(Text Recognition) 。前者的目标是从图像中定位出存在文字的区域;后者则是在已定位的文字区域中进行字符级别的识别。
常用的基准数据集包括SynthText、ICDAR2003至2019年的多个版本等,这些数据集涵盖了多种复杂场景下的文字信息,并为模型评估提供了重要参考。
在实际应用中,“EAST”是一种高效的场景文字检测器,在2017年首次提出后得到了广泛应用。“CRNN”则是一种基于卷积神经网络的文本识别模型,在字符级别的准确率上表现优异。“Mask TextSpotter”则是一种端到端的方法,在支持任意形状文字的同时兼顾了高精度检测和快速推理能力。
这些技术的发展推动了文档扫描、智能问答等领域的智能化应用,并为后续研究指明了方向。

文本检测与识别(Text Detection and Recognition)

Text Detection and Recognition.

文本检测与识别根据环境场合不同,可分为:

  • 光学字符识别技术(Optical Character Recognition, OCR)* ,在传统模式下是对输入的扫描文档图像进行图像分析处理过程,并通过解析并提取图像中所包含的文字信息。
  • 场景文字识别技术(Scene Text Recognition, STR)* ,则是专门针对真实环境下的图片内容进行文字信息解析的技术。

本文主要关注场景文字识别。

  • **文本检测(Text Detection)**技术主要用于识别图像中存在文字的位置及其范围;通过分析图像特征来确定文字区域。
  • **文本识别(Text Recognition)**系统能够对已定位的文字区域进行精确识别;其主要功能是将图像中的文字内容准确地转化为可处理的文字信息。

本文目录:

  1. 基准测试框架
  2. (图像分析)Efficient and Accurate Scene Text Detector
  3. (深度学习算法)Convolutional Recurrent Neural Network for Text Recognition
  4. (智能识别系统)Text Detection and Recognition System equipped with Mask technology

1. Benchmarks

文本检测与识别常用的数据集包括:

  • SynthText:大型合成数据集(共近80万张图像),涵盖多种多样的文本方向。
  • ICDAR2003:经过筛选后的ICDAR2003国际文档分析与识别竞赛数据集(排除仅包含数字字符或长度不足三个字符的图像),最终获得包含860个测试文本图像的数据子集。
  • ICDAR2013:专注于自然场景下的水平文本分析任务(提供229张训练用图和233张测试用图)。
  • ICDAR2015:专注于自然场景下的多方向文本识别任务(拥有1,000张训练用图和500张测试用图)。
  • Total-Text:除了传统水平和定向文本外(总计拥有1,255张训练用图和3百张测试用图),还引入了复杂弯曲文字场景。
  • Street View Text:由Google街景收集并处理后形成的词图集合(共计647张词图)。
  • IIIT 5k-word:从互联网采集并整理出的高质量词图数据库(共收录了约三千张裁剪词图)。
  • COCO-Text:用于目标检测任务的数据集(其中训练集中含有4.368.6个样本、测试集中则有两万样本)。

2. EAST

该方法是一种高效且精确的场景文本检测系统。

EAST 是一种文本检测的方法,可以检测出图像中的文本区域。

网络结构

EAST 的网络结构总共包含三个部分:

  • 特征提取主干部分
  • 特征融合分支部分
  • 输出层结构

在特征提取模块中采用PVANet作为主干网络,在该架构下主要包含四个卷积层,并且每层都能提取出相应的特征图。

特征合并分支 部分参考了U-net 的核心理念, 其中,U-net采用了反卷积操作, 而本方法则采用了反池化操作。

在输出层主要包含两个方面:第一方面通过单通道卷积操作生成score map;第二方面则通过多通道卷积操作生成geometry map。其中,在几何形状方面有两种不同的表示方式:一种是基于轴对齐的目标边界框(axis-aligned bounding box, AABB),另一种则是更为灵活的四边形表示方法(quadrilateral representation)。对于基于AABB的目标边界框(RBOX),该方法采用了五个独立的信息量:其中四个信息量分别记录了像素点与目标边界框左右上下边界的间距(AABB),第五个信息量则用于表示目标边界框的旋转角度;而对于基于四边形的目标描述方式(QUAD),则采用了四边形四个顶点的位置信息,并总计包含八个独立的信息量。

ground truth

大量数据集(如ICDAR2015)基于QUAD框架进行注释,并且必须生成相应的score mapgeometry map的真实标签。

在score map中,我们通过调整标注框的尺寸来进行缩放操作,在缩放后的区域内的像素标记为1,在框外的区域标记为0,并生成对应的label信息。

对于几何图谱:我们选取用于标记为正类的像素点。其中QUAD标签即为其相对于四个顶点的位置偏移。而RBOX则会首先选择能够包围真实四边形最小外接矩形框,并计算每个被选中的正例像素与其对应边界之间的距离。

Local-Aware NMS

该算法生成过多检测框通常会导致计算复杂度显著提升;而直接采用非极大值抑制方法会带来较高的计算开销;为此,作者提出了一种改进型的非极大值抑制算法——Local-Aware NMS

假设来自附近相邻像素的高度相似性较高,则会对这些像素中的候选框实施分阶段整合,并在整合后的候选框基础上应用常规非极大值抑制(NMS)。其中所融合得到的具体坐标位置则基于两个原始四边形区域分别赋予的不同置信度值计算得出。

3. CRNN

该研究提出了一种端到端可训练的神经网络架构... 该模型不仅能够实现高效的图像序列识别任务... 并成功应用于场景文本识别的实际场景中。

该技术可实现字符信息的提取。

CRNN 的网络结构总共包含三个部分:

  • 卷积层(convolutional layer) :接收输入图像的空间特征,并生成尺寸为(1,\frac{w}{4},512)的输出特征。
    • 循环层(recurrent layer) :从提取的图像空间特征中获取序列信息,并通过双向LSTM网络完成处理工作。其中时间步数设为\frac{w}{4}
    • 转录层(transcription layer) :通过CTC模型实现目标序列的生成。

在CRNN模型训练开始前进行处理时, 首先需对输入图像进行尺寸调整, 使其达到论文中规定的统一高度值32像素。随后, 通过卷积神经网络提取出的特征序列向量是从卷积层输出图中自左至右依次生成, 每个特征向量则反映了图像某段特定宽度范围内的细节信息。在此基础上, 双向LSTM网络将提取得到的特征序列转化为相应的标签概率分布, 而语音转录层则对LSTM网络预测出的所有可能结果进行综合评估, 最终完成准确的目标识别与定位过程。

4. Mask TextSpotter

文章:TextSpotter:一种端到端可训练的人工智能网络用于识别任意形状的文本

TextSpotter-MT 是一种基于端到端架构设计的全自动化文本检测与识别系统,在支持对任意方向的文本进行识别的同时实现了高效精准的处理。

网络结构

该系统架构遵循了现有的Mask R-CNN 模型,并通过整合目标检测与实例分割技术实现了高效的文本识别功能。

Mask R-CNN架构中,“mask branch”主要负责实例分割任务,并辅助完成目标检测工作;系统会整合这两种任务的结果。

Mask TextSpotter体系中,mask branch被定位为核心组件,它承担着主要功能.与此同时,目标检测模块则起到补充作用,整个网络通过将由fast rcnn系统检测获得的目标边界框信息传递至mask branch,从而实现高效且精确的分割效果.

Mask branch

经过卷积层和转置卷积层,最终输出通道数为38层,包括:

  • Global word map 分为一层,并依据文本类别进行分割。该图谱能够精确定位文本区域而不受实例形状的影响。
  • Character map 由三层组成,并分别对应十进制数字与二十六个英文字母的概率分布。
  • Background map 同样分为一层,并且仅用于整体布局而不涉及字符的具体位置。

Pixel Voting

在测试过程中采用Pixel Voting方法,并具体而言是将背景图进行二值化处理。然后,在这些区域中与之对应的字符图上计算最大概率,并最终对应于特定的一个字符。

Weighted Edit Distance

采用加权编辑距离(Weighted Edit Distance)来评估两个字符串之间的相似程度,并将其定义为损失函数;其中p代表该字符相应的预测概率。

该方法的主要局限性在于其受限于Character map的数量限制,无法有效处理长文本(如多语言文档)。

全部评论 (0)

还没有任何评论哟~