【Paper Reading】【TextBoxes: A Fast Text Detector with a Single Deep Neural Network】
Introduction:
传统文本检测方法涉及以下步骤:
- 候选词生成过程用于生成候选词。
- 候选词过滤用于去除非有效的候选词。
- 分组处理剩余的候选词进行分组处理
- 弊端:需要确保每个模型都正常运行,则必须投入大量时间和资源进行参数调试和策略制定;同时这也可能导致检测速度变慢。
- 本文介绍了一种基于端到端训练的单一神经网络模型用于高效定位单词的bounding box以实现文本检测任务。
Contributions:
基于TextBoxes的方法是一种快速而精确的文字检测系统。该系统通过融合预测文字出现位置信息与基于SSD模型的位置偏移量,在多层网络中直接生成words bounding box坐标值,并对这些box坐标进行聚合处理后应用非极大值抑制算法以获得最终结果。为了高效处理不同尺寸的文字内容,在系统架构中我们引入了几种创新性的Inception-style输出模块,在不采用常规卷积核的前提下能够灵活适应多样化的文字比例需求
单词识别(word recognition)有助于从背景中区分文本内容,并且特别当单词被限定在一个预先定义好的词典集合中时(例如词典集合),这种限制能够进一步提高准确性。本文采用了基于卷积神经网络(CRNN)与TextBoxes相结合的成功文本识别算法,在实际应用中取得了良好的效果:识别器不仅提供了额外的检测输出结果,并且通过语义级别的分析使得整体检测精度得到了显著提升:最终实现了对单词识别(word spotting)过程的有效优化
结合Boxes与CRNN,在单词识别及端到端文本识别任务中均展现出色,并可被视为一种简洁且高效的鲁棒性文本阅读方案
Detecting text with TextBoxes:

architecture:
○ 多个输出分支(text-box layers),位于这些中间卷积层之后的部分。它们整合后的输出经过一次非极大值抑制(NMS)处理,并且这些输出结构同样是卷积架构。
○ TextBoxes仅包含卷积层与池化层结构,在训练与推理过程中能够自适应地适应人工尺寸的对象
Text-box layers:

1,2,3,5,7,10
○ 同时预测文本的存在性和边界框的位置,并根据输入特征图的信息进行预测。
在每一个map location位置上都会生成与之相关的分类概率以及对应default boxes的偏移信息。
为了适应不同尺寸的对象设计了宽高比较大的default boxes(相对于常规目标),具体包括尺寸【1,2,3,5,7,10
Learning:
○ 损失函数设计上与SSD保持一致:L(x,c,l,g) = \frac{1}{N} \times (L_{\text{conf}}(x,c) + \alpha \times L_{\text{loc}}(x,l,g))
其中x代表匹配指示矩阵;c表示置信度参数;l代表预测的位置坐标;g是真实的目标位置坐标;N值对应默认框的数量。
Multi-scale inputs:
○ 采用不同尺度的图像作为输入(images of varying scales)
基于词匹配与端到端识别的方法,在预定义词汇表中对特定词语进行识别,并通过识别技术来提高检测效果(detection)。这种方法能够有效减少由于重复模式导致的误报(false positives),并能通过设置较低的置信度阈值和较高的NMS重叠率筛选候选框,在每幅图中平均提取约35个bounding boxes,并具有较高的召回率(recall rate)0.93;同时该方法还支持多尺度输入(multi-scale inputs for ICDAR 2013)。对于所有候选框进行评估后得到最终得分:s = max p(w | I),其中I表示图像,w是一个字符序列,W是字典;随后再依次应用第二个置信度阈值筛选和NMS处理以获得最终结果
