ICCV2017《Deep Direct Regression for Multi-Oriented Scene Text Detection》阅读笔记
前言
本文旨在简述《 Deep Direct Regression for Multi-Oriented Scene Text Detection 》的相关研究,并对其技术细节进行深入探讨。鉴于该研究者尚未提供相应的代码实现,则本篇文章不涉及代码解析相关内容。具体复现流程将在后续文章中详细说明。
Definition
作者在摘要与引言部分着重阐述了现有目标检测网络的定义。这也是整篇文章的核心内容,并为后续模型设计提供了背景依据。
间接回归:许多基于CNN的目标检测模型包括RCNN系列、SSD以及Multi-Box等。这些模型通过预测proposal与ground truth之间的位置偏移来实现目标定位。
直接回归:不考虑proposal生成环节而直接从特定位置预测目标坐标的参数或形状特征,并可以以相对于该点的位置偏移形式输出结果。
基于间接回归的目标检测网络,在像Faster-RCNN与SSD这类表现优异的主流架构中,在处理多角度文本检测任务时仍显不足。作者认为主要原因在于:
第一点,
第二点,
第三点,
- 存在性能较好的方法能够生产词级或行级建议方案的 anchor 结构, 然而现有技术大多只能基于字符级别进行 anchor 生成.
- 所有采用类似 anchor 概念的技术, 在文本倾斜、过长或间隔不固定的情况下, 均难以实现对目标内容的有效覆盖.
- 能够自动优化的 anchor 生成算法在运行效率上存在明显不足, 无法满足实际应用需求.
由于直接回归的应用 initially, 本文首次提出了一种基于直接回归的方法用于文本检测领域, 实验数据显示在当时阶段该方法确实发挥了显著作用。图中展示了两种回归方法的对比情况:

Proposed Methodology
- 模型结构

在论文中提到,在目标检测领域中将问题划分为分类与回归两大类,并将其构建成一个多任务学习框架。其中,在模型架构设计时借鉴了FPN(Feature Pyramid Network)的核心理念,在卷积神经网络的最后一层之后设置了两个分支模块:一个用于分类识别目标类别、另一个用于定位确定目标位置。具体而言,在卷积神经网络的最后一层之后设置了两个分支模块:一个用于分类识别目标类别、另一个用于定位确定目标位置,并分别计算出两者的损失函数值,并将这些损失按一定权重进行融合汇总得到整体损失函数。具体的实现细节将在后续章节中的“模型分析”以及附录中的“代码复现”部分进行详细阐述目前仅限于本节内容范围内的概述介绍

- Segmentation task
本文提出的模型并未包含传统的文本分类功能,在文献中常将此类操作称为分割过程。在这一任务中,
输出区域尺寸为\frac{S}{4} \times \frac{S}{4},
这等价于对原始图像进行降采样处理。
为了实现这一目标,
论文中的损失函数设计采用了以下形式:
L_{cls} =\frac{1}{S^2}\sum_{i\in{L_{cls}}}max(0,sign(0.5 - y_i^*)\cdot(\hat y_i - y_i^*))^2\tag{1}
其中\hat y_i表示输出结果,
通过将其放大四倍后与ground truth进行逐像素比较运算,
两者的取值范围均为{0, 1},
分别代表无目标区域和有目标区域(此处分类标签设定存在一定误导性)。该损失函数采用了hinge loss方案,
此外论文还引入了类别均衡技术和具有挑战性的负样本筛选方法,
对此感兴趣的研究者可以参考原文以获取更多信息。
- Regression task
回归任务中,输出为\frac{S}{4} \times \frac{S}{4} \times 8,数字8指预测相对该点,生成的四边形(x,y)坐标的偏置。注意,这里与传统模型的一大不同在于,模型并没有对输出形状 进行限制,所以生成的图形为不规则四边形 。所以之前讨论的倾斜、长文本等情况,通过这种方法能够得到一个与ground truth有很好overlap的四边形。很直观的,训练会更容易收敛,同时没有anchor的步骤效率也得到了提升。问题在于作者训练中是否运用了很多tricks,这个模型是否好训练是需要验证的。
在回归任务中,通过Sigmoid之后,通过平移放缩将预测值拉到和真实值一个量级。 _Scale &Shift_公式如下: \hat z=800 \cdot z - 400, z\in(0,1)\tag{2} 损失函数部分参考了fast rcnn,损失函数:
L_{loc}=\sum _{i\in L_{cls}}[y_i^*>0]\cdot smooth_{L_{1}}(z^*_i-\hat z_i)\tag{3}
smooth_{L{1}}(x)= \begin{cases} \ 0.5x^2 & if \ | x| \tag{4}
- Recalled NMS
将NMS做了点小改动,类似于SSD筛选prior的过程,从作者的实验来看这块对结果提升很小,细节就不赘述了(偷个懒)。
总结
本篇论文可视为对目标检测模型在文本检测领域的发展探讨。当前,在自然场景下的文本检测识别领域中对关注点已转向较为扭曲、不规则且多尺度的情形,并呈现出更高的复杂度。后续将继续介绍这一领域的进一步发展情况。
Reference
Wenfeng He, Zhang Xiuyun, Yin Fei et al. proposed a Direct Deep Learning Method for Rotated and Multioriented Scene Text Recognition in their 2017 study.
