Advertisement

【论文笔记】Deep Direct Regression for Multi-Oriented Scene Text Detection

阅读量:

该文献由Wen Hao He、Xu Yao Zhang、Fei Yin和Cheng Lin Liu四位作者提出,并发表于《arXiv预印本》,具体编号为arXiv:1703.08289v1。

本文将当前的检测方法分为两类:直接回归与间接回归。其中,间接回
归的方法可通过预测bounding box proposals中的offsets来进行检
测,并在faster-rcnn、ssd等模型中得到了应用;而直接回
归的方法则基于给定点预测其offsets以确定边界。本研究则提
出了一种新型自然场景下的多方向文本检测算法。

-网络结构
-Groundtruth和Loss函数
-Post Processing
-实验设置


本系统的检测模块如图所示,主要由四个关键环节构成:特征提取模块、特征融合模块、多任务学习模块以及后处理模块。

这里写图片描述

1. 网络结构

网络架构由前三部分构成。
通过多层卷积操作获取丰富的特征表示,并由此扩展了感受野覆盖区域。
为了降低计算开销仅对融合后的feature map进行上采样处理使其尺寸缩减至原图面积的四分之一(如图所示基于原文基础上进行了尺寸标注)。
分类任务输出M_{cls}为一个\frac{S}{4}\times\frac{S}{4}二维矩阵其中每个元素值越大则判断为文本的可能性越高;回归任务输出M_{loc}采用三维矩阵形式呈现(即每个点(w,h)对应8个offsets)。因此四边形B_{(w,h)}的具体计算公式如下:

针对两个任务而言,在生成的映射关系中每一个点都对应着其所在的原始图像中的四边形及其分数。

这里写图片描述

2. Groundtruth和Loss函数

整体多任务的loss函数公式如下:

其中 L_{cls}L_{loc} 分别代表分类任务与回归任务的损失函数,在公式中 \lambda_{loc} 用于平衡两者的权重分配。
1)分类任务:分类任务的真实标签基于每个像素点进行标注,在距离文本中心线 r 以内(即 r \leq 0.2h)的像素标记为 positive 标签,在靠近 positive 区域边界位置标记为不关心区域(ignore region),其他区域标记为 negative 标签。参数 r 是基于文本高度的比例,在文中设定为 20% 的比例值。损失函数采用 hard negative mining 技术筛选训练样本集。
2)回归任务:回归任务的真实标签值具有一定的范围限制,在文中通过引入 Scale &Shift 模块实现了预测结果的快速收敛效果,并对网络结构进行了相应的优化设计(如图所示)。该模块通过以下公式将输入特征 z 转换为预测特征 \hat{z}

\hat{z} = s \cdot z + a

其中 sa 分别表示缩放因子与偏移量。根据公式可知,在正样本中目标物体尺寸不大于 400 像素时(即 \|z_i^*\| \leq 400),计算预测结果与真实值之间的误差损失:

L_i = \| \hat{z}_i - z_i^* \|

3. Post Processing

在output map上每个点对应一个带分数的四边形,在进行分类任务筛选后仍存在多个重叠的情况即存在冗余问题因此采用了一种后处理算法来解决这一问题本文所提出的该算法名为Recalled Non-Maximum Suppression(Recalled NMS)对于一个检测结果字符间的紧密程度与分数相关我们既希望去除包含文本间隙检测结果又希望保留字符间隙较大但属于同一文本的检测结果而Recalled NMS能够在这一目标间取得平衡传统的NMS方法简单来说就是对于有相交区域就选取置信度最高的作为最终结果而对于无交集则直接保留为最终结果而本文的方法如图所示1)首先按照传统方法从大量重叠的四边形集合B中获得抑制后的集合B_sup2)将其中每个四边形替换成一个与之重叠超过阈值且分数最高的四边形从而去除包含空隙的四边形3)经过上述步骤可能会再次出现密集重叠的情况此时不再采用传统的抑制方法而是将距离较近的四边形进行融合

这里写图片描述

4. 实验设置

以下是对原文的有效同义改写版本

全部评论 (0)

还没有任何评论哟~