论文阅读:《D2Det: Towards High Quality Object Detection and Instance Segmentation》
该论文提出了一种新的两阶段目标检测方法D2Det,旨在同时实现精确的定位和精确的分类。D2Det通过密集局部回归(Dense Local Regression)改进了目标定位,该方法可以预测多个密集的box偏移量,从而更精确地定位目标。同时,该方法引入了判别式RoI pooling(Discriminative RoI pooling),通过自适应加权从候选框的子区域中提取特征,以获得更区分力的特征。实验结果表明,D2Det在多个数据集上显著优于现有方法,例如在COCO数据集上实现了45.4 AP,在UAVDT和iSAID数据集上也表现出色。该方法在实例分割任务中也取得了优异结果,速度提升2倍,mask AP达到40.2倍。

Proceedings of CVPR 2020
文章目录
-
- 背景与动机
-
- 相关工作
-
- 优势/贡献
-
- 方法
-
- 4.1 稠密局部回归
-
- 4.2 辨别式区域池化
-
- 4.3 实例分割
-
5 实验
-
5.1 数据集
- 5.1.1 COCO 数据集
- 5.1.2 UAVDT 数据集
- 5.1.3 实体分割
-
6 Conclusions
-
1 Background and Motivation
近年来,深度神经网络的发展在目标检测领域取得了显著的进展。现代的object detectors大致可分为两种类型:单阶段方法(直接对默认的anchor进行回归和分类)和双阶段方法(首先生成候选框,然后进行分类和回归)。通常情况下,双阶段方法在标准基准测试中的精度优于单阶段方法。
高质量的目标检测要求物体进行精准的定位同时进行细致的分类。现有的大多数two-stage检测器在bounding box定位模块采用了相似的设计方案,一个典型的选择是采用回归模块,包括流行采用的Faster R-CNN也使用了回归模块。如图所示,传统 regression分支通常通过全连接层来预测4个边界框相关的位置调整量。最近,Grid R-CNN采用多个卷积层来预测多个 grid point 的热图,随后通过这些热图确定初始的网格点,并利用这些网格点确定定位框的边界。与传统方法通过回归方式修正proposal位置不同,Grid R-CNN通过全卷积网络直接实现定位框的精确修正,利用生成的热图来定位初始网格点,并根据这些网格点确定定位框的四条边界。

在本文中,作者采用密集局部回归( dense local regression)这一技术,以精确定位目标。与Faster R-CNN中所采用的基于全连接网络的传统回归方法不同,本文提出的方法通过全卷积网络预测了多个局部box的偏移量。
与基于关键点定位的Grid R-CNN相比,相较于该方法,本文提出了一种名为dense local regression的新型定位技术。该技术较之Grid R-CNN具有更高的定位精度,主要得益于其能够支持多数量偏移量的回归特性。与Grid R-CNN相比,本文的方法不仅能够实现目标的精确定位,同时还能进行精确分类。在分类任务中,作者提出了一个具有判别能力的区域建议池化方法。该方法通过从proposals的各个子区域提取特征,并结合自适应加权方法,获取具有判别性的特征表示。
2 Related Work
近年来,two-stage检测方法在检测精度方面已取得了显著的进展,其中,Faster R-CNN因其卓越的性能而备受关注,众多研究均基于其进行拓展。
大多数two-stage检测器基于锚框来表示目标,而部分single-stage检测器采用无锚框的方法,它们通常基于关键点来估计bounding box。这些方法多采用bottom-up的一阶段架构,直接从图像生成关键点,无需定义实例。其关键步骤在于识别同一实例的关键点并正确分组。[Grid R-CNN]的方法属于top-down的两阶段架构,首先通过实例定义来定位目标。然而,该方法也存在一些局限性:(1)目标定位问题:关键点搜索限定在56×56的特征空间中,这在较大物体(如大小超过100×100图像像素)时会带来定位精度下降的问题。
在MS COCO数据集上,本文提出的单一稠密局部回归方法(未添加分类分支)在大目标检测任务中实现了3.7%的性能提升。相较于Grid R-CNN,该方法在定位精度上取得了显著进步。在目标分类方面,Grid R-CNN主要关注于提升定位能力,而其分类分支的改进相对有限,仍沿用传统的分类结构。值得注意的是,RoIPool在候选区域特征提取中被RoIAlign取代。RoIAlign通过将候选区域划分为均匀分布的子区域,并在每个子区域内进行4个采样点的均匀采样,结合等权融合计算,以期在保持分类性能的同时提升检测精度。
本文介绍一种新方法,执行自适应加权,以增强区分特征分类。
3 Advantages/Contributions
本文创新性地提出了一种两阶段检测框架D2Det,该框架能够同时实现精准定位与分类目标。为实现精准定位,本研究引入了密集局部回归技术,该技术能够预测多个密集框的偏移量。相较于传统两阶段检测器中采用的基于关键点的定位方法和传统回归技术,本文提出的密集局部回归方法具有更灵活的定位机制。该方法不仅不受固定区域限制,还能够通过位置敏感的实数密集偏移实现更精确的定位。通过引入一种二进制重叠预测策略,以减少背景区域对最终盒回归的影响,进一步提升了密集局部回归的定位精度。
为了准确实现分类目标:本文提出了判别式RoI合并方案,该方案能够从proposal的各个子区域进行采样,并通过自适应加权机制获取判别式特征。在目标检测任务中,基于ResNet101的主干网络,本文的D2Det方法在MS COCO test-dev数据集上表现更优,其单模型的平均精度达到45.4。在采用多尺度训练和推理策略的情况下,D2Det的平均精度进一步提升至50.1。

实例分割:相较于现有先进技术,D2Det在蒙版AP指标上实现了显著提升,达到40.2倍的加速效果。基于UAVDT数据集进行的无人机图像分析和iSAID数据集支持的卫星图像实例分割实验结果表明,D2Det在机载传感器应用中展现出卓越的性能。

4 Method

该方法遵循经典的Faster R-CNN框架。在本文的方法中,我们采用密集局部回归来替代传统的Faster R-CNN中的box偏移回归。同时,通过discriminative RoI pooling来改进分类。我们的两阶段检测框架的整体架构如图2(a)所示。
第一阶段采用区域建议网络(RPN),第二阶段则采用独立的分类与回归分支。通过密集的局部回归分支(图2(b))实现目标的精确定位,而基于discriminative RoI pooling的分类分支(图2©)则致力于改进候选建议的分类质量。
4.1 Dense Local Regression
在目标检测方法的两阶段框架中,边界盒回归分支的目标是实现候选目标框与紧致边界框之间的对齐。其中,P(P_{x}, P_{y}, P_{w}, P_{h})表示候选目标框候选框,G(G_{x}, G_{y}, G_{w}, G_{h})表示目标ground-truth框。在FasterR-CNN中,传统的边界框偏移预测方法利用上述公式进行计算。

P(x_{P},y_{P},w_{P},h_{P})是candidate object proposal
G(x_{G},y_{G},w_{G},h_{G})是target ground-truth box
(x,y)是 box 中心点
(w, h)分别表示box的宽度和高度。即对于P,采用特性池策略,利用RoIPool或RoIAlign从proposal内等间距地提取k \times k的子区域,生成固定尺寸的k \times k RoI特征。Faster R-CNN将这些RoI特征整合为一个统一的向量,该向量代表全局特征。随后,通过一系列全连接层预测单个box的偏移量,如图所示。

与现有策略相比,我们采用Dense Local Regression方法,将k×k维的区域-of-interest(RoI)特征视为由k^{2}个相邻的局部特征组成,其中,每个局部特征的位置如图2(b)所示。

这些局部RoI特征通过全卷积网络预测出多个局部box offset,这些offset被命名为密集盒偏移量。密集盒偏移量用于计算每个(xi, yi)位置的局部特征pi与GT框左上角和右下角之间的距离。在左上和右下两个维度上,四个变量l、t、r、b分别表示密集盒偏移量。

l_{i}, t_{i}, r_{i}, b_{i}代表位置坐标i到ground-truth bounding box的四个offset量。
(x_{l},y_{t}),(x_{r},y_{b})表示 ground-truth bounding box的左上角和右下角坐标
w_{P}和h_{P}分别表示the width and height of the candidate proposal
局部特征的数量取决于候选建议框P与目标框G之间的重合程度,然而,即使重合度较高的时候,仍然会在这些k^{2}个局部特征中出现非目标特征,如背景特征。为了应对这一问题,我们采用二元重合度预测方法,对每个局部特征进行分类。


在训练过程中,\hat{m}_{i}被sigmoid函数进行归一化处理。当\sigma(\hat{m}_{i})>0.5时,其值为1。
对比而言,我们的密集局部回归©在关键点检测方面的性能,基于经典的Faster-RCNN模型(a)和网格R-CNN架构(b)。
- 与传统FasterR-CNN相比:传统FasterR-CNN回归使用全连接网络预测给定候选目标的单一全局偏移量(图3(a))。与传统回归不同,我们的密集局部回归使用全卷积网络产生多个位置敏感的盒偏移(图3©)。此外,我们的二元重叠预测器减少了背景区域对最终盒回归的影响。
- 与GridR-CNN中使用的基于关键点的定位策略(图3(b))相比:GridR-CNN与我们的方法类似,也使用了一个全卷积网络。但我们的密集局部回归能够回归任何实数偏移量,并且不局限于固定兴趣区域内量化的一组关键点,因此可以更准确地定位目标。此外,我们的方法不需要反卷积上采样操作来增加边界盒定位的空间分辨率,从而避免了额外的计算开销。

4.2 Discriminative RoI Pooling

与回归不同,分类需要具备高度的区分能力。本文所提出的discriminative RoI pooling方法源自于deformable RoI pooling技术,并在两个方面对其进行了优化和改进。
首先,我们采用了一种轻量级的偏移量预测方案,其所需参数量仅为可变形RoIpooling方法的四分之一,与该方法相比。标准偏移量预测通过RoIAlign操作从k×k的子区域中提取特征,随后经过三个全连接层进行处理。相比之下,轻量级偏移预测仅使用k/2 × k/2大小的RoIAlign操作,随后通过全连接层完成特征提取,其参数量更小,主要得益于输入向量的缩减。
其次,在偏移量预测之后,传统的deformable RoIpooling机制基于RoIAlign的实现,在每个子区域中采样得到的四个采样点均分配相同的权重系数。与之不同,本文提出的一种加权池化方法旨在根据采样点的区分度动态分配更高的权重,以增强对关键特征的捕捉能力。例如,如图所示的右图中,不同位置的采样点s1~s4分别被赋予不同权重系数w1~w4。


\bigodot表示哈达玛积( Hadamard),即对应位置相乘
\tilde{F}表示Weighted RoI feature,加权的ROI特征
4.3 Instance Segmentation
本文方法通过调整密集局部回归分支,能够较为简便地扩展至实例分割任务。在所述公式中,作者采用实例分割中可获得的ground-truth mask来标注局部特征pi∈P,而非假设ground-truth边界盒G内的所有区域均属于目标。基于mask的ground-truth被用于训练二值重叠预测器以及密集回归分支中的偏移预测(如图2 (b)所示)。在推理阶段,二值重叠预测器被用于生成实例分割预测mask。

此外,作者通过两个反卷积层将输出空间分辨率提升至4倍(即,从7×7分辨率提升至28×28分辨率),并借助两个全连接层以有效的方式进行mask scoring。
5 Experiments
5.1 Dataset
- MS COCO和UAVDT
5.2 MS COCO Dataset
- State-of-the-art Comparison

当采用带有FPN的ResNet101主干网络时,与现有的二阶段目标检测方法相比,D2Det在单模型检测的平均精度上表现更优,达到了45.4%的高精度水平。采用ResNet101-deform v2主干网络时,D2Det在目标检测性能上优于DCN v2,其平均精度达到47.4%。D2Det*代表多尺度训练与实验,目标检测的平均精度达到50.1%。
- Qualitative Analysis


- Ablation Study

base是Faster R-CNN,将DLR与DRP两个分支融合到base中,AP值显著提高4.7%。

对比分析 dense local regression (DLR) 与 Grid R-CNN 以及其变体 Grid R-CNN Plus。单独考察DLR分支时,其分类能力与另外两个分支相当。
5.3 UAVDT Dataset

除了LRF-Net以外,其他方法均基于ResNet101主干网络,通过FPN结构实现特征提取。相较于近期提出的NDFT检测器,本文提出的D2Det方法表现出色。

UAVDT Dataset上的定性结果,黑色区域被忽略。
5.4 Instance Segmentation

速度比HTC快2倍,mask AP40.2。

在 iSAID test set上的实例分割结果。

在COCO test-dev (top row) 和 iSAID test (bottom row)上的实例分割结果。
6 Conclusions
该two-stage检测方法D2Det,实现了精准定位与精确分类。为了实现精准定位,引入了密集局部回归分支,该分支能够为每个候选框预测多个box offset。为了实现精确分类,我们提出了一种判别式RoI池化操作,该操作通过从一个proposal的各个子区域采样,并结合自适应加权机制,有效提取具有区分度的特征。
