D2Det: Towards High Quality Object Detection and Instance Segmentation
论文标题:D2Det: Towards High Quality Object Detection and Instance Segmentation
论文地址:D2Det: Towards High Quality Object Detection and Instance Segmentation.
论文代码:https://github.com/JialeCao001/D2Det
框架
D2Det方法是基于标准Faster R-CNN框架。在这里,proposed dense local regression代替了Faster R-CNN中传统的box offset regression,而分类则使用discriminative RoI pooling进行改进。整体结构如下图所示。在第一阶段,使用RPN(region proposal network);在第二阶段,我们使用两个独立的分类和回归分支。dense local regression分支用于精确定位目标,而基于disriminative RoI pooling的分类分支则对proposal的分类准确性有帮助。

1、dense local regression

Dense Local Regression(密集局部回归)方法将k×k维的RoI特征视为K2个空间相邻的局部特征,对K2个特征点都进行偏移量预测,其中一个局部特征如上图所示。这些局部RoI特征通过一个完全卷积的网络来预测多个局部框偏移量,称为密集框偏移量。密集框偏移量用来预测每个(x_{i},y_{i})位置的局部特征p_{i}到GT框左上和右下角的距离 。下面四个变量l、t、r、b分别表示在左上右下四个维度上的密集盒偏移量,最后得到维度4\times k\times k
\begin{aligned} l_{i} &=\left(x_{i}-x_{l}\right) / w_{P}, \quad t_{i}=\left(y_{i}-y_{t}\right) / h_{P} \\ r_{i} &=\left(x_{r}-x_{i}\right) / w_{P}, \quad b_{i}=\left(y_{b}-y_{i}\right) / h_{P} \end{aligned}
局部特征的数量取决于候选目标和GT的重合度,但是即使重合度高的时候,也会有非目标特征(例如背景特征)出现在这K2个局部特征中。为了处理这种情况,采用二元重合度预测来对每个局部特征进行分类:
m_{i} = \begin{cases}1, & \text{ if } p_{i}\in G ,& \text{} \forall p_{i}\in P\\ 0, & \text{ otherwise } \end{cases}
2、disriminative RoI pooling
与回归不同的是,分类需要高度的区分特征。discriminative RoI pooling的灵感来自于deformable RoI pooling,并在两方面对其进行了改进。
• 首先,使用一种轻量级的偏移量预测,它需要大约四分之一的参数,与可变形RoI pooling中的标准偏移量预测相比。标准偏移量预测采用RoI Align操作从 k\times k 子区域中获取特征,并将这些特征通过三个完全连通的层。相反,轻量级偏移预测只需要一个\frac{k}{2} \times \frac{k}{2}大小的RoI Align,然后是完全连接的层(轻量级是因为更小的输入向量)。
• 其次在偏移量预测之后,标准的deformable RoIpooling使用一个RoI Align,在每个子区域内获得的四个采样点都被平均分配相等的权值。与此相反,本文提出的加权pooling的目的是自适应地分配更高的权值给discriminative的采样点。例如下图中的右图,不同的采样点s1~s4被赋予不同的权值w1~w4。
一个候选区域的权重RoI特征\widetilde{F} 通过下面的式子得到:
\widetilde{F} = W(F) \odot F

这里\odot是哈达玛积,注意到W(F)是从F中使用卷积操作计算得到,而非是固定的权重。因此我们使用一个步长为2的平均池化对\widetilde{F}操作,就得到了大小为k\times k的discriminative RoI feature。可以将一个候选区域经过discriminative RoI池化后的特征看作是一个一维全局向量,因为在标准Faster R-CNN中,经过最后两个全连接层来得到候选区域的分类结果。
经过偏移量预测和discriminative RoI pooling后,所抽取的特征很可能包含与目标和上下文都相关的判别性特征,这对进一步提高分类性能很有帮助。
