目标检测“Cascade R-CNN: Delving into High Quality Object Detection”
当前的目标检测器主要基于IOU=0.5来区分正负样本;然而,在该指标提升时,检测性能随之下降。主要原因在于:1) IOU增加会导致正样本数量减少;2)当检测器达到最佳性能时,在输入假设下的inference-time存在不匹配的问题。为此,《 Cascade RCNN 》提出了一种改进方案——Cascade RCNN,并采用逐步提升IOU的方法来优化多级检测器。
IOU=0.5训练,会生成较多的噪声框,如fig1(a)所示,论文的目标是生成高质量的检测框,如图1(b)所示。作者使用了定位和检测性能衡量检测器的指标。定位性能是输入proposal的IOU的函数,检测性能是IOU阈值的函数。如图1(c)所示,每个box回归器在IOU接近训练的IOU时效果最好,而图1(d)显示,对于IOU阈值低时,u=0.5的检测器比u=0.6效果好,IOU阈值高时相反。实际上,检测器只有在高质量的proposal时才有较高质量的检测结果。但是,仅在训练时提升proposal的IOU是起反作用的,大的IOU对应较少的训练正样本,易导致过拟合。

该研究提出Cascade RCNN以解决上述问题,并采用自提升方法进行迭代优化。根据图1(c),当将一些样本输入至回归器时,默认能得到较高的IoU值;经过一个阶段的学习后,默认正样本IoU会进一步提升,并且这种提升不会导致类别不平衡的问题;与传统的困难负样本挖掘不同的是,在此方案中我们主要关注于对正样本的目标框进行精细调整,并选取近似负样本作为补充用于下一阶段的学习
其他目标检测方法
1.两步法
Faster RCNN,R-FCN,FPN,MS-CNN
2.单步法
Yolo,SSD,RetinaNet(Focal Loss)
3.多步法
AttractioNet
目标检测
以Faster RCNN为例,在整个算法中分为两个主要阶段运行:第一阶段是构建生成proposals的网络结构;第二阶段则采用基于区域兴趣检测的子网络进行精化处理;最终系统能够为每一个假设分配对应的类别标签以及边界框坐标。
1.bbox回归
最小化L2 损失函数:

为使得回归对尺度和位置不变,Lloc通常在偏置向量上执行,即:

还有一些方法使用多步回归精修bbox,称为迭代bbox回归:

但实际上,由于bbox分布的变化,两次以上的回归不再有效。
2.分类损失:

3.integral loss
为了使检测模块在各个IOU层级的表现基本一致,在各个层次分别优化其对应的损失项,并将这些优化后的损失项结合起来以构建完整的损失函数框架

该损失函数未考虑到不同层级上正样本数量不均的问题;若采用高精度检测器,则容易导致过拟合现象出现。
Cascade CNN则有效解决了不同iou级别样本数量不足的问题:

Cascade RCNN的损失函数在t步为:

其中

Fast RCNN模型、迭代边界框算法、积分损失以及级联RCNN结构的具体架构如图所示

实验结果


