《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记
1. 概述
现有高性能检测方法主要依赖于基于CNN网络的架构设计。此类模型中的代表性实例包括ResNet-101和Inception系列模型等。这些模型展现出卓越的能力来捕捉和表征图像特征。然而计算开销较大可能导致性能下降。通过缩减backbone模块(轻量化设计),即降低了计算负担的同时也降低了整体性能表现。这种权衡可能会影响最终的实际应用效果。文章提出了一种创新性结构,在轻量化框架下实现了快速而精确的目标检测任务。研究灵感来源于人体视觉系统中感受野(Receptive Fields, RFs)的概念特点。为此作者提出了一个新的模块化组件——RFB(Receptive Fields Block, RFB)。该模块不仅考虑了感受野的基本尺寸属性还充分顾及到了其偏心率特性因素的影响。这种双重考量使得新模块在特征表达能力上较之传统设计更具优势同时也在鲁棒性方面表现更为突出。为了进一步提升整体性能作者将该RFB组件整合到现有的SSD目标检测框架中构建了一种新型探测器——RFB Net结构并进行了系统性实验验证。最终结果表明这种轻量化 yet 高效能的设计方案能够在满足实时性需求的前提下实现与传统深度学习驱动型算法相当甚至超越的效果
传统的网络架构通常在feature map上采用相同尺寸的采样网格来处理感受野问题。这种固定的方式可能导致特征识别能力和鲁棒性方面的性能下降。为了弥补这一不足,在深度学习框架中提出了Inception架构的设计理念:通过采用不同尺度的卷积核来综合考虑感受野的不同尺寸因素;这一思想与ASPP(Atrous Spatial Pyramid Pooling)的设计思路不谋而合:在并行设置中对顶层feature map应用不同孔径率(atrous rate)的操作;这种操作能够实现相对中心点的不同偏移度;最终在语义分割任务中取得了较好的实验效果。然而与基于相同核大小卷积层相比;这种方法所得特征的高度集中性有所降低;且与模拟雏菊形状分布特点的独特卷积层相比;其表现依然不够理想;为了解决这些问题;近年来研究者提出了基于变形卷积神经网络(Deformable CNN, DCN)的方法:该方法能够根据目标区域的感受野空间特性(包括尺度和形状)进行自适应调整;但其核心缺陷在于未能有效解决感受野中心点定位不准的问题;导致局部特征响应不够充分。

采用分支池机制于RFB网络架构中,在不同内核单元分别对应各自的空间感知范围。通过扩展型卷积模块对各内核的空间偏移特性进行调控,并对其进行变形处理以生成完整的表征信息。如图所示。

RFB模块在文章中被运用到了SSD网络的头部,并取得了不错的效果。并且RFB模块是通用的,对网络体系结构施加很少的约束。文章的主要工作内容可以归结为如下三点:
1)提出了一个RFB模块来模拟人眼视觉系统中RFs的大小和偏心度,以增强轻量级CNN网络的深度特性。
2)提出了基于RFB网络的检测器,通过简单地用RFB替换SSD的顶部卷积层,它在保持计算成本受控的同时显示出显著的性能增益。
3)结果表明,RFB网络在Pascal VOC和MS COCO上实现了最新的实时处理速度,并通过与mobilenet的链接证明了RFB的泛化能力。
2. RFB网络结构
RFB网络的内部结构主要由两部分组成:不同卷积核的多分支卷积层;后面的膨胀池化或者膨胀卷积层。第一个部分的作用和Inception结构中的是类似的,模拟感受野的多种尺度视角。第二个部分的作用是重新生成人眼视觉系统中感受野尺寸和中心的关系。
多分支卷积层
根据RF的定义很自然地需要在CNN网络中应用不同大小的卷积核来实现多尺度的RF。这里多分支设计灵感源自于ResNet与Inception-V2结构,其具体结构见文章后面的图,图的表述要比文字更直观。
膨胀池化与卷积
这里的膨胀池化与卷积最开始是源自于astrous convolution layer的,它是为了在一个高分辨率的feature map上生成新的特征图,并且在相同参数量的情况下尽可能表达上一个feature map中的信息。这个方法首先在语义分割中取得了不错的效果,之后在引入到了检测网络中。
论文利用膨胀卷积方法模拟了PRF在人视觉皮层的pRF偏心效应。其RFB模块的结构如下所示:

3 基于RFB模块的检测网络结构
这是SSD使用了RFB模块的检测网络框架:

轻量级的基础网络
作者为了能够和原始的SSD进行对比,因而只是进行了一些必要的改动,基础网络还是用的VGG-16网络。
多尺度特征图上的RFB
作者在这里保留了与原始SSD一样的级连结构,然后对应地使用本文提出的RFB与RFB-s进行替换。
4. 实验
作者在这里引入了具有RFB-Net特性的SSD模型,并与原始对应SSD模型进行了比较;此外,该模型还与当前最先进的检测网络进行了对比分析,并通过对比得出实验结果如表所示。

经实验分析表明,在引入RFB网络后(可观察到),该网络性能得到了显著提升(提升了约3个百分点)。文中给出了该网络性能与运行时间之间的对应关系图。

