Advertisement

Receptive Field Block Net for Accurate and Fast Object Detection(RFB)

阅读量:

Receptive Field Block Net for Accurate and Fast Object Detection(RFB)
paper code

Abstract
受人类视觉系统感受野结构的启发,我们提出了一种新的感受野( RFB)模块,该模块考虑了感受野的大小和偏心度之间的关系,以提高特征的可分辨性和鲁棒性。

Motivation
1.过深层的网络提取特征带来过大的计算消耗和缓慢的推理速度。
2.在人类视觉皮层中,群体感受野(population Receptive Field)的大小是视网膜定位图中偏心率的函数,虽然不同的图之间不同,但它随着每个图中的偏心率而增加。它有助于突出更接近中心的区域的重要性,并提高对微小空间位移的不敏感性。
3.现有的特征融合模块没有考虑感受野中离心率的影响,某一感受野中所有像素对输出响应的贡献是相同的,其中的重要信息没有被强调。
image

Core idea
RFB是一个多分支卷积块。它每个分支的内部结构可分为两个部分:多分支卷积层和后续的多分支池化/膨胀卷积层。
其结构主要有两个特点:1、不同尺寸卷积核的卷积层构成的多分枝结构,类似于Inception结构。在下图的RFB结构中也用不同大小的圆形表示不同尺寸卷积核的卷积层。2、引入了dilated卷积层,主要作用也是增加感受野,在下图的RFB结构中用不同rate表示dilated卷积层的参数。在RFB结构中最后会将不同尺寸和rate的卷积层输出进行concat,达到融合不同特征的目的。在下图的RFB结构中用3种不同大小和颜色的输出叠加来展示,在最后一列中将融合后的特征与人类视觉感受野做对比,正如上文所说的达到模拟人类视觉的感受野不同区域不同偏心率的目的。
两种RFB的结构:(a)是RFB,整体结构上借鉴了Inception的思想,主要不同点在于引入3个dilated卷积层(比如3×3conv, rate=1)。(b)是RFB-s。RFB-s和RFB相比主要有两个改进,一方面用3×3卷积层代替5×5卷积层,另一方面用1×3和3×1卷积层代替3×3卷积层,主要目的应该是为了减少计算量。
image
image

思考
多尺度特征的应用非常广泛,只要场景中存在不同大小的物体且都需要网络对其进行感知,理论上来说所都可以使用多尺度特征融合的模块对效果进行改进。
本文中的特征金字塔工程旨在模拟人类感受野的特点,总体来说实在强调中心区域特征的重要性,从而达到提取该区域内主要物体特征的目的,这跟论文从目标检测领域出发时分不开的。
直接迁移到stereo中效果不一定好,因为stereo是要回归场景中的每一处视差信息,而不只是强调所关注的某个区域内的强表现力特征。这种模块人眼视觉感受野有重点地提取特征的方案有点类似与空间注意力机制,是否可以用更灵活的注意力机制模块去端对端学习场景特征,作为额外分支去补充backbone缺失的信息,比如对ill-posed region和edge smoothness做refine。
最后贴一个可视化工具库:https://github.com/utkuozbulak/pytorch-cnn-visualizations。

全部评论 (0)

还没有任何评论哟~