Advertisement

论文阅读-《Deformable Convolutional Network》

阅读量:

arxiv 3/17/2017

1.Abstraction

文章一开始指出:由于卷积神经网络中卷积核的几何形状被预先固定下来而导致其对几何变换适应能力存在局限性。基于此认识,在本文中我们提出并引入了两个创新模块——可变形卷积和可变形区域池化模块——以显著增强网络对几何变换建模的能力。其核心思想是通过带位置偏移的采样点替代传统的固定位置采样方法,并且这种偏移量可以通过学习机制动态获取而不必依赖额外的监督信息。值得注意的是这种方法是对网络内部结构进行了优化改进的基础上实现的效果提升。因此这些新模块设计思路为后续在多个vision任务领域展开应用提供了理论支撑和实践指导,在本研究中我们主要以图像分割和目标检测为例进行了具体实现和验证

2.Introduction

在识别领域的一个重要挑战是如何建模一些复杂的几何变换。这些涉及尺度、位姿、角度以及部分变形的几何变换通常是难以处理的对象。通常可以通过应用几何变换来提升数据集的质量或设计出具有不变性的描述子来处理这些变换。然而这些方法都是建立在我们已知数据集中的特定变换类型的基础上对于未知或未见过的变换则难以直接适用同样的问题也存在于对复杂变形难以建模的情况中尽管近年来卷积神经网络发展迅速但由于卷积操作在特征图上固定位置采样导致其难以适应大规模未知几何变换例如同一层神经元的感受野大小一致这一特性对于目标检测任务显然是不够合理的因为不同区域的目标尺寸是不一致的因此如果能够实现感受野在不同位置根据目标大小进行自适应调整的话那么对于目标检测与语义分割等任务都会有显著的帮助

为提升网络性能,研究者开发了两个关键模块——变形卷积(Deformable Convolution)与变形区域池化(Deformable ROIPooling),旨在优化神经网络架构中的采样过程。其核心机制在于,在原始正方形采样网格的基础上增加了二维偏移量(2D Offset)以适应不同区域的需求。其中该二维偏移量可通过模型训练获得。如下图所示

DCNN_1

观察到通过调整基于固定采样点的位置,并结合offset技术,卷积层能够实现对一些基本几何变换的支持。

3.Deformable Convolution

以一个正常的3*3卷积为例,我们可以把卷积核对应的grid定义为R:

DCNN_2

那么对于输出的feature map y上的每个点p0,有

DCNN_3

在该框架下,deformable convolution通过引入每个pn对应的offset关系实现了特征映射的偏移补偿功能。因此,在此基础之上应用变形卷积能够显著提升模型对复杂形状信息的捕捉能力。

DCNN_4

由于offset通常为非整数值,在确定偏移后的采样点值时必须采用双线性插值方法以确保数据准确性

DCNN_5

给定一个输入的feature map,在假设原始的卷积核尺寸为3x3的情况下,则为了学习offset参数我们需要引入另一个同样大小(即同样是3x3)的新卷积层。其输出结果即与输入feature map大小相同,并且通道数共计2×3×3=18(其中每一点代表后一feature map中某位置相对于前一feature map中9个采样点在x和y方向上的偏移量)。这样一来,在已知输入feature map及其对应的offset field的情况下,则可执行变形卷积运算。所有相关的参数均可通过反向传播机制来进行有效的学习和优化。

4.Deformable ROI Pooling

假设其尺寸设定为w×h,在池化操作后区域尺寸变为k×k,则将正常的池化过程可被视为一种基于区域缩放的技术。

DCNN_6

其中(0<= i,j < k)
类似的,deformable roi pooling可以改写成

DCNN_8

表示对于每一个bin,定义一个整体的偏移量,具体实现示例如下图所示:

DCNN_9

假设给定一个ROI(Region of Interest),其需求是将其池化为空间尺寸为3\times 3的大小。为了能提取出对应于这9个bin(bin)的偏移量(offset),我们先进行常规的roi池化处理,并随后接入一个全连接层(fully connected layer)以便学习这9个偏移量参数。接着将结果进行重塑(reshape)。其中所有的参数同样能够被模型所学习。

5.Deformable Convnet

将上面提到的两个deformable module融合到CNN架构中则会导出一个新的网络模块命名为 deformable convnet. 研究表明在这种设计下改变了采样点的位置并学习了这些位置上的偏置值从而实现了自适应地捕捉图像特征. 类似地ROI Pooling这一技术也采用了类似的策略在其基础之上加入了变形机制以提高定位精度并且特别适用于处理非刚性物体.

DCNN_10

relative standard-based convolution's receptive field responds to variations in image content.

DCNN_11

根据图片的位置信息,在不同图片位置能够调整感受野的设置,并从而能够较为准确地建模几何变换

DCNN_12

3 * 3的deformable roi pooling则更多地将bin集中在物体上面。

6.Experiments

作者主要针对segmentation以及detection两个任务进行了评估变形模块的有效性和效能。

DCNN_13

使用3个deformable convolution的单元,能够提高分割和检测的精度

DCNN_14

加上deformable roi pooling之后,检测的精度进一步提高

DCNN_15

另一方面,参数并没有增大很多。保持了原有框架的效率。

更多实验结果参考原论文。
最后膜一下参与这篇论文的我腿

全部评论 (0)

还没有任何评论哟~