Advertisement

CenterMask CVPR2020 Real-Time Anchor-Free Instance Segmentation

阅读量:

CenterMask CVPR2020

参考1
参考2
高效率、高mAP的实例分割模型
https://github.com/youngwanLEE/centermask2
https://arxiv.org/abs/1911.06667

创新:

  1. 添加空间注意引导掩模(SAG-Mask)分支到anchor-free目标检测器(FCOS),SAG-Mask分支在每个检测到的盒子上预测一个分割掩码,这有助于关注信息像素和抑制噪声
  2. 新的backbone:VoVNetV2,有残差连接,使用eSE处理通道信息丢失问题。
  3. 设计了CenterMask and CenterMask-Lite,分别针对大、小模型。

结构

在这里插入图片描述
1.backbone+FPN提取特征
2.FCOS目标检测
3.SAG-Mask head输出掩膜

Adaptive ROI Assign Function自适应的RoI分配机制

由于RoI是从特征金字塔网络(FPN[21])中不同层次的特征图中预测的,提取特征的RoIAlign[9]应该在RoI尺度的不同尺度上进行分配。
Mask R-CNN使用下面的公式(向下取整 )决定特征图的分配,不适用于centermask,在这里插入图片描述1)在原始的FPN网络中使用的特征是从P2到P5​ ,而在文章使用的一阶段网络中使用的是P3 到P72)上面参数中的224是源自于ImageNet,这个对于其它尺寸的输入图片还按照这个尺寸进行分配就显得不是很合理,并没有和输入的尺度相关联起来;
So,使用下面这个,向上取整
在这里插入图片描述

  • Eq2.会根据输入/RoI面积的比值自适应地分配RoI池尺度
  • kmax=P5,kmin=P3。
  • 如果k低于最低水平(如P3),则将k夹在最低水平
  • 如果一个RoI的面积大于输入区域的一半,则将该RoI分配到最高的特征级别(例如,P7)——没太懂
Spatial Attention-Guided Mask
在这里插入图片描述

1.将OSA 的输出沿channel维度执行max-pooling与avg-pooling,并通过concat聚合特征,再进行3x3卷积,再用sigmod函数得到;
2.spatial attention与ROI特征相乘;
3.相乘之后的特征,通过up-sampling以及1x1 convolution,用于预测特定类的mask
在这里插入图片描述

VoVNetV2

在这里插入图片描述
在VoVNet的基础上,
1)添加了输入到输出的残差连接网络,缓解了随着网络深度叠加带来的性能饱和与梯度问题;
2)基于SE module,在输出的内部添加了一个channel上的attention模块eSE。将原始的SE模块中两个FC替换为了一个FC。

eSE
在这里插入图片描述

它只使用一个具有C信道的FC层,而不是两个不减少信道维的FC,从而维护信道信息,从而提高性能。

ps:OSA和SE

OSA模块由连续的转换层组成,并同时聚合后续的特征图,可以有效地捕获不同的接受域,从而在准确性和速度方面优于DenseNet和ResNet
在这里插入图片描述
SE模块通过全局平均池压缩空间依赖性,以学习特定于通道的描述符,然后使用两个FC层,然后使用一个sigmod函数重新缩放输入特征映射,以只突出显示有用的通道。

训练

我们将FCOS的检测框数量设置为100,并将得分最高的框输入sag掩码分支,用于训练掩码分支。我们使用与掩码R-CNN相同的掩码目标,这是由RoI与其相关的地面真实掩模之间的交集构成的。在训练期间,我们将每个RoI上的多任务损失定义为:
L = L_{cls} + L_{center} + L_{box} + L_{mask}

其实就是FCOS的loss加了一个mask rcnn的mask 分支loss。
使用SGD 迭代90K,batchsize16,初始化lr0.01,权重衰减分别为0.0001和动量分别为0.9。所有的主干模型都由ImageNet预训练的权重初始化。

消融实验

time指的是interference time
在这里插入图片描述
自适应的ROI提升了0.4;
加了SAGmask,apbox提升较大

结果

在这里插入图片描述

个人学习记录,侵删

全部评论 (0)

还没有任何评论哟~