Advertisement

论文阅读《PolarMask: Single Shot Instance Segmentation with Polar Representation》

阅读量:

论文链接:https://arxiv.org/pdf/1909.13226.pdf

PolarMask这篇文章发表于CVPR20会议中。它基于FCOS框架实现了实例分割任务,并将其整合进FCN体系中。其创新之处在于通过识别物体的counter来进行建模。相较于Mask RCNN的不同之处在于

在这里插入图片描述

如图所示(a),展示了原始图像;(b)这一部分采用了基于Mask RCNN的一类分割方法,在bbox区域内对每一个pixel进行精确分类;(c)采用了基于直角坐标系的counter建模方法;(d)这一部分则采用极坐标系下建模轮廓的方式进行处理(即本文所提出的PolarMask建模策略)。

此外,在(c)图中采用直角坐标系的建模方式也是可行的;相比之下,图(d)的设计更加简单;这是因为极坐标系相对于直角坐标系具有固定的角度先验;因此,在模型进行回归时,只需关注特定角度下的距离值即可;从而显著降低了问题的求解难度;整个pipeline以一张image作为输入;经过模型后得到实例中心点的类别信息;随后在极坐标下进行密集的距离预测;最后将这些预测结果整合起来生成分割mask;

所以整个流程同样简单,并且可视为FCOS的一个扩展版本。由于FCOS仅需对检测框进行预测即可完成任务(即仅需预测四个方向上的参数值:l, r, t, b),这些参数对应的角度分别为0°, 90°, 180°, 270°四个方向。而PolarMask则能够预测36个不同角度的距离值,在此基础上计算出实例对应的counter信息。由此可见FCOS实际上是PolarMask的一种特殊情况,在此过程中既保持了与目标检测相似的本质特性又未引入额外的技术难度

Architecture

PolarMask的网络结构如下图所示:

在这里插入图片描述

总体架构与FCOS存在相似之处。backbone+FPN的结构近似于FCOS,在Mask分支维度上从4升级为n(其中n设定为36)。将传统的Centerness替换为Polar Centerness设计。其余组件均未发生根本性变化

Polar Mask Segmentation

在这里插入图片描述

输入一张图像后,模型能够直接输出中心点位置以及36个方向的距离值。基于中心点坐标和距离数值,计算出所有36个点的具体位置,并按照从0度开始依次连接的方式组装成最终的mask图层。在实验过程中,研究者以质量中心(mass center)为基准点,在各个level的特征图上进行特征分配,并在质量中心区域附近设置采样窗口(以平衡正负样本数量的需求),将该区域内的样本作为正例数据集;而其余未被采样的区域则作为负例数据集进行处理。除了这些特殊的处理方法外,在其他训练环节中仍沿用FCOS的方法框架,并采用Focal Loss作为损失函数进行优化计算

Polar Centerness

FCOS中的centerness旨在评估检测框的质量。同样地,在PolarMask中也需要一个类似的指标来评估mask的质量。因此可以推导出Polar Centerness的计算公式如下:

在这里插入图片描述

通过公式可以看出,在各个方向的距离中(d_{\text{max}}d_{\text{min}} 越接近),则 Polar Centerness 的数值达到最大(C_{\text{Polar}} 最大)。从物理学的角度分析可知,在这种情况下意味着该中心点到各个边界的距离相对均匀一致(d_i \approx d_j 对任意 i,j),并且该点处于一个高度对称的位置。

在这里插入图片描述

从上图可见,在中间的那一幅图像中与右侧图像相比其centerness得分明显较低。具体而言,在推理过程中右侧图像表现出更高的centerness得分主要归因于最右边的一幅图像中各个射线所对应的深度分布更为均匀

Polar IoU Loss

为了精确定位目标边界,在实现目标检测任务时需要对36个不同的距离值进行回归计算。然而,在现有损失函数体系中存在明显局限性:smooth L1损失函数会导致定位精度下降(无法充分捕捉边缘细节),而IoU损失则难以实现并行化计算(影响训练效率)。基于此需求背景,在现有损失函数体系的基础上进行了创新性改进:提出了新型的Polar IoU损失函数;通过实验验证表明该改进型损失函数能够显著提升目标检测模型的性能(具体表现为提升约5%~7%的mAP指标);同时其设计特点使得在实际应用中无需额外调整权重即可实现mask分支的快速稳定收敛(这一特性显著提升了算法的实际适用性)。其数学表达式如下所示:

在这里插入图片描述

写成离散形式如下:

在这里插入图片描述

作者将上述形式进行简化,得到下面的公式,该效果与上述形式非常接近:

在这里插入图片描述

最后得出Polar IoU损失函数的表达式:

在这里插入图片描述

实验结果

关于射线数目的影响,以及mass center和bbox center的对比:

在这里插入图片描述

消融实验:射线的数量、损失函数的选择、中心性损失的选择、box分支是否存在与否的讨论、backbone架构的不同设计以及在不同图像尺度下的表现分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~