Mask Encoding for Single Shot Instance Segmentation论文阅读/翻译
Mask Encoding for Single Shot Instance Segmentation论文阅读/翻译
- 论文链接
-
摘要
-
引言
-
我们的办法
网络架构
抵抗编码器
紧凑表示法(compact representation)
抗干扰重建(mask reconstruction)
损失函数(loss function)- Correlation Between Boxes and Masks
-
Experiments
-
- 一些结果的可视化
- COCO数据集上的结果对比
-
论文地址
参考文献来源:
Abstract
到目前为止,在单阶段实例分割方法中(...)的目标平均精度(AP)均未能超越双阶段方法。这一差距的主要原因在于单阶段方法难以精确表达目标mask区域。为此,作者提出了一种名为MEInst(Multi-Element Instance Segmentation with Fixed Vector Representation)的一阶实例分割框架。与现有方法不同的是,在该框架中,并未直接预测二维mask边界(...),而是将其转化为一个紧凑且固定的二维向量表示。这样一来,在进行边界框检测后即可同时生成所需的实例分割结果。这种设计使得整个任务得以整合进一个统一阶段,并最终形成一个简洁有效的解决方案。
Introduction
基于二阶段的方法(如Mask R-CNN)存在效率不足的问题,并且其运行时间受限于图像中的目标数量。相比之下,在一阶段的方法中,则可以直接处理整张图像不受此限制。现有研究致力于将掩膜预测集成到全卷积网络架构中,并通过这种方法构建出一种单阶段实例分割框架。这些研究的主要缺陷在于:预测得到的mask可能会不可避免地显示出"空心衰减"现象,在这种情况下只能描绘具有单一轮廓的对象区域

“是否有可能在固有的低维空间中预测对象蒙版并仍然达到竞赛的精度?” 作者提供一个肯定的答案:建议使用学习的字典对实例蒙版进行编码,以便仅需要几个标量系数即可表示每个蒙版。 作者证明了这种方法对噪声具有鲁棒性,并且高效,易于解码以进行重建。作者以FCOS为基础去构建实例分割框架。
主要贡献总结如下:
(1)将二维实例腌膜编码为紧凑的表示向量。 这个压缩的向量利用了原始腌膜中的冗余,并被证明对重建是有效的。可以使用一些字典学习方法来完成编码,包括PCA,稀疏编码和自动编码器。 在这里,我们显示即使是最简单的PCA也已经足够进行腌膜编码。
(2)通过这种腌膜表示,通过扩展FCOS和腌膜分支用于腌膜系数回归,引入了一个用于单阶段实例分段的新框架,称为基于掩码编码的实例分段(MEInst)。
(3)最佳模型在COCO测试集中获得38.2%的掩膜AP,在准确性和速度之间取得了良好的平衡。
Our Method
总览:

Network Architecture
该网络以FCOS为基础架构,并整合了核心组件、特征金字塔模块以及两个独立的任务头模块(分别负责框回归与中心计算功能),它们共享同一个分支处理逻辑。此外,在此基础之上设置了一个并行处理单元用于预测腌膜相关参数。
Mask Encoding
基于一个结构化的实例掩码,在本节中我们将详细探讨如何从其表示形式中提取出冗余信息;观察发现,在目标主体中占据主导地位的是位于对象边界处分布的那些像素;这些大部分像素具备类别连续性和一致性特征;换言之,在现有腌膜表示方法中存在大量冗余信息,并且腌膜能够在极低的空间占用下几乎无损失地进行数据压缩;具体而言,在本小节中我们将深入研究如何将二维几何编码转化为更加紧凑的向量表达形式

Compact Representation
令M^{'} \in R^{H \times W}表示GroundTruth所对应的二进制腌膜,在二维空间中其大小由高/宽H,W决定。向量v\in R^N代表被压缩后的图像特征信息,并满足关系式N\ll H\cdot W。值得注意的是,在本方法中所有类别均采用二进制编码进行表征。具体而言,在这种情况下我们有:为了简化计算过程我们将腌膜展平为向量形式即u\in R^{HW}。为了实现这一目标我们需要设计一种准则以实现从原始图像到压缩特征之间的高效映射关系从而最大限度地减少图像重构误差与压缩特征之间的差异尽管现有研究已经证实许多传统方法如简单的线性投影都能够获得较好的效果但实验数据显示在特定场景下其表现依然令人满意。
其中v=Tu;\widetilde{u}=Wv其中变换矩阵T \in R^{N \times HW}负责将原始图像特征映射到低维空间而重建矩阵\widetilde{W}\in R^{HW\times N}则用于从低维空间重建出近似于原始数据的空间。
值得注意的是在整个学习过程中我们对原始图像数据进行了去均值化处理并在后续重建过程中应用了归一化操作以进一步提升模型性能。
为了使整个优化过程更具高效性我们在实验阶段采用了DUpsampling策略并结合主成分分析方法(PCA)来优化模型参数从而使得最终得到的结果不仅具有较高的准确性而且在计算效率上也得到了显著提升。
Mask Reconstruction
生成待预测样本的空间表征向量\widehat{v} \in R^N;二维腌膜M^{'}\in R^{H \times W}可被表示为上述公式的形式;在经过非极大值抑制处理后(仅保留分数最高的100个候选样本),我们采用了一种高效的运算方法;由此可知该矩阵乘法操作具有极低的时间复杂度
Loss Function
为便于阐述,我们首先定义一个掩码损失函数L_{mask}:
L_{mask} = 1^{obj}\sum_{i=1}^N d_{mask}(\widehat{y}_i, y_i)
其中指示函数1^{obj}用于标记正样本实例,在本研究中考察了几种不同的dmask(·,·)实现方式。具体而言包括L1损失、平滑L1损失、L2损失以及余弦相似度相关的代价度量方法。通过实验验证发现基于训练效果评估结果选择L2损失作为最优方案,并将该项损失因子加入总目标函数体系中。
总目标函数可表示为:
L = \lambda_{det} \cdot L_{det} + \lambda_{mask} \cdot L_{mask}
其中L_{det}代表检测相关的复合代价由分类误差、边界回归误差以及中心点偏差三项组成。
Correlation Between Boxes and Masks
通常,实例分割和对象检测在检测驱动的基线中是分不开的。凭直觉,更好的边界框可改善Mask分支的整体性能。在这里,作者进行了一些实验,以凭经验验证假设。
以Mask R-CNN 为例。 推理流程如下:1)使用骨干模块从输入图像中提取语义特征。 2)然后将提取的特征发送到以下模块进行分类和对象回归。 3)然后,掩模使用每个检测框的ROIAlign来计算特征。 4)最后,区域表示是按像素分割。 它仅预测二进制掩码。
在作者的实验中,由预训练的Mask-R-50-FPN模型。 被用作主要骨干网络。 上述过程中的步骤2被替换为由不同检测器预测的一系列检测结果,在这种情况下,除框外,所有变量均保持相同。在这里,我们选择具有不同主干的Mask R-CNN (两阶段)和FCOS(一阶段)作为对象检测器。
对于同一体系结构,当网络越深时,检测器将在掩码中带来一致且显着的增益。 但是,使用不同的基线时,实例分割的结果低于我们的预期。 与Mask R-CNN相比,FCOS在AP^{bb}指标下的所有骨干网中都实现了更好的检测性能,分别达到0.9%,2.8%和1.8%。 但是,相应的细分并未得到同等的改善,甚至表现更差(34.1%对34.2%)。 似乎违反直觉。
我们观察到,除AP^{bb}_{50}以外,FCOS在所有常规指标下的效果都更好,这表明FCOS预测的框位置准确,但假阳性(FP)较多。下图显示了不同模型预测的边界框的平均数量:

在相同的置信度阈值下,在相同置信度阈值下
Experiments
一些结果的可视化

COCO数据集上的结果对比

