Boundary-aware Instance Segmentation 阅读笔记
这篇论文提出了一种新的实例分割方法——边界感知实例分割网络(BAIS),旨在解决传统基于区域提议的方法在处理超出边界框范围的实例时的不足。作者通过引入基于距离变换的距离函数和密集多值图表示模型(OMN),能够更鲁棒地预测物体边界框外的部分。OMN通过反向距离转换将多值图转化为二值掩模,并与残差反卷积网络结合实现端到端学习。实验结果表明BAIS在PASCAL VOC 2012和Cityscapes数据集上均超越了现有方法,在多个IOU阈值下表现优异。该方法通过多任务网络级联结构实现了高效的语义分割和实例分割任务。
简介
该文采用了基于物体掩模的距离变换的方法进行研究。
该文提出了一种残差反卷积结构的OMN网络,在特征提取和二值掩模生成方面进行了创新性设计。
该方法突破传统区域提议框架的局限性,并对低精度区域提议表现出良好的适应性。
该文将OMN模块融入多任务学习框架中,并命名为边界感知实例分割网络(BAIS),实现了端到端的学习过程。
该方法在Cityscapes和PASCAL VOC2012数据集上的实例分割性能优于当时的最佳算法。
一、相关工作
实例分割不仅能够提取图像中的具体实例数量、位置信息,并且还能识别其所属类别及形状特征。该技术广泛应用于自动驾驶、个人机器人及植物分析等多个领域。常用实例分割方法:
(1)基于区域提议的方法
基于Fast-RCNN实现了提议框构建,并设计了一个多阶段管道系统用于提取特征、进行分类以及实现物体分割。该框架通过引入Hypercolumn技术并利用全卷积网络(FCN)对特定类别形状进行先验编码来改进性能。在第5部分中将区域提议网络(RPN)整合到多任务网络级联架构中执行语义分割任务。
这些方法都受到以下事实的影响:它们仅预测候选框内边界的二值掩模。
(2)避开区域提议的方法
PFN[7]基于对实例数量的预测,在每个像素处定位对应的类别标签及其边界框。
潜在的问题在于该方法的效果高度依赖于所预测的实例数量。
研究者们首先利用深度排序方法来识别不同实例的位置,在马尔科夫随机场框架下构建了一个深度密集连接模型。
针对上述局限性,
系统性地采用FCN架构来同时估计深度信息、语义标签以及各个实例的方向编码,
随后通过模式匹配算法生成具体的物体边界框。
在此基础上,
在后续的研究中提出了一个基于递归神经网络的新方法来进行图像分割,
然而该技术仍然存在假设所有检测到的对象属于同一类别的明显限制。
(3)类不可知的区域提议方法
在文献[12]的研究成果基础上提出了一种方法,在对实例分割提议进行FCN计算得到的一部分实例感知得分图的基础上构建了一个初步模型;通过将其纳入MNC体系后能够显著改善这一任务的表现
二、文章方法
该文提出了一种鲁棒性实例分割方法,并为此提出了一种基于密集多值图编码的物体形状建模方法。通过反向距离变换将多值图转换为二值掩模,并最终实现实例分割目标[13][14]。如图1所示给出了具体示例

由图1看出,文章方法实现的实例掩模可以超越边界框的局限。
该文章引入了一种名为OMN的物体掩模网络设计。该网络针对每个建议区域进行操作,在具体实现中分为两个主要步骤:首先对每个建议区域预测对应的像素级多值图,并通过解码将其转换为最终的二值掩膜;其中部分二值掩膜超出包围框范围。在处理距离信息时,则采用了将截断后的距离进行离散化处理,并通过二元向量进行编码的方式。为了实现对多目标检测任务的支持,在网络架构中增加了专门处理多目标场景的第一个模块——多概率图生成器;该模块能够输出多个独立的概率图层信息。随后将这些概率图输入到一个新的残差反卷积模块中进行融合处理;经过这一过程后得到最终结果——各目标实例的精确分割边界。值得注意的是,在这一反卷积模块的作用下;分割实例不会被提议框严格限制在固定范围内;这种设计使得OMN方法在实际应用中展现出更大的灵活性和适应性
针对实例分割问题,在文章中将OMN技术与多任务级联架构相结合[5]。通过将OMN模块取代传统的二值掩模预测组件,在该方案下构建了新型网络架构——边界感知实例分割网络(BAIS)。
三、边界感知分割预测
文章目的 是开发一种能够抵御提议框位置偏差影响的实例分割方法。为此,首先 我们致力于构建一种具备物体形状感知能力的对象遮挡表示方案,该方案的优势在于:基于距离转换机制,即使仅有局部信息仍能准确重构整体实例边界。接着,我们构建了一种深度学习架构,该架构通过端到端的方式生成适用于不同场景的掩模表示,其显著特点是可以超越初始提议框的空间范围,从而实现更为鲁棒的目标检测效果。
3.1边界感知掩模表示
为部分区域制定建议以目标获取整个物体掩模
随着窗口尺寸的变化以及实例形状的不同, 距离变换所得到的值具有较大的取值范围, 这种变化会导致形状表示的不稳定性, 同时也会使得OMN训练过程变得更加复杂. 为了适应这种情况, 我们需要对窗尺寸进行归一化处理, 并将距离转换值限制在一个合理范围内. 特别地, 符号Q代表的是实例边界像素与实例外部像素之间的关系. 对于归一化后的窗口中的每一个像素p, 我们需要计算其对应的截断距离D§. 公式如下:

d与p之间的欧氏距离由d(p,q)表示;向上取整函数\lceil x\rceil返回实数x的最小整数值;而R被定义为最大允许距离。在后续步骤中,我们采用D来表示密集区域。如图2所示左侧部分展示了该密集区域。

可见该方法相比传统的二值掩模(即明确是否属于感兴趣对象)提供了更为丰富和有效的表征信息。
该方法的优势主要体现在以下几点:
首先,在每个像素点处存储的信息不仅包含了物体边界的位置数据。
其次,在提出框出现偏差的情况下仍然能够有效避免空间遮挡的问题。
再次,在编码了各个像素点到目标边缘的距离信息后,
这种表征方式存在一定的冗余性,
从而在一定程度上降低了因 pixels 化引起的噪声干扰。
最后,
预测该表征的过程本质上是一个逐像素分类的任务,
利用深度神经网络能够有效地完成这一目标。
为了进一步推动这种标记任务的研究与应用,在该文中采用了将像素方向图中的数值划分为K个等距区间的策略。换而言之,在这一过程中,我们通过将像素p的截断距离编码为k维二值向量b(p)来进行描述和分析:

rn 代表第n个区间对应的间距值.通过采用one-hot编码方案,可以将原始的多值像素图像转换为多个独立的一维二进制特征向量.这种方法使得预测密集图的问题得以分解为多个独立的像素级分类子任务,而这些子任务通常可以通过深度学习模型高效解决.
基于上述k二进制像素图,在每个像素点上设置一个半径为D§的二值圆盘,并将其连接起来形成物体结构;随后通过这些圆盘的所有并集区域来确定目标掩码M. 其中,T(p,r)定义为在位置p处以r为半径绘制的一个二值圆盘;进而可计算得到目标掩码M=⋃T(p,r).

其中*表示卷积运算符,Bn是第n个bin的二进制像素值映射。
图1右侧最顶端的一行描述了文章所采用的行为表示方式;在顶部图像区域中,在每一个像素位置上都标注了对应于该实例边界框内的各个像素位置之间的截断距离。尽管这种方法未能完全覆盖整个对象,在这种情况下将该密集映射转化为二进制掩码处理后,则能生成清晰显示所有实例边界的真实掩膜。
3.2物体掩模网络
文章基于边界感知表示的方法对输入图像中的每个对象实例生成对应的掩膜,并构建了一个深度神经网络模型来处理这些数据。该模型能够针对每组边界框的建议区域预测K个边界的感知密集二元图,并利用公式3将这些预测结果解码为完整的对象掩模。通过RPN算法生成初始的候选区域,并对每一个候选区域应用ROI变形操作后将其传递给文章网络进行进一步处理。该网络主要由以下两个主要组成部分构成:第一部分负责特征提取和中间特征的计算;第二部分则用于目标检测和最终的输出生成。
模块一:接收形变区域-of-interest(ROI),并生成具有长度受限K二值掩模的编码。具体而言,在处理第n个掩模时,则通过带有sigmoid激活函数[链接]的全连接层来预测单像素级别的概率图。这个概率图会趋近于Bn。
模块2:残差反卷积网络(Residual Deconvolutional Network),接收一个概率图作为输入,并生成一个二值实例掩模作为输出。其理论基础在于:公式3可以被看作一系列具有固定权重但核尺寸和padding尺寸不同的反卷积操作的集合。如图2右侧所示。随后,在文章中通过一系列加权求和层并结合sigmoid激活函数来逼近联合算子。这些加权求和层中的权重是在训练过程中学习得到的参数。为了适应不同尺寸的反卷积滤波器,在每次加权求和之前对网络中较小rn值对应的反卷积输出进行上采样处理。为此,在论文中采用了固定的步幅值K来控制这一过程。OMN网络的输出结果可以直接与ground truth(GT)进行对比,并且由于其高分辨率特性,在计算交叉熵损失时表现优异。
四、学习实例分割
OMN生成二值实例掩模后,在后续步骤中需对输出结果进行语义分类处理以获得最终的实例分割图。通过这一过程我们成功构建了基于边界感知的实例分割网络(BAIS)。将OMN与多任务学习框架MNC相结合以提升整体性能。该网络支持端到端的训练流程并展现出良好的收敛特性。
4.1 BAIS网络
BAIS网络架构与MNC架构具有相似性,在设计上采用了三个子网络的组合模式。每个子网络分别负责生成边界框建议、预测实例掩模并执行分类任务。具体而言:
- 第一模块采用深度神经网络架构(实践应用中选用VGG16模型[15]),从输入图像中提取关键特征;
- 随后通过RPN[16]获得候选区域;
- 经由ROI变换处理后输出OMN网络生成分割掩模特征;
- 最终将该特征传递至第三个子网络进行分类处理,
- 该子网包含一个全连接层用于分类识别以及一个边界框回归模块以优化检测结果。
如初始MNC架构的设计方案相似,
图3详细展示了本文所提出的BAIS架构框架。

多阶段边界感知分割网络
参考文献[5]所提出的方法在此基础上扩展了BAIS网络的核心思路是根据OMN模块输出结果进一步优化初始边界框建议从而提升分割精度。如图3所示整个网络架构由五个主要组件构成:首先是VGG16卷积层用于特征提取随后通过RPN(区域建议网络)生成候选目标框接着利用OMN(环状注意力模块)对初步边界框进行精细调整形成分类模块并完成边界框预测任务。在此过程中第三阶段所得出的目标框平移信息被用于校正初始识别结果这些修正后的框经RoI变换(区域响应变换)处理后作为第四阶段输入进而激活第二个OMN模块以进一步增强目标检测能力最终将第五阶段输出与经过精细调整的目标框结合实现精确分类任务。整个级联架构共共享两个OMN模块和两个独立的分类器以最大化模型性能提升效果
4.2网络学习和推测
与传统的多任务级联网络不同的是
随后由RPN模块生成300个候选区域
从而实现更高质量的对象分割效果
五、实验结果
实验证明了文章方法在实例分割和分割提议生成上的有效性。
5.1实例分割
Results on VOC 2012
与基线模型的对比如下表1:

从表格中倒数第二行的数据可以看出,在扩大mask的作用范围至超出提议框的区域时,该方法表现出良好的提升效果。
同样,文章还试验了MNC结构的stage数目对性能的影响。

观察到该文章所采用的方法不仅能够通过3stages实现与MNC相当的性能。



图4给出在Cityscapes上的示例:

下图5给出了一些失败案例 ,可以看到主要由于实例的遮挡支离造成。

5.2分割提议生成
本节展示了OMN在实例mask生成任务上的卓越性能。当文章mask扩展至边界框外时,默认基于框界的RPN响应值不再适用。为此目的,在此基础上作者开发了一个新的评分机制。在此过程中,默认基于框界的RPN响应值不再适用的情况下,在此基础上作者开发了一个新的评分机制以解决这一问题。进一步地,在这一框架下作者又设计了一种针对MNC建议集的专用评估方法以解决这一问题,并将该基准方案命名为MNC+Score模型作为其评价基准


局限性:根据表6的结果显示,在生产1
从图6可以看出,在一千个候选区域内进行测试,并且对于较高的IOU阈值而言,在这种情况下仍能表现出优异的效果。
六、结论
在研究中引入了一种基于改进的距离变换算法设计的创新性掩模表示方法,在该方法的基础上能够预测超出初始边界框限制范围内的复杂实例分割结果。随后阐述了如何通过设计一种完全可微分的对象掩码网络架构(OMN),实现对这种创新性掩模表示的有效推断与解码过程。其中所设计的对象掩码网络架构采用了残差-反卷积体系结构作为基础,并在此基础上进行了优化与改进以提升性能表现。进而利用该OMN构建了边界感知实例分割(BAIS)网络模型,并通过系统性的实验验证表明,在Pascal VOC 2012和Cityscapes数据集上进行实验后发现所提出的BAIS模型在性能上显著优于现有的所有实例级语义分割算法版本。展望未来的研究工作将致力于进一步优化现有模型架构设计,在后续的研究中拟采用更为深层的深度学习框架(如基于残差神经元的新架构设计)替代目前所使用的VGG16传统卷积神经元架构以期获得更高的分类识别精度与模型性能表现。
七、参考论文
[1]B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Simul- taneous detection and segmentation. In ECCV, 2014. 1, 2, 5, 6, 7
[2]R. Girshick. Fast r-cnn. In ICCV, 2015. 2, 5
[3]B.Hariharan,P.Arbela ́ez,R.Girshick,andJ.Malik.Hyper- columns for object segmentation and fine-grained localiza- tion. In CVPR, 2015. 2, 5, 6
[4]K. Li, B. Hariharan, and J. Malik. Iterative instance segmen- tation. In CVPR, 2016. 1, 2
[5]J. Dai, K. He, and J. Sun. Instance-aware semantic segmen- tation via multi-task network cascades. In CVPR, 2016. 1, 2, 3, 4, 5, 6, 7
[6]S.Ren,K.He,R.Girshick,andJ.Sun.Fasterr-cnn:Towards real-time object detection with region proposal networks. In NIPS, 2015. 2, 4, 5
[7]X. Liang, Y. Wei, X. Shen, J. Yang, L. Lin, and S. Yan. Proposal-free network for instance-level object segmenta- tion. CoRR, abs/1509.02636, 2015. 2, 6
[8]Z.Zhang,A.Schwing,S.Fidler,andR.Urtasun.Monocular object instance segmentation and depth ordering with cnns. In ICCV, 2015. 2
[9]Z.Zhang,S.Fidler,andR.Urtasun.Instance-LevelSegmen- tation with Deep Densely Connected MRFs. In CVPR, 2016. 1, 2
[10]J. Uhrig, M. Cordts, U. Franke, and T. Brox. Pixel-level encoding and depth layering for instance-level semantic la- beling. In GCPR, 2016. 2, 6
[11]B. Romera-Paredes and P. H. S. Torr. Recurrent instance segmentation. In ECCV, 2016. 2
[12]J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 1, 2, 5, 6, 7
[13]G. Borgefors. Distance transformations in digital images. Computer vision, graphics and image processing, 1986. 1, 3
[14]B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Simul- taneous detection and segmentation. In ECCV, 2014. 1, 2, 5, 6, 7
[15]K. Simonyan and A. Zisserman. Very deep convolu- tional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 4
[16]S.Ren,K.He,R.Girshick,andJ.Sun.Fasterr-cnn:Towards real-time object detection with region proposal networks. In NIPS, 2015. 2, 4, 5
