Advertisement

【目标检测】【PANet】Path Aggregation Network for Instance Segmentation

阅读量:

实例分割的路径聚合网络

在这里插入图片描述

0.论文摘要

传递机制在神经网络中的作用至关重要。本文提出了一种名为PANet的新架构,旨在增强基于提议的实例分割框架中的信息流动。具体而言,在较低层中引入了一种自顶向下的路径优化策略,并整合高精度的位置编码信号以缩短低层与高层之间的信息传递距离。为了实现这一目标,在每个层级中构建了一个自适应特征池化模块以建立起各层级特征间的相互关联机制。此外,在每个提议子网络层面引入了一个互补分支结构来捕捉不同视角的信息特性。这些改进措施不仅操作简单且计算开销微小,在多个评估指标上均取得了显著成绩:我们在COCO 2017实例分割挑战赛中取得了第一的成绩,在目标检测领域排名第二;同时在MVD和Cityscapes数据集上也达到了当前最先进的水平。

1.引言

实例分割 task 是一项极端重要的且极具挑战性的核心任务。该 task 的目标在于通过预测类别标签与像素级别的实例遮挡图来定位每张图像中不同数量的对象实例。此 task 在自动驾驶技术、机器人研究以及视频监控等多个领域都展现出广泛的应用价值。

在深度卷积神经网络的支持下,我们成功开发了多个实例分割框架,并参考了相关研究工作[21, 33, 3, 38]。这些方法在性能方面取得了显著提升[12]。Mask R-CNN [21] 是一种简洁且功能完善的实例分割系统。基于Fast/R-CNN [16, 51] 的改进版本,在进行掩膜预测的同时实现了边界框回归与分类任务;为了实现高效的语义分割目标,在特征提取过程中巧妙地引入了特征金字塔网络(FPN)[35];该结构通过自顶向下的增强连接层能够有效传播具有语义重要性的特征信息

最近发布的几个新数据集[37, 7, 45]为新算法的构建提供了便利条件。其中COCO [37]包含了大约20万幅图像,在每幅图像中都能捕捉到具有复杂空间布局的多个实例。相比之下,Cityscapes [7]和MVD [45]则专注于提供城市街道场景,在每张图像中包含了大量交通参与者。值得注意的是,在这些数据集中出现了模糊、严重遮挡以及极小尺寸的对象。

在图像分类中设计网络的方法同样适用于目标识别任务。例如,在这一领域中采用简洁而高效的残差连接(参考文献[23, 24])与密集连接(参考文献[26])能够有效地缩短信息传输路径并促进信息流动。另外一种创新性方法是采用分割-变换-合并策略(参考文献[61, 6]),这种方法构建了多条并行传输通道以提高信息处理效率

我们研究发现当前最先进的Mask R-CNN模型在信息传播方面仍存在优化空间具体而言在识别大尺寸实例时低层特征具有辅助作用然而从低层结构到顶层特征的道路较为漫长这加大了精确定位信息获取的难度此外每个候选框的位置预测均基于自某一特定层级池化所得出的特征网格而该层级的选择采用了启发式分配策略由于在某些层级中被丢弃的信息可能对最终预测结果产生积极影响因此这一流程仍有改进空间最后掩码分割仅依赖于单一视角因此错过了整合更多元化的信息的可能性

基于这些原则和观察,我们提出了PANet,如图1所示,用于实例分割。

在这里插入图片描述

图1展示了我们框架的整体架构设计。(a) 首要组件是FPN骨干网络模块。(b) 其次是自底向上的路径增强机制。(c) 第三部分采用了自适应特征池化模块。(d) 第四部分为边界框分支网络。(e) 最后是全连接融合层。值得注意的是,在(a)和(b)中为了简化起见,在图1(a)和(b)中省略了特征图的通道信息。

为此

其次,在恢复每个提案与其所对应的所有特征层级之间的断裂信息路径方面(Objective),我们开发了一个自适应特征聚合组件(Component)。该组件的作用是将来自各个特征层级的信息整合到每个提案中(Function),从而避免随意分配结果(Goal)。通过这一机制(Methodology),相较于现有研究[4, 62]中的方法(Approach),我们得以构建出更为清晰的信息传输路径(Path)。

在研究过程中, 为了全面捕捉各候选方案的独特特性, 我们引入少量微小全连接(fc)层以提升掩码预测能力; 这些层与Mask R-CNN最初采用的FCN设计相辅相成; 通过融合两个维度的预测结果, 我们带来了信息多样性, 最终使得所生成的mask质量更高

前两个组件在目标检测与实例分割任务中共用模块设计,并显著提高了该模块在这些任务中的性能表现。

借助PANet技术,在多个基准数据集上达到了当前最先进水平。基于ResNet-50 [23]作为基础网络构建,我们的PANet在单尺度测试场景中,在目标检测与实例分割两个方面超越了COCO 2016年的挑战赛冠军。需要注意的是这些先前的表现是基于更大规模模型 [23, 58]结合多尺度变换和平移反转测试优化得到的。

我们在COCO 2017挑战赛中成功解决了实例分割问题并 ranking第一,在目标检测领域也取得了亚军的好成绩;此外我们还无需依赖大量数据就能实现高效的性能表现;通过对Cityscapes以及MVD两个公开数据集上的系统评估结果均表现优异;这些测试结果充分展现了其在实际应用中的高效性与实用性;所有代码及模型均已开源供研究人员参考

2.相关工作

实例分割

实例分割方法主要可分为两大类

另一类方法主要依赖于分割技术,并通过学习专门设计的变换(如[3, 33, 38, 59])或实例边界(如[30])来处理数据。这些方法能够从预测的变换中解码出对应的实例掩码,并在这一过程中展现出一定的有效性。然而,在这一流程中也面临着类似的实例分割挑战。DIN[2]系统成功地将目标检测与语义分割系统的预测结果进行了融合,并进一步优化了整体性能。此外,在文献[66, 65]的研究中,则采用了图模型来推断实例之间的顺序关系;而在文献[53, 50]中,则利用RNN模型在每一步迭代过程中动态提出一个潜在的实例候选体。

多层级特征

在图像识别任务中,研究者采用了多层特征进行融合。SharpMask团队[49]、Peng及其合著者[47]和LRR研究组[14]通过融合不同层级的特征图实现了更细致的分割结果。FCN网络[44]、U-Net架构[54]以及Noh团队[46]通过跳跃连接机制整合了各层信息以提升分割质量。TDM架构[56]与FPN框架[35]均采用了横向连接策略以增强目标检测性能;其中TDM方法特别采用最高分辨率的融合特征图来进行全局池化操作以增强目标检测能力;而SSD框架[42][13][5][35]则基于建议检测机制分别在不同特征层上进行推理处理以提高检测精度。基于FPN框架的基础上我们对其进行了显著性能提升

ION [4]等研究者[62]以及Hypernet[31]和Hypercolumn[19]通过融合不同层级的特征网格以提高预测性能。为了生成有效的新型特征,需要执行一系列操作步骤,包括归一化处理、特征融合以及降维处理等环节。与之相比,我们所采用的设计方案更加简洁明了

在文献[52]中同样采用了一种基于多源特征网格融合的技术。然而,在处理多尺度输入时,则会先提取每一步骤对应的特征图,并通过最大操作进行融合来优化其效果。其主要目标在于优化从输入图像金字塔的不同层级中选择最优特征。相比之下,在单尺度输入场景下进行端到端学习的同时,并充分挖掘网络内部各层次之间的关系以实现更加全面的信息整合与训练效果提升

更大的上下文区域

基于编号序列[15, 64, 62]的方法采用了中心凹结构来池化每个提案的特征,并旨在整合来自不同分辨率区域的上下文信息。为了使较大的区域被池化的特征能够提供周围环境的具体上下文信息,PSPNet[67]和ParseNet[43]采用了基于全局池化的策略;该策略显著提升了语义分割性能;同样地,Peng等人[47]也发现了类似的规律性;值得注意的是,PSPNets还采用了基于全局卷积的操作;然而,在本研究中,我们发现了一个新的路径:我们的掩码预测分支不仅能够有效访问全局信息,而且所采用的技术与现有方法完全不同

3.框架

我们的框架的架构示意图如图1所示。通过加强路径连接并进行信息融合的方式优化网络性能。通过强化自顶向下的连接使得低层特征能够更有效地传播到高层以便于更高层次特征的提取与融合。为了提高模型鲁棒性我们提出了自适应级联池化模块允许网络中的每个候选单元都能够整合多层空间中的关键信息用于预测任务。在此基础上引入了一个互补级联分支进一步提升了模型的表达能力从而实现了更好的分类效果与回归精度比现有方法更为优越值得注意的是此改进方案并未受特定CNN架构(例如[57, 32, 23])的影响

在这里插入图片描述

图1展示了我们所提出的框架示意图。其中:(a)为该框架的核心主干模块;(b)-(e)分别对应不同功能模块的具体实现方式;请注意,在图1(a)-(b)中省略了特征图的通道维度信息以简化说明

3.1 自底向上路径增强

研究 [63] 开发的核心观点表明,在卷积神经网络(CNN)的设计过程中,默认采用自顶向下信息传递的方式可能导致某些深层区域无法有效学习到全局语义信息。相比于此,在低层区域的神经元更倾向于通过局部纹理特征和模式识别进行激活。这种差异性使得单纯依赖自顶向下的信息传递机制已无法满足深度模型对复杂目标物体表征的需求。为此,在FPN(Feature Pyramid Network)架构中引入自上而下的信息传递机制不仅能够有效补充各层节点缺乏的关键信息点,并且有助于提升各分支模块间的协同作用效率

我们的框架依赖于基于低层模式的强响应传播机制,从而显著提升了整个特征层次结构的空间定位能力.由于边缘或实例区域表现出的高度响应特性能够有效支持准确定位实例.为了实现这一目标,我们设计并实施了一种干净而高效的横向连接路径.其结果是一条简洁明了的捷径线路(如图1所示为绿色虚线).与之相比,在传统的FPN架构中(如图1所示),红色虚线表示的是CNN主干网络所遵循的一条较长路径.)

我们的框架通过自底向上的方式实现了路径增强。基于FPN的定义,在同一网络阶段内具有相同空间尺寸且属于同一网络阶段的所有特征图层被归为一组。每个特征层级对应一个阶段,并基于ResNet [23]作为基础结构使用\{P_2, P_3, P_4, P_5\}表示由FPN生成的不同层级特征图。增强路径从最低级特征层级P2开始逐步推进至P5层次,在此过程中空间分辨率通过每隔一层减少一半的方式递减。与之对应的各新生成特征图分别用\{N_2, N_3, N_4, N_5\}表示,并特别指出的是N_2即原始P_2未经过任何额外处理

在这里插入图片描述

图2. 自底向上路径增强构建模块的示意图。

3.2 自适应特征池化

在FPN [35]框架中所设计的方案依据大小将元素分派至不同的层次结构。这样安排后的小元素会被置于较低层次的位置上而较大的元素则会占据较高层次的空间。虽然这种安排方式简洁明了且具有良好的效果但在某些情况下可能导致结果并非最佳选择。举个例子两个仅相差10像素的小元素可能会分布在不同的层次结构中然而它们之间的相似度却依然很高

此外

我们研究自适应特征池化如何从多层级汇总特征的比例。采用最大值操作融合来自各层次的不同特征从而使网络能够逐元素筛选出有用的信息。基于FPN中原始分配的层级信息将提案划分为四类对于每组提案计算其来自于不同层次的选择比例在表示系统中层号1至4代表由浅入深的不同层次

如图3所示,在FPN中最初被分配到第1层的小型候选区域以蓝线表示令人人大跌 surprise的是约70%的特征来自其他更高层级我们还以黄线表示在FPN中被分配到第4层的大型候选区域同样超过一半的特征是从其他更低层级池化而来的这一观察结果凸显出多个层级特征的共同作用对模型性能提升具有重要意义这也为自底向上的路径增强提供了有力支持

在这里插入图片描述

基于自适应特征融合技术(FPN),从不同层次(F-1, F-2, \ldots, F-n)提取并融合图像的不同空间尺度特性。每条线分别对应一组在同一层(F-l)中的建议框。这些建议框均具有相近尺寸。横坐标表示所使用的基元滤波器数量。观察结果表明,在各个层(F-l, F-l+1, \ldots, F-h)中的基元滤波器数量与整体图像分辨率呈正相关关系。

自适应特征池化结构在实现上显得非常简单,并且可以通过图1(b)来直观展示这一过程。具体而言,在每个候选区域中进行映射时会生成多个对应的特征层。参考Mask R-CNN [21]的研究成果,在各个层级提取池化后的特征网格,并通过使用ROIAlign方法从各个层级提取池化后的特征网格。之后通过融合操作(取逐元素最大值或求和)整合来自不同层次的特征网格信息以完成最终的融合过程

在这些子网络中,经过参数化处理的特征网格依次通过相应的融合操作以实现对特征的有效捕捉。例如,在FPN的边界框分支中设置了两个全连接层,并在此之后进行了融合操作。因为Mask R-CNN中的掩码预测分支采用了四个连续的卷积层结构,所以我们在第一层与第二层卷积模块之间插入了融合操作以促进信息的有效传递。消融实验的结果将在第4.2节中进行详细说明。融合后的特征网格经过进一步处理以实现多个目标的联合预测任务:包括分类、边界框回归以及掩码预测功能的集成应用。

我们的开发目标是整合网络内部各层次特征信息而非直接从输入图像金字塔的不同特征图中提取信息,并参考文献[52]. 相较于现有研究中的相关方法而言, 本方案更加简洁. 具体而言,在实现过程中需要执行以下步骤: 首先进行L²归一化处理; 接着将各模块输出进行拼接; 最终完成降维操作.

3.3 全连接融合

该研究证实,在实例分割任务中,
全连接网络或深度前馈神经网络(MLP)
通过其掩膜预测功能[10, 41, 34]
以及掩膜建议生成机制[48, 49]
展现出显著的应用效果。
研究表明,
基于卷积神经网络(CNN)
的方法同样能够在像素级掩膜预测方面取得优异结果。
近来,
Mask R-CNN [21]
通过在特征图池化后空间上部署一个小型FCN模块
实现了相关掩膜信息的高效提取,
从而有效降低了类别间的竞争风险。

经研究发现全连接层(fc layers)相较于全卷积网络(FCN)具有显著的不同之处。值得注意的是后者依据局部感受窗口在每个像素处进行预测,并且参数在不同空间位置共享。相反地全连接层对位置敏感度高这是因为不同空间位置的预测涉及不同的参数集从而使其能够适应不同的空间位置。此外每个空间位置的预测依赖于整个提案提供的全局信息这有助于区分实例[48]并识别属于同一对象的不同部分鉴于此我们可以融合这两种层的结果以获得更好的掩码预测

该掩码预测架构采用了简洁而高效的组件设计。负责处理每个建议池化特征网格的支路能够精准定位关键区域信息。如图4所示,在主支路中嵌入了一个小型全连接网络(FCN),其由四个连续的空间滤波器加上一个反向滤波器构成。每层均采用256个大小为3×3的标准滤波器,并通过反向传播机制使特征图尺寸放大两倍。该系统能够分别对各个类别生成二值像素级别的遮罩,并以此实现了分割与分类任务的有效分离,类似于现有的Mask R-CNN架构。此外,在conv3之后我们还设计了一条通往全连接层的捷径路径,并在此基础上附加了一个小型数据预处理模块来优化计算资源消耗。

一个全连接层被用于生成类别无关的前景/背景掩码。该层不仅具有高效的性能,并且其参数能够基于更多样本进行训练以增强学习效果。我们所采用的掩码尺寸为28×28,在此基础下该层生成一个784×1×1的空间向量。该向量经过重新构型后将匹配FCN输出的一致空间尺寸。为了获得最终完整的掩码预测结果,则需将FCN中每个类别对应的掩码与该全连接层计算出的前景/背景预测结果相加以实现。在最终预测过程中仅使用单个全连接层而非多层结构以避免压缩隐藏的空间特征图至短特征向量的问题,并以此保留完整的空间信息

4.实验

我们对具有挑战性的COCO[37]、Cityscapes[7]以及MVD[45]等公开数据集上的实验结果进行了系统对比分析,在所有测试用例中表现优异。我们不仅完成了对现有方法的有效性验证,在COCO基准测试中还实现了突破性进展,在2017年的实例分割与物体检测领域展示了卓越性能。我们针对COCO数据集展开了深入消融实验,并分别评估了其在实例分割与物体检测方面的性能指标。

4.1 实现细节

我们基于Caffe [29]重新实现了Mask R-CNN和FPN。实验中使用的所有预训练模型均为公开可用。我们采用以图像为中心的训练方法 [16]。对于每张图像,我们采样512个感兴趣区域(ROIs),正负样本比例为1:3。权重衰减为0.0001,动量设置为0.9。其他超参数根据数据集略有不同,我们将在各自的实验中详细说明。遵循Mask R-CNN的做法,为了便于消融实验和公平比较,候选区域来自独立训练的RPN [35, 51],即骨干网络不与目标检测和实例分割共享。

4.2 COCO上的实验

COCO [37] 数据集基于数据的复杂性而闻名,在实例分割与目标检测领域堪称最具有挑战性的公开数据集之一。该集合由总计115,000张训练图片与5,000张验证图片组成(依据2017年的划分标准)。其中约有2万图片用于测试开发(test-dev),另约有2万图片用于测试挑战(test-challenge)。值得注意的是这些测试集合的真实标签均未正式发布以便于第三方研究者进行评估与比较其模型性能。该数据集合涵盖了80个不同的类别并在每个类别中提供了像素级别的实例掩膜标注信息为此我们选择使用train-2017子集作为模型训练基准并在val-2017子集中进行了系统消融实验并详细记录了所有结果表现指标随后我们还将测试开发集合上的评估结果作为参考以确保研究的一致性与可比性

我们采用了评估指标集合...作为量化标准,在该集合中包括...等五个关键指标。其中最后三个指标主要关注不同尺度目标的表现度量能力。基于其适用性于实例分割与物体检测这一特性基础之上,在现有框架基础上我们独立开发并进行了相应的优化工作以支持单独进行物体检测器的研究与应用。在此过程中我们不仅单独报告了独立训练下的物目标检测器对应的掩膜精度值以及框精度值...还详细记录了通过多任务学习方法开发出的对象检测分支所取得的具体性能参数表现数据

超参数设置方面,在每一次的批量处理中均采用批量大小为16的策略。除非另有特别说明,默认情况下设定图像短边长度为80厘米、长边长度为1米(此处单位已省略)。在实例分割任务中,则采用了学习率为千分之二的学习策略,并进行了总计十二万次迭代的优化;随后切换至万分之二的学习率继续优化四万次迭代。针对目标检测任务而言,则采用了无目标分割分支的设计方案;具体而言,在初始阶段是以学习率为千分之二进行六万次迭代的优化;待模型性能达到一定程度后则进一步降低学习率为万分之二并继续优化两万次。

实例分割实验结果展示

在这里插入图片描述

与该知名目标检测框架相似的技术方案下

在这里插入图片描述

在深入探讨各个组件的重要性时

我们的消融研究从基线模型开始,在验证集的一部分上展开测试,并记录结果于表3中。ResNet-50 [23] 作为初始模型,在后续实验中作为基础架构使用。我们采用mask-based AP、独立训练的目标检测器在该指标上的表现(mAP)、以及其目标检测器在多任务场景下的表现(mAP_Multitask)的方法来评估性能

在这里插入图片描述

表3展示了独立训练的目标检测器在val-2017数据集上的性能评估结果。具体而言,在掩码AP(AP)、边界框AP(APbb)以及多任务训练方式下的边界框分支AP(APbbM)方面取得了显著表现。通过基于重新实现的基线模型(RBL),我们系统性地引入了多尺度训练(MST)、多GPU同步批归一化(MBN)、自底向上路径增强(BPA)、自适应特征池化(AFP)、全连接融合(FF)以及强化头部结构设计等系列优化措施进行消融实验研究。其中,MRB为原始论文报告的Mask R-CNN基准指标。实验结果显示,在保持原有性能基础上实现了显著提升效果

1 我们进行了基线模型的重新实现
2 采用多尺度训练及多GPU同步BN技术有助于网络性能优化
3 自底向上的路径增强技术在使用或不使用自适应特征池化时均能显著提升掩码AP(超过0 6)及边界框APbb(超过0 9) 尤其是对大实例的表现更为突出 这也体现了低层特征信息传递的有效性
4 自适应特征池化技术在所有尺度上均能有效提升性能 这一发现与我们之前的观察一致 即其他层的特征同样在最终预测中起到重要作用
5 全连接融合技术能够生成质量更高的掩码 并使掩码AP提升了0 7这一改进适用于所有尺度实例
6 更重的头部技术在以多任务方式进行边界框训练时表现出色 对独立目标检测器及其评估指标的影响则相对较小

在PANet系统中整合了多个关键组件,在掩膜AP指标上较基准模型实现了显著提升。独立训练的目标检测器基于边界框评估(APbb)取得了进步,并且整体表现明显优于基准模型,在中小尺寸实例上贡献尤为突出。其中一部分得益于多尺度优化策略与批量归一化技术的有效结合。

自适应特征池化的消融机制旨在探讨融合操作的类型及位置关系。我们将该融合模块放置于 ROIAlign 和 fc1 之间,并命名为 fu.fc1fc2;同时也可以放置于 fc1 和 fc2 之间,并命名为 fc1fu.fc2(如表4所示)。此外,在掩码预测分支中也采用了该方法。针对特征融合方式的不同选择进行了测试分析。

在这里插入图片描述

实验结果显示,在val-2017数据集上探究自适应特征池化在该领域的消融效果。具体而言,实验数据显示通过独立训练的目标检测器评估所得的掩膜平均精度(mAP)和框平均精度(mAPbb)作为主要指标。

如图4所示,在本研究中所提出的自适应特征池化机制对不同类型的融合操作并不敏感。然而,在实际应用中发现使得参数层能够根据输入数据的层次特性自动调整其感知范围相比而言这种机制在提升模型性能方面具有显著优势因此在我们设计的系统架构中采用了最大值融合模块作为基础组件

在全连接结构融合消融机制的研究中, 我们致力于探索如何通过增强后全连接分支的不同实例化处理来提升模型性能. 为此, 我们重点考察以下几点: 一是新分支起始层的设计方案; 二是不同预测结果之间的融合机制. 在不同的卷积层次中(如第2、第3及第4层)设计新的支路, 并对这些支路与主网络的信息整合方式进行测试. 以上述优化后的自顶向下增强策略为基础, 我们对各支路间的特征关系进行了深入分析. 具体实验结果展示于表5中, 其中, 在 conv3 层开始构建信息整合通路, 并采用求和运算的方式进行特征聚合时取得了最优性能.

在这里插入图片描述

本研究采用PANet模型参与了COCO 2017年中的实例分割及物体检测挑战赛。在无需大规模训练数据的情况下,本框架成功获得实例分割第一名及物证检测亚军位置,相较于上届冠军,本研究团队实现了较上届在实例分割方面的绝对进步(9.1%)及相对进步(24%).而在物证检测领域也实现了一个绝对进步(9.4%)及相对进步(23%).

在这里插入图片描述
在这里插入图片描述

以实现最佳性能为目标,在进行实验设计时需要注意一些细节问题。首先,在网络架构方面我们采用了可变形卷积机制(DCN)[11];此外还应用了常规的数据增强技术[23, 33, 10, 15, 39, 62]等基础处理手段。其中包含多尺度测试、水平翻转测试、掩码投票及框投票等具体实施方法。在多尺度测试环节中我们将长边设定为1,400像素,并从600到1,200像素设置多个采样点步长为200像素仅选取其中四个主要尺度进行计算。其次我们选择了更大规模的预训练模型作为基础组件采用了三个ResNeXt-101 (64×4d) [61]两个SE-ResNeXt-101 (32×4d) [25]一个ResNet-269 [64]以及一个SENet [25]组成的集成模块用于生成边界框与掩码数据由于不同规模模型之间的性能差异较小我们选择统一使用一个基础ResNeXt-101 (64×4d)架构来生成候选区域并结合多次实验结果来提升预测精度以减少计算开销并采用无平衡采样策略来增强模型鲁棒性最终通过精炼实例掩膜进一步优化检测结果

4.3 Cityscapes上的实验

Cityscapes [7] 数据集涵盖了由车载摄像头捕获的城市街景图景。该数据集总共包含约四五千幅图片,其中包括约三万幅用于训练的数据样本、五千幅作为验证用例以及一万五千幅用于测试的数据集。除了上述正式标注的数据外,在数据集中另有约两万幅图片仅进行了粗略注释,并未用于正式的模型训练阶段。在评估模型性能时,我们主要关注的是在验证集中以及独立的秘密测试子集中对模型行为的表现情况。此外,在这些数据中还包含了八种不同的语义类别,并且每个类别都配有实例掩膜注释。每幅图片的分辨率均为1024 × 2048像素,并且我们采用了AP指标以及AP50指标来评估模型的表现效果。

为了保证公平性比较,在本研究中我们将实验设置与Mask R-CNN [21]完全一致,并采用了以下具体措施:首先,在训练阶段随机选取尺寸为800或1024的图片进行处理;而在推理阶段则统一采用固定短边长度为1024的图片作为输入。主要采用了以下措施:未引入任何测试优化手段或深度卷积神经网络(DCN)相关技术。随后分别采用学习率分别为3\times 1e^{-3}3\times 1e^{-4}的策略进行连续训练——前者用于前18, ousand次迭代过程中的参数优化工作;后者则持续进行后续6 thousand次迭代以进一步提升模型性能水平。此外,在数据加载过程中我们实现了并行化处理机制——即每批处理8张图片,并将每批图片分配到同一台GPU上完成计算任务以减少整体运行时间消耗——这使得整个实验过程既高效又具有良好的可扩展性特征表现出来

我们对表8中的测试子集上的最新技术进行了对比分析,在"仅精细"数据集上进行微调时,我们的方法较单独采用"仅精细"数据版本的Mask R-CNN提升了5.6个百分点,并达到了基于COCO预训练版本的表现水平。经基于COCO的数据预训练后,在相同实验条件下相比未经预训练的基础模型(即Mask R-CNN),我们实现了显著提升

在这里插入图片描述
在这里插入图片描述

在表9中展示了验证集中一部分样本的去噪效果。通过重新构建基础模型框架,并引入多GPU同步批归一化机制的应用场景设计,在实验中发现该方法能够显著提升训练效率。具体而言,在准确率这一关键指标上实现了数值上的提升。具体而言,在准确率这一关键指标上实现了数值上的进一步优化。

在这里插入图片描述

4.4 MVD上的实验

MVD [45] 是一个相对较新的大规模实例分割数据集。它提供了25,000张街景图像,包含37个语义类别的精细实例级标注。这些图像使用不同设备在多个国家拍摄,内容和分辨率差异很大。我们在训练子集上以ResNet-50为初始模型进行训练,并在验证和秘密测试子集上以AP和AP50为指标报告性能。我们在表10中展示了我们的结果。与UCenter [40]——LSUN 2017实例分割挑战赛该数据集的冠军相比,我们的PANet在单尺度图像上测试时,仅使用一个ResNet50,其表现已经与在COCO上预训练的集成结果相当。通过多尺度和水平翻转测试(UCenter也采用了这些方法),我们的方法表现更优。定性结果如图5所示。

在这里插入图片描述

5.结论

本研究提出了一种名为PANet的新方法用于实例分割。通过整合多种基础模块组成一套完整的系统。首先,在各个特征层次上进行全局聚合操作;其次,在不同层次之间建立直接连接。这样不仅能够充分捕捉各层间的深层关联性还能有效提升网络性能并缩短底层与顶层之间的距离从而实现了信息的有效传递。此外为了进一步增强模型的表现性我们在网络中增加了互补路径这一关键组件从而使得每个分支都能更好地提取并融合多尺度的空间语义信息进而丰富了最终的分割结果。实验结果表明该方法在性能方面表现优异未来的研究工作将进一步将此技术扩展至视频序列以及深度图像数据(RGBD)等场景中去探索其更广泛的适用性

6.引用文献

  • [1] P. Arbela ́ez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 2
  • [2] A. Arnab and P. H. Torr. Pixelwise instance segmentation with a dynamically instantiated network. In CVPR, 2017. 2
  • [3] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017. 1, 2
  • [4] S. Bell, C. L. Zitnick, K. Bala, and R. B. Girshick. Insideoutside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 2, 4
  • [5] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, 2016. 1, 2
  • [6] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. arXiv:1707.01629, 2017. 1
  • [7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 1, 5, 7
  • [8] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 2, 4
  • [9] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2
  • [10] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. CVPR, 2016. 2, 4, 5, 7
  • [11] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. In ICCV, 2017. 7
  • [12] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (VOC) challenge. IJCV, 2010. 1
  • [13] C. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg. DSSD : Deconvolutional single shot detector. arXiv:1701.06659, 2017. 1, 2
  • [14] G. Ghiasi and C. C. Fowlkes. Laplacian reconstruction and refinement for semantic segmentation. In ECCV, 2016. 1, 2
  • [15] S. Gidaris and N. Komodakis. Object detection via a multiregion and semantic segmentation-aware CNN model. In ICCV, 2015. 3, 5, 7
  • [16] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 5
  • [17] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 2
  • [18] B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014. 2
  • [19] B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization. In CVPR, 2015. 2
  • [20] Z. Hayder, X. He, and M. Salzmann. Boundary-aware instance segmentation. In CVPR, 2017. 2
  • [21] K. He, G. Gkioxari, P. Doll ́ar, and R. B. Girshick. Mask R-CNN. In ICCV, 2017. 1, 2, 4, 5, 6, 7, 8
  • [22] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. PAMI, 2015. 2 [23] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 1, 2, 3, 5, 6, 7
  • [24] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In ECCV, 2016. 1
  • [25] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv:1709.01507, 2017. 7
  • [26] G. Huang, Z. Liu, and K. Q. Weinberger. Densely connected convolutional networks. In CVPR, 2017. 1
  • [27] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and K. Murphy. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017. 2, 6, 7
  • [28] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 5
  • [29] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In MM, 2014. 5
  • [30] A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. Instancecut: From edges to instances with multicut. In CVPR, 2017. 2
  • [31] T. Kong, A. Yao, Y. Chen, and F. Sun. Hypernet: Towards accurate region proposal generation and joint object detection. In CVPR, 2016. 1, 2, 4
  • [32] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 3
  • [33] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017. 1, 2, 4, 5, 7
  • [34] X. Liang, Y. Wei, X. Shen, Z. Jie, J. Feng, L. Lin, and S. Yan. Reversible recursive instance-level object segmentation. In CVPR, 2016. 2, 4
  • [35] T. Lin, P. Dolla ́r, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 1, 2, 3, 5, 6
  • [36] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar. Focal loss for dense object detection. In ICCV, 2017. 6 [37] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla ́r, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV. 2014. 1, 5
  • [38] S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networks for instance segmentation. In ICCV, 2017. 1, 2, 8
  • [39] S. Liu, C. Lu, and J. Jia. Box aggregation for proposal decimation: Last mile of object detection. In ICCV, 2015. 5, 7
  • [40] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia. LSUN’17: insatnce segmentation task, UCenter winner team. https://research.mapillary.com/img/lsun/ lsun17_scene_parsing_winners.pptx, 2017. 8
  • [41] S. Liu, X. Qi, J. Shi, H. Zhang, and J. Jia. Multi-scale patch aggregation (MPA) for simultaneous detection and segmentation. CVPR, 2016. 2, 4
  • [42] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. E. Reed, C. Fu, and A. C. Berg. SSD: single shot multibox detector. In ECCV, 2016. 1, 2
  • [43] W. Liu, A. Rabinovich, and A. C. Berg. Parsenet: Looking wider to see better. arXiv:1506.04579, 2015. 3
  • [44] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 2
  • [45] G. Neuhold, T. Ollmann, S. Rota Bulo, and P. Kontschieder. The mapillary vistas dataset for semantic understanding of street scenes. In ICCV, 2017. 1, 5, 8
  • [46] H. Noh, S. Hong, and B. Han. Learning deconvolution network for semantic segmentation. In ICCV, 2015. 1, 2
  • [47] C. Peng, X. Zhang, G. Yu, G. Luo, and J. Sun. Large kernel matters - improve semantic segmentation by global convolutional network. In CVPR, 2017. 2, 3
  • [48] P. H. O. Pinheiro, R. Collobert, and P. Dolla ́r. Learning to segment object candidates. In NIPS, 2015. 2, 4
  • [49] P. H. O. Pinheiro, T. Lin, R. Collobert, and P. Doll ́ar. Learning to refine object segments. In ECCV, 2016. 2, 4
  • [50] M. Ren and R. S. Zemel. End-to-end instance segmentation with recurrent attention. In CVPR, 2017. 2
  • [51] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 5
  • [52] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. PAMI, 2017. 3, 4
  • [53] B. Romera-Paredes and P. H. S. Torr. Recurrent instance segmentation. In ECCV, 2016. 2
  • [54] O. Ronneberger, P. Fischer, and T. Brox. U-Net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015. 2
  • [55] L. Shen, Z. Lin, and Q. Huang. Relay backpropagation for effective learning of deep convolutional neural networks. In ECCV, 2016. 7
  • [56] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016. 2
  • [57] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2014. 3
  • [58] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, 2017. 2
  • [59] J. Uhrig, M. Cordts, U. Franke, and T. Brox. Pixel-level encoding and depth layering for instance-level semantic labeling. In GCPR, 2016. 2
  • [60] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013. 2
  • [61] S. Xie, R. B. Girshick, P. Doll ́ar, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR, 2017. 1, 5, 7
  • [62] S. Zagoruyko, A. Lerer, T. Lin, P. H. O. Pinheiro, S. Gross, S. Chintala, and P. Dolla ́r. A multipath network for object detection. In BMVC, 2016. 2, 3, 4, 5, 7
  • [63] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV. 2014. 3
  • [64] X. Zeng, W. Ouyang, J. Yan, H. Li, T. Xiao, K. Wang, Y. Liu, Y. Zhou, B. Yang, Z. Wang, H. Zhou, and X. Wang. Crafting GBD-Net for object detection. arXiv:1610.02579, 2016. 3, 7
  • [65] Z. Zhang, S. Fidler, and R. Urtasun. Instance-level segmentation for autonomous driving with deep densely connected MRFs. In CVPR, 2016. 2
  • [66] Z. Zhang, A. G. Schwing, S. Fidler, and R. Urtasun. Monocular object instance segmentation and depth ordering with CNNs. In ICCV, 2015. 2
  • [67] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, 2017. 3, 5
  • [68] C. L. Zitnick and P. Doll ́ar. Edge boxes: Locating object proposals from edges. In ECCV, 2014. 2

全部评论 (0)

还没有任何评论哟~