Advertisement

《PANet:Path Aggregation Network for Instance Segmentation》论文笔记

阅读量:

代码地址:PANet

1. 概述

这篇研究由港中文大学与腾讯优图实验室共同完成,在神经网络领域信息传递的关键性考虑下提出了一种名为PANet的新网络架构。其创新之处在于不仅引入了金字塔特征模块,并且采用了一种自适应池化机制来整合各层次特征信息。特别地,在mask分支模块通过二元分类方法优化了分割性能。实验结果显示该网络在COCO2017实例分割任务上获得第一名的成绩,并在目标检测领域 ranking 亚军。

作者最初是在前人的研究基础上提出了以下两个核心问题:在特征路径问题上:低质量数据中的低层次特征有助于识别整体目标;然而这些低层次信息由于需要经过较长路径才能抵达高层特征层而难以直接用于提升定位精度。

特征池化操作中的问题:
在候选检测框的主要预测结果主要基于一个特定的特征层进行计算,在这种情况下其他层次的信息被忽视了,从而错过了获取更多样化信息的机会。

在该文中阐述了PANet的网络架构,在该文的核心内容上包括以下几个方面:

  • 1)该网络结构通过优化从低层级到高层级特征采集路径,并结合低层级增强特征金字塔以提高定位精度,在图1(b)中展示了这一改进方案。
  • 2)文章提出了一种自适应性池化方法旨在整合多层级信息以解决每个proposal间的时空关系问题。
  • 3)本研究引入微小全连接层以增强掩模预测能力,并设计了一种新型掩模头用于目标检测任务。

2. 网络设计

PANet网络架构如图所示,在呈现自上而下的层次结构后(或:在呈现自上而下的层次结构后),融合后的特征依次经过检测框分类和回归分析以实现实例分割(或:经检测框分类与回归分析以实现实例分割)。

在这里插入图片描述

2.1 由下至上的路径增广

FPN中的自顶向下的方法: 在FPN架构中,高层次特征层能够有效响应全局目标。相比之下,在较低位层次上捕捉到局部纹理等细节特性表现更为突出。通过这种方式,在更高层次上整合了深层语义信息,并增强了整个网络在进行合理分类任务时的能力。而在本文的研究工作中,则采用了基于bottom-up方式构建网络结构,并通过这种方式使得高层节点能够更快地捕获到低位节点的信息

本研究中所设计的基于bottom-up的方法通过图2展示了其架构。其中关键点检测部分由两组独立提取的关键点位置信息量张量构成:第一组由FPN网络生成(记为P),第二组则来源于论文中的bottom-up方法(记作N)。在构建这一层级时采用的是kernel大小为3x3步长为2的空间采样策略,在此过程中仅对P₂和N₂两个子区域进行了直接复制处理而未进行额外操作或优化。值得注意的是,在此过程中只有关键点位置信息量张量中的P₂和N₂两个子区域采用了直接复制的方式,并未进行额外处理或优化。在整个网络架构中所包含的所有卷积层均具备相同的通道数量设置(均为256个),其后紧跟一个ReLU激活函数模块。对于每一个检测候选框而言,在后续池化操作时会整合所有来自上一层次空间映射后的目标定位候选区域位置信息。

在这里插入图片描述

2.2 自适应特征池化

在FPN网络中会根据每个proposal的大小将其划分到不同的特征层上执行特征池化。

文中指出该方法带来的输出可能并非最佳。

例如,在FPN网络中存在两个极为接近的proposals因10-pixel的距离被划分到不同的特征层级。

此外,这种划分方式对某个proposal所处的位置可能并不是最适合的方式是基于其尺寸匹配最合适的层级。

在此基础上,文章提出了一种自适应池化操作,即在每个特征层N上进行采样,并取这些不同特征层的最大值作为最终结果.图3展示出按照FPN方法被分类的proposal在经过文章自适应池化处理后在各层级的分布情况,由此可以看出FPN中的proposal分类方式并非最优.

在这里插入图片描述

依据RoIPooling处理后的特征图谱,在进入后续操作前需完成特征信息的整合工作;该过程包括两个主要步骤:首先是将提取得到的区域池化后的特征通过全连接层进行初步处理以获取关键表征信息;随后再将该表征信息与回归检测框的位置信息结合并完成分类任务;具体流程可参考附图6

在这里插入图片描述

2.3 全连接融合

研究者在此基础上增加了另一层全连接网络。该网络旨在替代原有的分割功能,并引入了一种基于前景与背景二分类的新支路。通过整合两者的输出信息实现了更为精准的空间划分。具体架构如图所示

在这里插入图片描述

在原有mask支路(位于图4上方的一条支路即传统FCN架构)的基础上,在图4下方新增了一条支路用于融合。这条新增路径由两个3×3卷积层构成(其中第二个卷积层通过减少通道数量至一半来降低计算复杂度)。随后接一个全连接层,并通过reshape操作生成与原有路径相同维度的前景与背景掩膜这意味着新增路径旨在对前景与背景进行二分类判断其输出维数类似于文中所述28\times 28\times 1。另一方面原有的mask支路由FCN架构直接输出针对每个类别的二分类掩膜因此其输出通道数量等于类别总数即维数类似于28\times 28\times K其中K代表类别数量。两者的输出结果经融合后得到最终分割结果由此可见,在此架构中新增了针对每个像素点同时进行前景与背景分类的一条路径其融合后的特征可显著提高分割精度。

3. 实验结果

3.1 网络的性能

分割性能比较:

在这里插入图片描述

检测性能比较:

在这里插入图片描述

3.2 各模块重要性分析

在这里插入图片描述

自适应池化特征融合时的消融实验:

在这里插入图片描述

分割中的全连接分支消融实验:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~