Advertisement

Path Aggregation Network for Instance Segmentation 论文笔记

阅读量:

前言

作者认为在Mask R-CNN中的信息传递过程可以得到进一步提升。一般来说,低级特征有助于识别较大的目标,但低级特征到高级特征的路径太长了,这增加了定位信息流动的难度。而且,每个proposal是基于某一个特征层级得到的,而具体将proposal分配到哪个特征层级,这是一个启发式的分配过程。这个分配过程其实是不太合理的,因为在其它没有使用的特征层级中会有一些信息,这些信息对于最终的预测来说可能会有所帮助。另外,Mask R-CNN中的mask预测分支仅在单层特征图上(single view),这失去了收集不同信息的机会。

基于此,本文提出PANet,它的结构如下图所示:
在这里插入图片描述

  • 通过建立bottom-up增强路径 (图b)来缩短信息传递的路径,利用低级特征中的准确的定位信息,增强特征金字塔的结构。
  • 建立自适应特征池 (图c),以恢复每个proposal与所有的特征层级之间被破坏的信息路径,也就是将每个proposal与所有的特征层级关联起来,为每个proposal聚合来自所有特征层级的特征,不再是以前那种自适应分配。
  • 使用一个小型全连接层来增强mask预测 (图e),以捕获每个proposal的不同view,它与Mask R-CNN中使用的FCN有互补作用。这样就可以得到两个view:来自fc的view,和来自FCN的view,通过融合这两个view的预测结果,可以增强信息的多样性,mask的质量也能得到提高。

网络结构

PANet的框架如下图所示:
在这里插入图片描述
和FPN一样,PANet带来的性能上的提升和CNN的结构是没有关系的。

1. bottom-up增强路径

一般来说,高层的神经元对整个目标响应,而其它层的神经元更可能是被局部图像激活,因此构建一条top-down通路,以传播高层的语义特征是非常有必要的,这样可以增强FPN中所有层级的特征的分类能力。本文通过传播低级特征对边或部分目标的响应,进一步增强了整个特征层级的定位能力。

如下图所示,左边是FPN,右边是本文提出的bottom-up增强路径。绿色的虚线就是本文构建的特征融合路径,它跨越的卷积层很少,连10个都不到;红色虚线是FPN中的特征融合路径,从底层到高层共跨越了一百多层。本文的bottom-up路径缩短了底层特征到高层特征的距离,能实现更有效的特征融合。
在这里插入图片描述
接下来说一下具体如何构建这条bottom-up通路。和FPN一样,在同一个stage中的卷积层生成的特征图的空间大小是相同的,每个特征层级对应一个stage,使用{P2,P3,P4,P5}\lbrace P_2,P_3,P_4,P_5 \rbrace表示FPN生成的特征层级。bottom-up通路从P2P_2开始,逐渐达到P5P_5,在这个过程中,特征图逐渐进行2倍的下采样。使用{N2,N3,N4,N5}\lbrace N_2,N_3,N_4,N_5 \rbrace表示新生成的特征图,与{P2,P3,P4,P5}\lbrace P_2,P_3,P_4,P_5 \rbrace一一对应。
在这里插入图片描述
特征图Ni+1N_{i+1}的生成过程如下:

  • 首先将特征图NiN_i经过步长为2的3×33 \times 3的卷积层,以减少空间大小;
  • 然后将Pi+1P_{i+1}与经过下采样的NiN_i通过横向连接进行element-wise相加;
  • 将融合后的特征图经过3×33\times 3的卷积层以生成Ni+1N_{i+1}。

所有的特征图都使用256通道,所有的卷积层后都跟一个ReLU,每个proposal是从新生成的特征图{N2,N3,N4,N5}\lbrace N_2,N_3,N_4,N_5 \rbrace上生成的。

2. 自适应特征池

高级特征通常都拥有较大的感受野,能够捕获丰富的上下文信息;而低级特征通常包含更丰富的细节,能够提供更准确的位置信息。基于此,本文在生成proposal时,对所有层级的特征进行池化,然后融合它们做预测,称为自适应特征池(adaptive feature pooling)。

首先来分析一下在进行自适应特征池化时不同层级的特征所占的比例 。本文使用最大池化操作来融合不同层级的特征,将proposal按照FPN的层级分为四组,level 1-4,即从低级到高级,低级对应较小的proposal,高级对应较大的proposal。对于每组proposal,计算不同层级特征所占的比例,结果如下图所示。蓝线表示较小的proposal,它在FPN中被分配到level 1,可以看到,该proposal中有接近70%的特征来自于其它较高的层级。黄线表示较大的proposal,在FPN中被分配到level 4,可以看到,有50%的特征来自于其它较低的层级。这个结果说明,特征来自于多个层级有助于提升检测精度。
在这里插入图片描述
自适应特征池的结构如下图所示:
在这里插入图片描述
它的具体实现过程如下:

  • 首先,将每个proposal映射到不同的特征层级中,如上图(b)中的灰色区域;
  • 然后使用RoIAlign对每个层级的feature grid进行池化;
  • 最后对不同层级的池化后的feature grid进行融合。

池化后的feature grid首先经过一个参数层,然后再进行融合操作。比如FPN的回归分支有两个fcfc层,那么在第一个fcfc层之后再进行融合操作。


实验结果

PANet与其它目标检测模型的结果对比如下表所示。
在这里插入图片描述


结论

本文的PANet主要是用于实例分割的,但是bottom-up增强路径和自适应特征池同样可用于目标检测中,用于对特征传播过程的增强,以及对proposal的改善。

全部评论 (0)

还没有任何评论哟~