【实例分割系列:二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation
2018 CVPR
COCO2017/CityScapes instance segmentation 第一
Instance Segmentation
PANet: Path Aggregation Network for Instance Segmentation](https://arxiv.org/abs/1803.01534)
【代码地址
Mask R-CNN 中的信息传播 优化
PANet
- Introduces
-
Enhanced bottom-up framework
-
Adaptive feature aggregation
-
Comprehensive integration of components
-
Challenge
-
References
-
Introduce
解决问题:
- 低层级特征对大型实例识别具有显著作用,在不同层级间特征路径长度较长。
- 每个建议区域均基于从一个特征层级池化得到的特征网格进行预测,在此分配策略上采用启发式方法。
- 由于其他层级丢弃的信息可能仍对最终预测结果产生参考价值,在现有流程中仍存在进一步优化的空间。
- mask预测仅限于单个视野范围内执行,在信息多样性方面仍有提升余地。
- 每个建议区域均基于从一个特征层级池化得到的特征网格进行预测,在此分配策略上采用启发式方法。
改进
- 缩短信息路径,并通过精确定位低层级信息来构建并强化特征金字塔的自底向上结构。
- 作者开发了一种能够恢复被建议区域与各个特征层级间因破坏而丢失的信息的技术。
可以将不同层级的全部特征纳入每个建议区域中,并避免出现随意分配的情况
- 全连接融合层:使用一个小型fc层用于补充mask预测

Augmented Bottom-up Structure
改动原因:
highly useful for locating purposes, though FPN中的P5 indirectly acquired beneficial features from ResNet50/101 many convolution layers. Despite FPN中的P5 indirectly acquiring beneficial features from these low-level characteristics, the flow of information is excessively lengthy, as illustrated by the red dotted line (which includes numerous convolutional layers from ResNet50/101).
本文在 FPN 的 P2-P5 部分又增加了低层特征,在这些低层特征流动到 N2-N5 层时仅需穿过少量层(如图所示),其中主要操作包括 3×3 的降维卷积操作(stride=2)。

基于ResNet构建了该模型的架构,在其中 {P_{2}, P_{3}, P_{4}, P_{5}} 对应于FPN生成相应的特征层级。沿着从 P_{2} 到达 P_{5} 的路径发展。

每个构建块通过侧向连接将高分辨率层 N_i 与模糊层 P_{i+1} 建立关联,并经过侧向融合后生成新的特征图 N_{i+1}。
N_2 就是 P_2,没有做任何处理。
N_i
* 经过 conv 3 × 3 ,stride 2
(reduce the spatial size)
element-wise add P _{i+1}
conv 3 × 3
注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
每个候选区域的特征网络是从新生成的{N2,N3,N4,N5} 上池化生成的
Adaptive Feature Pooling
FPN架构中,在对候选区域进行尺寸评估后会将其划分至不同的特征层级。这样较小的候选区域会被分派至low-level层级而较大的则会被分派至high-level层级。
-
high level
Semantic -
low level
location
无论是高阶还是低阶的特征都具有显著的效果。
在每个候选区域中, 我们通过从所有层次中提取特征并融合它们来进行预测, 并将其命名为 adaptive feature pooling.
- 对于每个候选区域组,在其对应的不同特征层次上建立投影关系。
- 通过 ROIAlign 池化技术提取各多层次特征网格。
- 随后采用逐像素求和(SUM)或加法(ADD)操作对多层次特征网格进行融合。
Fully-connected Fusion
具备全连接融合层的 mask 预测分支
fc 具备位置敏感性 , 并能适应不同空间位置的变化特性 。fc 网络层能够推断出未知背景与前景的mask表示 [1]
考虑到fc层和卷积层之间存在不同特性的问题,论文提出了一种方法来综合这两种层的预测结果以实现更为精确的预测。
-
第1至第4个卷积模块均为3×3卷积结构且输出通道数为256
-
使用上采样因子为2进行特征图上采样
-
捷联连接将fc模块与conv3输出融合,并同时整合了conv4_fc和conv5_fc模块的信息,在此过程中通道数量减半(以降低计算开销)
-
mask尺寸设定为28×28
-
全连接层输出特征图尺寸为784x1x1
-
重新排列成与FPN预测结果一致的空间维度
- 相加 得到最终预测
通过消融实验发现:从 conv3 开始做 SUM 操作融合效果是最好的。
Problem
在Augmented Bottom-up Structure中,N_i经过3×3卷积运算 stride为2后随后加入P _{i+1}这一过程中的连接方式究竟是element还是concat?进一步分析表明,在这种情况下选择element连接可能会更优地平衡性能与连通性。
element
过全连接生成 784,1,1 , 怎么reshape?
reshape 成 28,28,1
References
[1] 第一篇文章
实例分割——(PANet) Path Aggregation Network for Instance Segmentation
对 Path Aggregation Network for Instance Segmentation 的解析
