【FPN】Feature Pyramid Networks for Object Detection论文笔记
1、摘要
Feature pyramids play a fundamental role within recognition systems, enabling the detection of objects across varying spatial scales. However, recent advancements in deep learning-based object detection systems have increasingly minimized the use of pyramid representations, primarily due to their computationally and memory-intensive nature. This paper leverages the inherent multi-scale architecture of deep convolutional networks to develop feature pyramids with minimal additional computational burden.
2、简介
一些使用pyramid方法

- (a)通过构建图片金字塔来生成特征金字塔,在非深度的方法中较为常见。通过对图片进行不同尺度的缩放操作,并将这些缩放后的图像用于类似固定滑窗的方法中来检测不同尺寸的目标。这种方法带来了显著的内存和计算时间上的消耗。
- (b)仅在特征图的最顶层进行预测【(b)展示了当前深度学习方法中常用的策略:使用深度网络提取feature maps代替了传统方法提取feature maps的做法;其表征能力更强;从低层到高层的过程中;语义逐渐增强;我们直接在且仅在最后一层进行预测
3、FPN building block

显然有三条明显的线贯穿整个结构体系:底部部分呈现自上而下的通路结构,在顶部区域展示了自下而上的信息处理模式,并通过整合这些路径信息,我们能够建立一个完整的lateral连接网络。
因为ResNet网络有非常多的层(20 or 101),那么将所有层分成几个阶段
因为ResNet网络有非常多的层(20 or 101),那么将所有层分成几个阶段
因为该网络拥有大量层数(例如20或101个),因此将其划分为多个部分以提高计算效率

】。这种选择很自然的,因为每个阶段的最深层应该具有最强的特征。具体来说,对于ResNets,作者使用了每个阶段的最后一个残差结构的特征激活输出。将这些残差模块输出表示为{C2, C3, C4, C5},对应于conv2, conv3, conv4和conv5的输出,并且注意它们相对于输入图像具有{4, 8, 16, 32}像素的步长。考虑到内存占用,没有将conv1包含在金字塔里。
- Top-down路线和横向连接:如何去结合低层高分辨率的特征,方法就是把更加抽象、语义更强的高层特征图进行上取样(upsample),然后把该特征横向连接(lateral connections)至前一个特征,因此高层特征得到加强。值得注意的是,横向连接的两层特征在空间尺寸上要相同。这样做应该主要是为了利用底层的定位细节信息。
- 上面图中显示了连接细节,把高层特征做2倍上采样(最近邻上采样法 ),然后将其和对应的bottom-up上的特征结合(bottom-up上的特征需要经过1*1卷积处理,目的是为了改变channels,和Top-down上的相同 ),结合方式是做像素间的加法 。重复迭代此过程,直至生成最精细的特征图。迭代开始阶段,作者在C5层后面加上一个11的卷积核来产生最粗略的特征图,**最后,作者用33的卷积核去处理已经融合的特征图(为了消除上采样的混叠效应)** ,以生成最后需要的特征图。{C2,C3,C4,C5}层对应的融合特征层为{P2,P3,P4,P5},对应的层空间尺寸是相通的。
- 金字塔结构中所有层级共享分类层(回归层),就像featurized image pyramid中所做的那样。作者固定所有特征图中的维度(通道数,表示为d)。作者在本文中设置d=256,因此所有核外的卷积层(比如P2)具有256通道输出。这些额外层没有用非线性,而非线性会带来一些影响。
4、还有个FPN与fast RCNN部分【摘自here】


在代码中的一些实现过程(tensorflow):

因为同样大小的anchor在高语义区域如 P5时映射回原图更大

- FPN构建于基础网络架构之上,并采用如ResNet系列等主流模型作为主干模块。其典型实现模式为:主干网络 - 层数级联 - FPN结构的形式。例如,在ResNet-101模型中就体现了这一设计特点:其主干网络结合Fpn分支构成完整的特征金字塔架构。
