Learning Spatial Fusion for Single-Shot Object Detection(ASFF)
发布时间
阅读量:
阅读量
Learning Spatial Fusion for Single-Shot Object Detection(ASFF)
(https://github.com/ruinmessi/ASFF)
**Abstract**
不同特征尺度之间的不一致性是基于特征金字塔的单炮探测器的主要限制。在这项工作中,提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF)。它学习了空间过滤冲突信息的方法来抑制不一致性,从而提高了特征的尺度不变性,并且inference的消耗增加几乎没有。
**Motivation**
1.早期自下而上的路径实现多尺度特征提取会在小实例上精度较低,因为浅层特征图包含的语义信息不足。
2.研究表明跨尺度连接,通过加强特征融合可以得到精确度的提高(针对目标检测的精确度,其他领域重点关注特征提取的有效性)。
3.~~多尺度图像金字塔的每个图像尺度上有选择地训练和推断合适大小的物体,可以在所有level上共享丰富的语义,但是同时图像金字塔解决方案极大地增加了推理时间~~ 。(重点关注特征金字塔)
4.与图像金字塔相比,特征金字塔的一个主要缺点是**不同尺度之间的不一致性** ,具体来说,场景中大实例通常与较高层级的特征图相关联,而小实例与较低层级的特征地图相关联。当某个对象在某个级别的要素图中被指定并视为正时,其他级别的要素图中的相应区域将被视为背景。因此,如果图像既包含小对象又包含大对象,则特征金字塔的主要部分会发生冲突。这种不一致性会干扰训练期间的梯度计算,并降低特征金字塔的有效性。
**Core idea**
自适应空间特征融合(ASFF),用于解决特征金字塔的不一致性问题。
所提出的方法使网络能够直接学习如何在空间上过滤其他层级的特征,如此以来仅使用丰富的有用信息,从而保持特征组合性。对于某个级别的特征,其他级别的特征首先被集成并调整到相同的分辨率,然后被训练以找到最佳的融合。**在每个空间位置中,不同层次的特征自适应地融合,即一些特征可能被过滤掉,作为该位置的矛盾信息contradictory information,而一些特征可能以更有区别度的线索占主导地位** 。
ASFF的优点如下:
(1)搜索最优融合策略的操作是可微的,支持反向传播中调整学习;
(2)它与主干模型无关,并且应用于具有特征金字塔结构的单次检测器;
(3)实现简单,并且增加的计算成本是微不足道的。
**实施方法**
对每个尺度的上采样和下采样策略进行了相应的修改。对于上采样,我们首先采用1×1卷积层将特征的通道数压缩到Levell中的通道数,然后用内插法分别对分辨率进行提升。对于1/2比的下采样,我们简单地用步长为2的3×3卷积层来同时修改通道数和分辨率。对于比例比为1/4的情况,我们在步长为2的卷积前添加了步长为2的最大池化。具体操作如下:
使用代表在特征图位置(i,j)处从层级n调整到层级l的特征向量,则相应级别的特征融合如下,由三个不同层级的空间重要性权重与特征向量相乘得到:

这里的权重值是简单的标量变量,在不同通道之间共享,范围在[0,1]且总和为1,具体定义如下:

使用softmax函数生成且使用作为控制参数,这三个控制参数从特征向量计算得到且支持反向传播。由此,可以在各尺度上自适应地聚合所有层次上的特征。

**可解释性**
以YOLOv3为例,链式求导法则在反向传播的时候梯度计算如公式所下:

其中代表的是损失函数对level1的特征图的某个像素求导,在YOLOV3中不同尺度的层之间的尺度变化一般是下采样和上采样,通常为固定值,为了简化表示可以设置为1![因此\[公式\]](https://ad.itadn.com/c/weblog/blog-img/images/2025-02-13/oVq1mSFW0wO2DdlrMnzi48C9HpNX.png),则公式可以简化为:

此外,对于融合运算(即元素求和和串联),其导数也将为固定值,可以将它的值同样简化为1 ,则表达式进一步简化为:

假设根据某种比例匹配机制将level1的位置(i,j)指定为对象中心,则是来自正样本的梯度,**该对应位置在其他level上被视为背景** ,是来自负值样本的梯度。这种不一致性干扰了的梯度,并降低了对原始特征图的训练效率。
>
>
> **为解决上述情况,使用ASFF的梯度计算很简单** :
> 
> 利用这三个系数,当α2ij→0和α3ij→0时,可以协调梯度的不一致性。由于融合参数可以通过标准的反向传播算法来学习,因此良好的训练过程可以产生这样的有效系数。同时,保留了中对于背景的监督信息,避免在次优水平suboptimal levels下产生更多的假阳预测 false positives。
> 
>
>
**思考**
这篇论文的核心是在解决多层次特征融合时候的信息矛盾问题 contradictory information,之前的特征金字塔大多在关注如何有效地将多尺度特征fuse在一起,在这篇论文中提到了一个比较新的点:当不同层次的特征关注不同大小的对象时,同一位置的梯度信息在不同level不一致,从而干扰梯度的传播。
放在stereo中考虑,我们也需要不同层次信息的融合,但是如果只构建了一个cost volume,不同level的冲突效应不会太明显,但是网络对detail和global dependence的把控也会受到限制,所以是否可以将这种特征金字塔应用于多尺度cost,直接在浅层次特征做correlation,让不同尺度的cost集中于特定任务,最后再做fuse和refine。
全部评论 (0)
还没有任何评论哟~
