Advertisement

【论文笔记】:ASFF:Learning Spatial Fusion for Single-Shot Object Detection

阅读量:

&Title

在这里插入图片描述

&Summary

不同尺度特征间的不一致现象主要缺陷源于基于特征金字塔的单阶段检测器

本文探讨了一种新型的数据驱动多层级特征融合方案。该方案通过特定途径减少空间冲突现象。这一方法显著提升了特征尺度不变性的性能,并且计算开销较低。

该方法使得所述网络能够通过其架构实现对其他层次特征的空间域内的筛选与整合过程。
对于每一个空间位置而言,在此位置的不同层次特征会被自适应地融合在一起。
即当某一层次的特征在此处携带矛盾信息时可能会被排除在外;相反地,在此情况下某些具有争议性线索的特征可能会占据主导地位。

本文的主要创新点在于提出了一个新的特征融合方法ASFF。为了实现这一目标, 本研究引入了一种新型特征融合方案ASFF, 该方法通过学习权重参数将各层特征有效地整合在一起, 研究者表明该方法在性能上优于基于拼接操作或逐元素操作的方法

contributions:

  • 该系统采用自适应特征融合方法命名为ASFF。
  • 通过ASFF策略实现FPN框架性能的显著提升。
  • 基于可靠的人工智能驱动YOLOv3模型,在标准数据集MS COCO上进行实验验证时发现:通过结合先进特征融合技术ASFF与高效目标检测算法YOLOv3,在速度与精度之间找到了最佳平衡点。

&Research Objective

解决单发检测器特征金字塔的不一致性。

特征金字塔的主要缺陷在于不同尺度特征的一致性不足

尤其是一阶段检测器中

实际上,在FPN架构中采用启发式方法选择特征

高层语义信息主要用于检测大型目标对象

而低层语义信息则专注于小尺寸目标的识别

当某一目标在某一层次被判定为正样本时

相应地,在其他层次上该区域会被归类为负样本

如果同一幅图像内同时存在大尺寸和小尺寸的目标物体

那么各层次之间的特征特性出现不一致现象

大尺寸物体通常在其特定层级被识别出来

但并非单一层级能够处理所有物体定位问题

而是整个图像进行综合分析与处理

在各层次的数据融合过程中会产生大量冗余或无关的信息

&Problem Statement

为了更好地提取高层语义特征与细粒度细节特征之间的关系,许多网络架构都采用FPN策略来生成多级特征。然而,在构建特征时通常会采用直接连接或逐元素相加的方式(无论是模仿YOLOv3这类架构,在构建特征时通常会采用直接连接或逐元素相加的方式),然而作者指出这种直接连接的方法可能无法有效提取不同尺度上的关键信息。

&Method(s)


Strong Baseline

基于YOLOv3架构的设计方案因其具备高效的性能优势而备受关注。研究者借鉴已有研究的方法,并在此基础上结合训练过程中采用的一系列优化技术。其中特别值得一提的是该方案不仅融合了混合算法调度以及余弦学习率同步批处理非恶意化技术等创新性措施;此外,在优化策略方面还引入了一种无锚点分支,并与其对应的有锚点分支协同工作以进一步提升检测精度;最后针对边界检测任务,在原有损失函数的基础上引入了交并(IoU)损失项以实现更为精确的目标识别效果

在这里插入图片描述

可以看到,这个baseline将yolov3的AP从33%提升到了38%,高达5个点之多。


Adaptively Spatial Feature Fusion

与以往相比,在多层级特征融合体系中采用元素与级联结合的方式构建多层次特征融合方法时有不同;其核心理念在于通过自适应机制动态优化不同尺度空间权重的映射关系

在这里插入图片描述

利用FPN生成不同尺度的特征图后,
研究者采用ASFF(Adaptively Spatial Feature Fusion)方法来进行特征融合。
其核心在于通过将level1至level3的不同尺度图像分别融合生成对应的三个尺度特征图,
在这一过程中,
权重参数会根据输入数据自适应地进行调整。
以ASFF-3为例,
在该框架中首先对三个不同分辨率的图像均进行了尺寸标准化处理,
随后学习一个全局融合权重矩阵,
从而能够更好地提取各层次细节信息并优化最终预测结果。


Consistency Property

在这里插入图片描述

&Evaluation

在这里插入图片描述

实验证明,在baseline基础上相比concat及sum等方法的实验结果表明asff能够显著提升map值约两个百分比点以上

在这里插入图片描述
在这里插入图片描述

&Notes

ASFF优点:

  1. 因为搜索最优融合的操作属于差分操作,在反向传播过程中具有较高的效率;
  2. 该方法对于骨干模型非常敏感,在具备特征金字塔结构的单点探测器中表现突出;其实现过程较为简洁。

不一致性
较大的实例通常与上方的Feature Map相联系,在下方则对应于较小的实例。当某一对象在一个特定级别的Feature Map中标记为正时,默认情况下其余级别Feature Map中的相应区域被视为背景区域。因此,在同一图像中同时存在大小物体时,默认情况下不同层级Feature之间的冲突往往会占据整个Feature Pyramid的主要部分。

代码理解:作者:chenzy_hust

复制代码
    class ASFF(nn.Module): 
     def __init__(self, level, rfb=False, vis=False): 
        super(ASFF, self).__init__() 
        self.level = level 
        self.dim = [512, 256, 256] 
        self.inter_dim = self.dim[self.level] 
        # 每个level融合前,需要先调整到一样的尺度
        if level==0: 
            self.stride_level_1 = add_conv(256, self.inter_dim, 3, 2) 
            self.stride_level_2 = add_conv(256, self.inter_dim, 3, 2) 
            self.expand = add_conv(self.inter_dim, 1024, 3, 1) 
        elif level==1: 
            self.compress_level_0 = add_conv(512, self.inter_dim, 1, 1) 
            self.stride_level_2 = add_conv(256, self.inter_dim, 3, 2) 
           self.expand = add_conv(self.inter_dim, 512, 3, 1) 
       elif level==2: 
           self.compress_level_0 = add_conv(512, self.inter_dim, 1, 1) 
           self.expand = add_conv(self.inter_dim, 256, 3, 1) 
       compress_c = 8 if rfb else 16  #when adding rfb, we use half number of channels to save memory 
    
       self.weight_level_0 = add_conv(self.inter_dim, compress_c, 1, 1) 
       self.weight_level_1 = add_conv(self.inter_dim, compress_c, 1, 1) 
       self.weight_level_2 = add_conv(self.inter_dim, compress_c, 1, 1) 
    
       self.weight_levels = nn.Conv2d(compress_c*3, 3, kernel_size=1, stride=1, padding=0) 
       self.vis= vis 
       
    def forward(self, x_level_0, x_level_1, x_level_2): 
        if self.level==0: 
           level_0_resized = x_level_0 
           level_1_resized = self.stride_level_1(x_level_1) 
     
           level_2_downsampled_inter =F.max_pool2d(x_level_2, 3, stride=2, padding=1) 
           level_2_resized = self.stride_level_2(level_2_downsampled_inter) 
     
       elif self.level==1: 
           level_0_compressed = self.compress_level_0(x_level_0) 
           level_0_resized =F.interpolate(level_0_compressed, scale_factor=2, mode='nearest') 
           level_1_resized =x_level_1 
           level_2_resized =self.stride_level_2(x_level_2) 
       elif self.level==2: 
           level_0_compressed = self.compress_level_0(x_level_0) 
           level_0_resized =F.interpolate(level_0_compressed, scale_factor=4, mode='nearest') 
           level_1_resized =F.interpolate(x_level_1, scale_factor=2, mode='nearest') 
          level_2_resized =x_level_2 
     
       level_0_weight_v = self.weight_level_0(level_0_resized) 
       level_1_weight_v = self.weight_level_1(level_1_resized) 
       level_2_weight_v = self.weight_level_2(level_2_resized) 
       levels_weight_v = torch.cat((level_0_weight_v, level_1_weight_v, level_2_weight_v),1) 
       # 学习的3个尺度权重
       levels_weight = self.weight_levels(levels_weight_v) 
       levels_weight = F.softmax(levels_weight, dim=1) 
       # 自适应权重融合
       fused_out_reduced = level_0_resized * levels_weight[:,0:1,:,:]+\ 
                           level_1_resized * levels_weight[:,1:2,:,:]+\ 
                           level_2_resized * levels_weight[:,2:,:,:] 
     
       out = self.expand(fused_out_reduced) 
     
       if self.vis: 
           return out, levels_weight, fused_out_reduced.sum(dim=1) 
       else: 
          return out

该文中的相关代码示例可参考[FCOS+ASFF]的具体来源链接:

Thinks

  • 有一篇论文SAPD,里面的用soft - select来选择特征,也是学习权重得来的。
  • FSAF通过加入一个无锚分支,来选择最佳特征层进行预测。FSAF的主要作用就是帮助检测目标找到最适合他们的特征尺度。

全部评论 (0)

还没有任何评论哟~