Advertisement

论文阅读:Scale-aware Automatic Augmentation for Object Detection (CVPR 2021)

阅读量:
在这里插入图片描述

scholarly work : https://arxiv.org/abs/2103.17220
code: https://github.com/dvlab-research/SiteName/GitHub - dvlab research group/SiteName/SA-AutoAug


目录

1 Motivation

1.1 图像级增强 Image-level augmentations

1.2 盒级增强 Box-level augmentations

2 Methods

2.1 搜索空间

2.2 评价指标

2.3 搜索算法

2.4 整体框架

3 实验


数据增强可分为两大类:一类是基于单一数据增强方法的技术发展;另一类则是探索不同数据增强手段的组合应用策略。本文在借鉴AutoAugment框架的基础上,致力于开发出一套适用于目标检测场景的数据增强策略搜索方案。

自动增强方法[9,51,22,27,26]一般将寻找最佳增强策略的过程视为一种搜索问题。不同任务中,数据增强的组合策略主要包含以下三个要素:(1)其涵盖的搜索空间;(2)所采用的搜索算法;(3)评估的标准。其中不同任务中其涵盖的搜索空间可能会有所不同:例如,在AutoAugment框架下其涉及的数据增强策略主要包含五个子策略每个子策略又由两个核心操作组成这些操作分别对应于不同数据增强方法的具体表现形式及其应用概率;而对于其他基于数据增强的方法则可能涉及更为丰富的操作组合。在这一过程中研究者们通常会采用强化学习[52]以及进化算法[38]等手段来进行系统性的探索工作;而评估标准则主要基于模型在代理任务上的训练与测试结果这些结果可作为优化过程中的重要反馈依据以指导后续的操作选择与参数调整

该设计中的缩放感知搜索空间整合了图像级别的与框级别的增强功能。在图像级别上进行增强时,主要涉及对整个图片进行放大或缩小操作。在框级别上的增强则聚焦于识别并处理图片中的特定物体颜色以及它们的空间几何关系。


1 Motivation

在这里插入图片描述

1.1 图像级增强 Image-level augmentations

为了解决尺度变化的问题,在训练阶段,默认采用图像金字塔的方法。
然而,在当前的设计中,默认的比例设置往往需要人工进行优化。
为了减轻这一挑战,在我们的搜索空间中,默认采用可缩放的放大与缩小功能。
如图2所示左侧部分,请注意这一设计特点。
其中,默认采用概率P与幅度M作为参数进行配置。
具体而言,在这种情况下,默认搜索的概率Pin与Pout均被设定在0至0.5之间。
因此,在此范围内,默认的概率配置能够确保原始尺度的存在性。

在这里插入图片描述

目前的研究表明,在目标检测领域内,早期研究并未采用基于自动尺度感知变换搜索的方法。实验结果表明,在Tab2指标下,该方法显著优于传统多尺度训练策略。

在这里插入图片描述

1.2 盒级增强 Box-level augmentations

[ECCV-20] 该会议探讨了数据增强策略在物体检测中的应用问题,涉及两个主要问题

the previous box-level augmentation [51] is capable of addressing two critical challenges, resulting in an obvious boundary gap between the augmented and original regions, as well as a gap during the training-inference process.

(1)Box-level augmentation直接作用于bbox区域,并与背景存在显著差异性,从而增加了网络定位增强目标的难度.$解决方法: 本研究创新性地基于高斯分布模型,在图像处理阶段实现增强操作与原始图像以渐近比例融合,并通过该方法实现了box-level增强效果的平滑过渡

为增强区域A的效果,请参考以下公式:\alpha \text{代表Gaussian映射}其中\alpha代表Gaussian映射;IT分别代表输入信号与变换过程。研究者认为该种基于高斯分布的方法能够使边界缝隙被平滑过渡到连续状态。

在这里插入图片描述
在这里插入图片描述

In previous operations, the second issue became the absence of consideration for receptive fields and object scales.

(2)小型实验表明:目标尺寸对背景影响的程度存在差异。参考表1的数据,在COCO验证集中移除context信息(即背景内容)后会导致APs值下降的同时APl值上升。

在这里插入图片描述

通过这种方式实现了增强区域的高度自适应性以更好地匹配物体的实际尺寸特征

具体来说,在一个图像尺寸H × W以及检测框位置(xc, yc, h, w)的情况下

在这里插入图片描述

augmentation area V(增强区域V)用公式4表示:

在这里插入图片描述

对box-level增强方法的区域比例定义为r,是可搜索的:

。因此,标准差可以通过下式算得:

在这里插入图片描述

2 Methods

2.1 搜索空间

image-level Aug → (Color box-level Aug → Geometric box-level Aug)^5 → scale ratios

我们所设计的搜索空间涵盖了图像级增强(Image-level Augmentations)和框级增强(Box-level Augmentations)两种类型。在图像级增强部分中,我们专注于探索缩放操作(zoom-in/out)的参数设置。为了与现有研究保持一致[51],在框级增强部分我们采用了5种子策略组合方式,并将其划分为小范围(small)、中范围(middle)和大范围(Large)。每种子策略又包括颜色变换(Color变换)和几何变形(Geometric变形)。每个增强策略则由6个离散的概率值与6个强度因子组成;概率值从一个包含6个离散采样点的一组连续区间[0.0, 1.0]内随机选取,并采用每隔0.2递增的方式生成;而强度因子则基于自定义区间内的数值进行赋值。震级范围则被映射至一组标准化的离散点序列[0, 2, 4, 6, 8, 10];而对于框级别上的操作而言,则涉及三个不同的面积比例参数:small、middle及Large三种类型;每个面积比例参数独立地从一个包含10个离散采样点的一组数值范围内进行搜索选择;具体数值可参考附录中的详细说明。

的候选策略,是[51]的两倍。

在这里插入图片描述

2.2 评价指标

随后对一个模型进行训练,并跟踪其在验证集上的分类精度以及每个尺度级别的分类精度;接着对该模型在子策略框架下进行微调优化,并跟踪子模型各层次的表现指标。目标函数如下:

在这里插入图片描述

(1)损失的标准偏差:各标度的目标对应的损失要求方差尽可能小;(2)经微调后性能下降的项目。

在这里插入图片描述
在这里插入图片描述

2.3 搜索算法

evolutionary algorithms typically employ mechanisms such as tournament selection to determine parent candidates. A validation set of 5 \times 1e3 images is selected randomly from the MS COCO train2017 dataset. The remaining images are allocated to train sub-models. Each sub-model is fine-tuned for 1 \times 1e3 iterations. The evolutionary search iterates through 1 \times 1e3 generations. An initial population of 5 \times 1e4 individuals is established, selecting the top 2 \times 5\% performers as parents for the next generation.

2.4 整体框架

在这里插入图片描述

3 实验

和Baseline以及Multi-scale training baseline进行对比分析,在其中MS Baseline采用随机选择640至800之间的某一尺度进行训练。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考链接:<>

<>

全部评论 (0)

还没有任何评论哟~