Advertisement

深度学习论文: Avoiding Overfitting: A Survey on Regularization Methods for Convolutional Neural Networks

阅读量:

深度学习论文:避免过拟合:卷积神经网络正则化方法综述及其PyTorch实现

Regularization

  • 首先采用的是"数据规范化处理"方案,在这一方案下, 所有方法都将重点作用于对输入数据进行标准化转换
  • 其次采用的是"结构规范化处理"方案, 这一方案的主要目的是优化神经网络架构或核函数以生成有效的特征映射过程
  • 最后采用的是"标签规范化处理"方案, 这一方案的主要目的是对输入样本的标签进行标准化转换与误差校正处理

1 Regularization based on data augmentation

1-1 Cutout, 2017

Cutout是一种基于数据的强大增强技术,在训练阶段它会在输入神经网络前对图像进行随机裁剪处理。该方法通过动态调节每个类别实例的数量与数据集中类别总数来优化裁剪区域的理想尺寸大小。

在这里插入图片描述

卷积神经网络中的切出增强正则化

1-2 RandomErasing, 2017

RandomErasing基于Cutout技术的延伸,在图像处理领域具有重要地位。作为一种通过随机裁剪图像区域来去除多余信息的技术,Cutout则专注于在图像空白区域删除原有信息并填充补充信息的方法,其核心在于通过这种方式提升模型鲁棒性,防止过拟合现象的发生

在这里插入图片描述

Random Erasing Data Augmentation

1-3 AutoAugment, 2019

AutoAugment将其最佳数据增强策略的形式化为一个离散搜索问题。在搜索空间中, 该主要策略由5个子策略构成, 每个子策略依次应用两个图像操作, 每个图像操作均具备两个参数:一个是被应用的概率(如70%), 另一个是幅度(如旋转30度)。

操作的搜索空间(共有16个具体操作)
Shearing X/Y 或 Shearing operations involving X and Y; Translating X and Y axes; Rotate; Automatic contrast enhancement; Image inversion; Histogram equalization; Solarization technique; Posteriorization method; Intensity contrast adjustment; Color processing; Luminance adjustment; Sharpness enhancement; Image cropping or masking; Sample Pairing

在这里插入图片描述

Self-Augmented Training (SAT): Optimal Data Transformation Policies Based on Datasets

1-4 PBA, 2019

Population Based Augmentation(PBA)不仅提出了新的增强算法,并且展示了可调度式的增强策略而非固定化的增强策略。每3个步骤中就改变了其中一半的策略,在此过程中权重的变化量占1/4,而超参数的变化量也占1/4。

基于种群的数据增强:优化增强策略的时间表

1-5 RandAugment, 2019

该方法综合运用了14种经过验证最有效的增强策略,并通过动态调整增强操作的具体规模,在训练过程中自动优化每种操作的最佳参数设置。这种设计使得该框架无需预先设定初始增强参数范围,并且能够灵活调节增强操作强度以满足不同模型的需求。实验结果表明,在保持原有性能的基础上,该方法在训练速度和分类精度方面均较现有方案表现出明显优势。

在这里插入图片描述

Empirical automatic data augmentation with minimized search dimension

1-6 Mixup, 2017

Mixup:通过一定比例混合任意两张样本并分配相应的分类结果;
Cutout:随机选择样本的一部分区域进行去除并用0像素填充以维持分类效果;
mixup是一种用于缓解过拟合问题的数据增强技术其本质是对离散化的样本空间实现连续化从而提升邻域内的平滑性。

在这里插入图片描述

mixup: BEYOND EMPIRICAL RISK MINIMIZATION

1-7 CutMix, 2019

CutMix即通过将一部分图像裁剪并将其从原始图像中移除;剩余的部分则由训练集中其他样本的数据替代。

在这里插入图片描述

Cutmix是一种用于训练具有可定位特征的强分类器的正则化方法

1-8 CutBlur, 2020

该算法的核心机制是通过从与其对应的局部相似区域中获取低分辨率(LR)样本来替代高分辨率图像(HR)中的指定区域。其主要应用于超分辨率图像恢复技术。

在这里插入图片描述

Re-examining Data Enhancement Techniques for Image Super-Resolution: A Comprehensive Evaluation and Innovative Approach

1-9 BatchAugment, 2019

该方法表明,在一个mini-batch中通过从同一图像获取不同增强版本的数据,可以让模型更容易地学习到增强不变的特征。其核心理念在于,在同一个batch中一半采用常规的数据增强策略(即对原始图像进行随机裁剪、翻转等操作),另一半则通过复制这一部分数据并采用不同的数据增强策略(例如对复制后的图像进行旋转、平移等操作)。

BatchAugment不仅能够提高模型的性能水平,并且还能够加速训练过程的收敛性。

1-10 FixRes, 2019

ImageNet数据集分类模型多采用的数据增强方式会带来训练阶段和测试阶段中目标呈现的尺寸存在差异。亦即而言,在一定程度上通过降低图像分辨率的方式有助于在测试阶段提升识别准确性。

在这里插入图片描述

FixRes的具体实现方式是基于低分辨率图像对模型进行训练,并随后使用高分辨率图像对模型进行微调。

Fixing the train-test resolution discrepancy

1-11 Bag-of-Tricks, 2018

该研究采用Bag-of-Tricks方法综合运用现有的几种正则化技巧进行组合优化。实证分析显示,在适当采用特定的方法组合时,该模型能够带来明显的性能提升。

A collection of techniques for image categorization using convolutional neural networks

2 Regularization based on internal structure change

2-1 Dropout, 2014

在训练阶段的每一个步骤中,Dropout机制通过基于伯努利分布(Bernoulli distribution)来计算每个神经元被截断的概率,在这一过程中引入了额外的随机性。研究表明,在引入Dropout机制后,神经网络表现出比传统结构更好的泛化性能。

Dropout is a basic approach designed to reduce the tendency of neural networks to overfit.

2-2 MaxDropout, 2020

在训练阶段随机丢弃部分神经元的同时,在测试阶段不会进行此操作以防止过拟合是一种常见的正则化技术

在这里插入图片描述

采用MaxDropout方法:深度神经网络正则化基于最大输出值

2-3 DropBlock, 2018

DropBlock研究表明,在特征图中移除完整的区域能够显著提升模型的泛化能力。该方法被应用于CNN的所有feature maps,并从小比例开始逐步提升其占位比例以实现更好的泛化性能。

在这里插入图片描述

Dropblock:该种正则化方法适用于卷积神经网络

2-4 TargetDrop, 2020

该系统整合了注意力机制与DropBlock两种技术。在整个训练过程中,在去除给定通道上具有最高区分度的区域时,在该系统中实现了这一目标。

在这里插入图片描述

TargetDrop: A Localized Regularization Technique for Convolutional Neural Networks

2-5 AutoDrop, 2021

该方法在选择丢弃哪一个神经元时缺乏空间上的指导。然而,在其策略中通过随机去除整个隐藏层区域来实现对单个神经元的选择。其结果使得CNN能够更有效地提取空间特征。然而,在该过程中所采用的丢弃策略是人工设计并保持固定不变。

AutoDrop基于此框架中设置了一个控制器,借助该控制器能够逐步学习最优的Drop模式。

在这里插入图片描述

A novel method named AutoDropout is proposed for learning dropout patterns that effectively regularize deep neural networks.

2-6 LocalDrop

基于Rademacher复杂性提出了一种新的方法来重新构建Dropout和DropBlock模型,并将其命名为LocalDrop

LocalDrop: 一种新型的混合正则化技术用于深度神经网络

2-7 Other methods, 2016

The introduction of identity mapping enables the redesign of the original input. Residual connections allow the model to learn how to construct these structures.

Identity mappings in deep residual networks

2-8 Shake-Shake, 2017

Shake-Shake通过调整残差连接中各支路的权重来增强网络的正则化效果。在训练过程中,Shake-shape影响了三个ResNet支路,在前向传播中对各支路施加了不同的缩放因子,在反向传播中则应用了各自独立的系数设置。在推理阶段,则会对各个支路进行按比例缩小处理。

在这里插入图片描述

该方法存在两个主要缺陷:其一仅为ResNeXt架构量身定制;其二是对其有效性机制尚无确凿证据,并引用了Shake-shake regularization这一研究文献

2-9 ShakeDrop, 2018

ShakeDrop不仅支持ResNeXt架构这一主流模型结构,还涵盖了ResNet、Wide ResNet以及PyramidNet等多种主流模型设计.经过将Shake-Shake机制与随机丢弃技术相结合后成为ShakeDrop.

在这里插入图片描述

ShakeDrop正则化:一种适用于深度残差学习的方法

2-10 Manifold Mixup, 2018

manifold mixup可被视为对原始mixup方法的一种扩展,在此过程中将输入空间通过混合扩展映射至隐层表示的空间中。该过程带来了显著的优势:不仅提升了分类器的平滑性,在保持原有分类效果的同时还实现了更好的类别区分能力。具体而言:通过扩大类别之间的置信度间隙来提升分类性能;利用线性插值将中间隐层的状态进行插值融合;同时降低了模型在复杂决策边界上的易变性

3 Label regularization

结构正则化被称为一种在训练阶段调整权重参数以保持输入的kernel特征不变的方法

3-1 Label Smoothing, 2014

Label Smoothing的发展中引入了一种新的标签编码过程中的正则化措施,在该过程中通过调整one-hot表示中每个位置的数值来执行相应的正则化操作。为了控制强度,在这种情况下smoothing factor通常被指定为0.1。

Label Smoothing主要缓解2个问题:

  • Overfitting problem
  • For the problem of overconfidence in uncertain results

Going deeper with convolutions

3-2 TSLA (Two-Stage Label Smoothing), 2020

双阶段标签平滑机制(TSLM)研究表明,在结合Label Smoothing技术时,在一定范围内仅能提升模型性能至一定数量的训练周期或阶段;建议将类别标签设定为0和1。

Towards understanding label smoothing

3-3 SLS (Structural Label Smoothing), 2020

SLS结构通过贝叶斯估计误差设定合适的Label Smoothing因子值并明确每个实例的边界区域.

A Method for Regularisation through Structural Label Smoothing

3-4 JoCor, 2020

该研究者开发出一种新方法以减少噪声标签对神经网络性能的影响。该研究者在同一数据集上训练了两个相似的神经网络模型,并尝试通过关联两个不同的标签来提升性能。该方法通过计算两个网络模型的交叉熵损失以及它们之间的对比损失之和来确定总损失值。在更新模型参数时,该研究者选择在批量处理中最小化影响较小的那一部分损失进行优化。

Reducing Agreement-Based Noisy Labels: A Co-Regularization Enhanced Joint Training Technique

全部评论 (0)

还没有任何评论哟~