论文阅读:深度学习图像数据增广方法研究综述
摘要
背景:
充足的训练数据不仅能够缓解模型在训练阶段出现的过拟合现象,并且还能进一步扩展参数搜索的空间,在优化模型全局最优解的过程中同样具有重要意义。
然而,在多个领域或任务中都面临着获取足够多的训练样本都面临很高的获取成本。因此,
数据增强技术成为解决这一问题的重要手段。
本文贡献:
根据方法本质原理的不同, 可将其实现路径划分为单数据变形法与多数据融合法两大类. 在单数据变形法中, 其具体实现又可分为几何变换法, 颜色空间转换法, 明暗度调整法, 添加噪声法以及局部遮挡法等 5 种基本形式; 而多数据融合法则可依据图像维度特征的差异及特征空间下的分布特点分别展开研究. 在学习阶段的数据分布分析方面, 主要通过生成对抗网络框架及图像风格迁移理论来构建分类体系; 最后针对增强训练策略的具体实现途径, 则可将其归纳为元学习驱动型与强化学习驱动型两大类.
前景:
根据现有数据与任务需求
0. 引言
在众多研究领域中由于数据获取难度较高以及标注成本等问题 人们常常面临无法获得充足训练数据的情况 这种情况下 训练出的深度学习模型往往会陷入过拟合的困境 从而使得模型在泛化能力和测试精度方面表现欠佳 这一问题严重制约了其实际应用效果
Data Augmentation, 也称为Data Enhancement (data augmentation),是一种通过有限数据数量和多样性提升效率的方法。其目的是利用有限的数据资源获取更多信息,并相当于增加了更多真实样本来使用的效果。该方法针对训练样本不足这一根本原因而设计。
数据增广主要包含数据变形 (data transformation) 和 过采样处理 (over-sampling) 的方法。
数据转换技术:LeNet-5、AlexNet、VGGNet、GoogleNet、ResNet、DenseNet均被其应用。
多幅图像的信息融合 :SamplePairing 、mixup、SMOTE等技术,在数据科学领域中被广泛应用于解决数据过采样的问题。
GAN :Frid-Adar 等
元学习与强化学习的核心思想:通过训练一个模型来自适应地选择最优的数据增强策略以实现最大化的模型性能。AutoAugment 和 RandAugment 是基于自动增强技术的算法框架。
本文另辟蹊径从数据增广的生成方式综述出发,并将现有研究中关于数据扩增的方法进行了系统梳理与总结,在现有的研究基础上将其归类为单一数据变形、多种数据融合、基于学习机制生成新的样本以及优化增广策略等4大类方法
1. 单数据变形
1.1 几何变换
- 几何变换(geometric transformations)是最常见的图像数据增强手段,在实际应用中通常采用旋转、镜像、平移以及裁剪等方式生成新的样本。
- 在实际应用中,在处理不同场景时需要根据具体的数据特点选择合适的几何变换方法才能进一步提高模型的性能。
- 然而尽管这些方法操作简便直观,在一定程度上存在对数据进行过度记忆以及信息增益有限等问题。
1.2 色域变换
- 颜色空间转换( color space transformations) 是一种在 图像各个通道上执行明度变化的新样本生成方法。
- 基于颜色空间转换的数据增强本质上是通过引入多样化的光照明度偏差来强化模型在不同光照条件下的鲁棒性。
- 在图像分类任务中,在空间几何信息的重要性上超过了色彩信息这一点毋庸置疑。无论是进行颜色空间转换还是几何变换都会面临相同的局限性:它们可能会丢失一些关键的颜色信息,并因此改变原始图像的意义。
示例:
- 颜色抖动(color jittering)是一种图像增强技术,在其机制中使用了多种色彩搭配来模拟出广袤色域内的多样色彩模式。
- PCA抖动(fancy PCA)是一种基于主成分分析的技术,在该方法中首先对原始图像进行主成分分析(PCA),计算得到协方差矩阵;接着对该主成分的特征值施加一个均值为0的随机扰动,并通过反变换恢复到原始空间。
- 高斯抖动是一种图像处理方法,在其核心逻辑中通过对协方差矩阵加入噪声的方式实现了视觉效果上的滤镜效果。
- 在实际应用场景中甚至能够借助图像编辑软件实现更为灵活的颜色变换操作。

1.3 清晰度变换
- 清晰度变换是一种新型数据增强方法。
- “核滤波器( kernel filters) ”, 核滤波器利用滑动的 n×m 大小矩阵执行卷积运算, 能够实现图像的锐化与模糊效果, 进而提升图像的清晰度水平。
- 采用这种滤波方式对数据集进行增强不如将其作为网络的一层相比而言, 在网络架构中嵌入这一层能够优化整体性能, 并能训练获得最优的滤波操作。
示例:
无法进行同义改写
无法进行同义改写
1.4 噪声注入
- 噪声添加( noise injection) 是一种在图像中引入人工干扰信号的数据增强手段。
- 通过人为引入干扰信号并模仿不同清晰度的图像质量变化过程, 可以帮助模型更好地适应实际应用中的各种不确定性因素。
- 常见类型包括高斯白噪音、瑞利分布噪音、伽马分布噪音等。
- 在实际应用中, 向图像中添加人工引入的高斯白噪音(Gaussian White Noise), 可以有效促进卷积神经网络(CNN)学习出更加稳定的特征表征。
- 对于高度复杂场景下的多分类任务而言, 在欠拟合状态下应用基于人工添加噪音的数据扩增方法并不能显著提升模型性能。
- 抗抗训练作为一种有效的防御机制, 在机器学习领域中被广泛采用。
示例:
- 前向噪声调节策略( forward noise regulation strategy)
- 30 类遥感图像场景数据集
- 将噪声叠加至图像上生成对抗样本。
- 扰动标签法(DisturbLabel)
1.5 局部擦除
- 与噪声不同的是对图像离散像素值信息的干扰过程;而局部擦除则导致图像局部区域所有像素值信息的丢失。
- 驱使模型去学习图像中更宽广且具有描述性的特征;从而有效防止模型过度拟合于特定视觉特征。
- 基于数据和任务的不同情况;这种方法有时需要人工干预来确保其有效运行。
示例:
- 随机擦除(random erasing),可被视为一种在数据空间中实施的dropout技术。
- Cutout正则化方法与Hide-and-Seek策略共同构成了网格掩码(GridMask) family的核心组件。
- 在非均匀区域中实施局部删减操作以增强模型鲁棒性。

2. 多数据混合
多种数据融合的方法致力于实现通过信息融合生成新的训练数据集。在图像空间或特征空间中完成这种信息融合。
2.1 图像空间的数据混合
- 在图像空间中对多幅图像进行数据混合是一种数据增广方法。
- 这种方法包括线性和非线性的组合方式。
- 虽然这种方法看起来与人类直觉不一致,并没有明显的解释逻辑,
- 却能够显著提高模型在分类任务中的准确率。
示例:
- 利用线性组合图像:SamplePairing、混合操作和跨类别学习
- 通过取两幅图像的算术平均值来生成中间样本的做法类似于在数据空间中找到两个样本之间的中点。
- 混合操作则进一步扩展了这一概念,在生成新的训练样本时采用了非均匀权重。

- mixup 数据增广方法不仅能够显著提升深度神经网络模型的泛化性能,并且能够有效地减少模型对误标数据的记忆能力的同时也能有助于提升模型对对抗样本的抗性能力甚至还能稳定地促进对抗网络的训练过程。
- 在CNN架构中输入的数据可被视为一种波形从波形混合的角度来看图像线性叠加的数据增广方法可以从本质上被理解为一种操作机制具体而言类间学习方法( between-class learning BC)应用到图像领域时会通过随机比例地混合两张图像来构建新的样本集这种方法实际上等同于在优化过程中施加了一个正则项其目的是促使模型尽量呈现出一种线性关系模式从而防止过拟合现象的发生

- 非线性图像混合

- 多图随机裁剪拼接混合

2.2 特征空间数据混合
- 基于 CNN 提取的图像特征,在特征空间进行数据增广。
- 针对图像数据的处理中使用的数据混合方法很少被采用。
示例:
- SMOTE 技术是一种基于特征空间的外插值方法用于创造新的样本。
- 在特征空间外进行外插值得到的新样本。
- 数据空间中的图像变换效果更出色于特征空间中的变换。
3. 学习数据分布
生成式模型在机器学习领域中能够实现对数据的学习与分析过程。经过训练后, 该模型能够估计其潜在的概率分布, 并在此基础上通过过采样从该分布中生成新的样本。基于整个数据集构建了先验知识之后, 这种基于概率的数据增强方法从理论上讲是一种更为高效的方法。
3.1 生成对抗网络
- GAN的核心理念源自博弈论中的两人零和博弈模型 (zero-sum game model)
- 其中生成器G与判别器D之间的优化过程构成一个极小极大(min-max)问题
- 其主要目标是学习数据潜在分布机制,并通过生成机制创造新的样本实例
- 判别器的作用相当于一个二元分类模型(binary classifier),其功能是识别输入样本是否来自真实数据分布
- 通过实验结果对比表明,在数据增强效果方面
- GAN模型通常需要较大的训练数据集以实现稳定的训练效果
示例:
- PG-GANs
- BigGANs
- DCGAN
- conditional GAN
- SiftingGAN

- 真假样本混合加权训练的数据增广方法
3.2 图像风格迁移
- 风格迁移( style transfer),亦即"基于图像的域外学习( domain adaptation for images)"或"图像到图像转换( image-to-image translation)"等术语,在广义上被视为一种特殊的图像变换技术。
- 它的本质是在不同数据分布间建立一种相互映射关系。
示例:
- 该方法基于条件生成对抗网络提出了pix2pix方法。
- 具有循环一致性的生成对抗网络(cycle-consistent adversarial networks, CycleGAN)。

- 在MR影像与CT影像之间进行转换。
- 在相同的遥感场景中,SAR以及红外和可见光影像间的转换。
- 神经风格迁移(neural style transfer)等同于颜色空间中的光照变换。
4. 学习增广策略
基于元学习(meta-learning)和强化学习(reinforcement learning)的框架下训练该模型时,能够动态选择最优的数据增强策略以实现模型性能的最大化。
4.1 基于元学习的策略
- 元学习的核心理念在于使模型能够模拟人类的学习机制。
- 其主要思想即通过回顾以往的学习经历与知识积累提炼出有效的学习策略。
- 进而能够迅速掌握新的知识并灵活应对新的任务与环境变化。
- 在数据增强领域中,
- 可以用神经网络的方式替代传统的确定性数据增强手段。
- 通过训练模型以优化更为智能的数据增强策略。
示例:
从同一类别中随机选出两幅图像,并通过神经网络学习其共性特征或艺术风格特征;随后生成一个"提升图像"(enhanced image),并将其原始版本一并加入分类网络中进行分类模型训练
4.2 基于强化学习的策略
- 在给定的一组图像变换方法与混合策略中寻找最佳组合方案。
- 为实现特定任务而定制适合的一组图像变换策略方案,并进一步提升模型预测能力的能力仍是一个未解之谜。
示例:
- 离散空间中的搜索问题
- AutoAugment采用了基于强化学习的方法来实现 AutoAugment 的自动增强过程
- RandAugment则通过生成一系列随机参数化变换来实现增强效果的调节
5. 方法分析与研究展望
5.1 不同数据增广方法选用分析
- 若采用不当的数据变换方法可能导致负面效果出现。因此,在应用数据增强技术时首先要充分考虑其适用性问题。
- 尽管在选择数据增强方法时需综合考虑各类别及跨领域图像的独特特征,但均需遵循一个基本准则: 在保留图像原有语义信息的基础上尽可能扩大其形态变化范围。
- 自然图像与遥感图像在被人类理解和解析过程中往往会因景物对背景及物像的遮挡现象而产生影响,例如自然场景中的景物常因前景遮挡背景,遥感场景中云层对地物成像造成干扰等情况,此时裁剪操作等去噪处理手段有助于提升模型抗遮挡能力;但在医学影像领域由于成像原理的不同,通常不会出现遮挡现象,因此这类数据增强技术的有效性仍需进一步验证。
- 尽管已有研究表明基于生成对抗网络的数据增强技术能够显著提升模型精度水平,但该类学习型增强方法需要大量样本支撑训练过程,对于样本数量有限的任务并不适合采用此类技术方案。

5.2 未来研究展望
- 因为图像的空间分辨率较高且通道数量较多,在训练GAN时往往面临样本数量有限的问题,在实际应用中容易导致GAN对图像数据的概率分布难以精确拟合,从而使得生成图像的质量难以可靠保证,这在一定程度上限制了GAN作为理论最优的数据增强方法的发展前景。
- 在风格迁移研究与应用方面,GAN的本质就是在建立不同数据分布间的一一对应关系,针对现实世界中存在的跨场景、跨模态的多领域分布数据,通过建立这种对应关系可实现各类数据间的互补性提升。
6. 结语
- 数据增广被视为一种关键手段,在多个领域中被广泛应用。
- 该方法将增广过程划分为四类:单一的数据变换、多种的数据融合以及基于分布的学习策略。
- 基于学习的方法在提升效果方面前景广阔:
- 利用强化学习探索最优的数据组合策略;
- 通过元学习实现对最佳变形与融合模式的自适应性掌握;
- 利用生成对抗网络精确拟合真实分布以获取高质量未知样本;
- 探索多模态间转换应用的可能性。
