Advertisement

论文解读 | Unsupervised Data Augmentation for Consistency Training

阅读量:

单 位:燕山大学

作 者: 王 琴

摘要

尽管深度学习取得了显著成效(虽然取得了显著成效),但在面对标注数据数量有限的情况时(仅依赖于少量标记样本),其表现并不理想(表现并不理想)。与有监督环境相比(与以前仅依赖高斯噪声或压降噪声的方法相比),无监督数据增强(UDA)通过引入由最新数据生成的更具挑战性的噪声来源实现了质的飞跃(实现了质的飞跃)。这种创新方法不仅提升了模型对未标记样本的一致性预测能力(不仅提升了模型对未标记样本的一致性预测能力),而且显著改善了其在多种语言和视觉任务上的性能(显著改善了其在多种语言和视觉任务上的性能)。通过实验研究发现(通过实验研究发现),UDA不仅能够有效利用少量标记样本提升模型性能(能够有效利用少量标记样本提升模型性能),还能将其性能与拥有大量标注数据的传统方法相媲美(甚至与其性能相媲美)。具体而言,在仅依赖于20个标记样本的情况下(具体而言,在仅依赖于20个标记样本的情况下),UDA实现了4.20%的错误率;而在拥有5万以上标注样本的传统方法中表现依然出色

1. 简介

深度学习往往依赖于大量高质量标注数据以实现其性能。然而,在每一个新的任务目标下获取标注数据都需要投入巨大的资源与成本。为了弥补这一不足,在这一挑战下提升模型性能一直是关键研究路径之一。在这一领域中占据重要地位的是半监督学习方法,在这一研究方向上目前主要可划分为三类:

(1)利用图卷积网络和图嵌入技术实现基于图的数据传播;
(2)将预测对象建模为潜在变量(latent variables),即潜在变量或隐藏变量;
(3)实现数据的一致性和光滑传播。

其中一类基于平滑度执行的方法已被广泛应用于多个任务领域,并展现出显著的有效性。平滑度强制机制旨在使模型预测对样本的小幅变化不产生显著影响。具体而言,在给定一个观测样本的情况下,平滑度强制方法会首先生成其鲁棒性增强版本(如通过添加诸如高斯噪声或压降等人工干扰的方式),并确保这两个样本具有相似的预测结果。理想情况下,在经过鲁棒性增强处理后的新模型应对其产生的微小变化保持稳定预测能力。在这一通用框架下,则主要区别体现在如何构建鲁棒性增强机制。

作者在多种语言环境与视觉任务中进行了UDA方法的评估。研究发现,在六个不同的文本分类任务中,该方法相较于最新的模型实现了显著的提升效果。值得注意的是,在IMDb数据集上,在仅使用20个标记样本的情况下实现的UDA性能明显优于基于125,000个标记样本训练出的新一代模型。此外,在标准半监督学习基准测试集CIFAR-10与SVHN上进行进一步验证时发现,在仅包含4,000个带标签样本的情况下完成训练的UDA方法同样表现出色,并且其错误率仅为5.27%,几乎与采用5万标淮样本进行监督学习的传统方法性能持平。值得注意的是,在这一场景下PyramidNet + ShakeDrop体系结构的应用使得FDA错误率进一步降至最低水平(约达68.66%)。值得指出的是,在SVHN数据集上仅使用250个带标签样本时就实现了高达8.43%错误率的结果(约为未经标注训练时表现水平)。最后的研究发现表明,在拥有大量标注数据的情况下(如ImageNet),即使未采用标注数据也无法忽视FDA的价值(例如,在包含1/9标注数据量情况下实现了68.66% top-1准确度与88.52% top-5准确度);而当结合完整标注数据集与外部未标注数据集(总计超过一百三十万无标注图像)时,则能将基准结果分别从78.28% / 94.36%提升至79.49% / 94.49%

作者的贡献如下(将在本文的其余部分中介绍):

  1. 首先, 提出了被称为TSA的一种训练技术,尤其在未标记数据数量远超有标签数据的情况下,该技术能够有效地防止过拟合.
  2. 接着, 表明具有针对性的数据增强方法(如AutoAugment)相较于无针对性的数据增强方案表现出明显优势.
  3. 最后一点, 结合一组用于NLP的数据增强方案, 并展示了该方案的有效性, 并补充了基于BERT等表征学习的方法.
  4. 进一步说明, 研究表明, 在特定范围内与以往的方法相比, 在视觉任务和语言任务上的性能得到了显著提升.
  5. 综上所述, 开发了一种方法使得UDA甚至可以在标记与未标记数据分布不匹配的情境下得到应用.

2. 无监督数据增强(Unsupervised Data Augmentation,UDA)

背景

在本文中, 研究者将深入探讨分类问题. 我们用x来表示输入, 并以y(x)或y_的形式标识其实测输出变量. 通过学习基于输入x预测y_ 的概率模型pθ(y | x), 其中θ代表模型参数. 最后, 我们采用L与U分别代表标记数据集与未标记数据集.

数据增强旨在通过样本转换生成新样本的同时保留原有标签信息,并构建逼真的训练数据集。这里定义q(x? | x)表示增强变换,在这种情况下能够从原始样本x生成对应的增强样本x?且必须满足y(x?) = y(x)。在监督学习中进行的数据增强相当于从原始标记集构造出新的标记集,并在此基础上训练模型。因此,在设计有效的增强集合时需特别注意其带来的潜在偏差问题。值得注意的是,在这一过程中如何设计合适的q(x? | x)就显得尤为重要了。近年来,在受严格监管的环境下针对NLP、计算机视觉以及语音处理任务的数据增强方法已经取得了巨大进展。然而尽管取得了不错的成效但它仅能带来有限但稳定的性能提升这是因为到目前为止这些方法主要应用于那些数量较小且具有明确标记的训练数据集合中所受到的限制驱使作者提出了UDA这一框架以将有效的数据增广技术应用于通常规模更大的未标注数据。

UDA

如引言所述,在半监督学习领域的最新研究工作主要基于无标签数据来提升模型的平滑特性。 这些研究工作的通用模式可被简洁地描述为:

  • 给定输入样本x, 我们可以通过加入一个轻微的干扰信号来估计输出分布pθ(y|x)及其受扰动后的版本pθ(y|x'). 此外, 这种干扰信号还可以应用于输入层或隐藏层, 并且可以通过不同的计算路径实现.
  • 为了优化两个预测分布D(pθ(y|x), pθ(y|x'))之间的散度指标.

该过程使模型对于扰动具有更强的鲁棒性,在输入空间或隐藏空间的变化方面更为平滑。作者对现有的平滑性/一致性执行工作进行了简单修改,并增加了数据增强的应用作为扰动手段。他建议采用针对不同任务的最佳数据增强方法作为一种特殊的扰动形式,并对未标记样本进行优化以保持相同的平滑度或一致性水平。具体而言,在基于VAT的方法中,在预测分布上最小化未标记样本与其增强版本之间的KL散度:

图1

考虑到训练阶段实时生成增强数据会产生高成本,在这种情况下选择离线生成更为经济合理。针对每一个未标注的数据样本,在离线阶段会生成多个扩展版本以丰富数据集内容。随着引入带有标签的数据样本后,在模型中增加了交叉熵损失函数以及权重系数λ(如图2所示)。

图2

基于一致性损失的最小化原则下进行设计的UDA方法,在理论上使得标签信息能够从带标签样本有效地传播至未标注样本。在多数实验中设定λ值为1,并分别采用不同的批量处理方式来处理监督学习数据与非监督学习数据之间的关系。研究发现,在某些特定数据集上采用更大的批量规模在非监督学习数据上能够显著提升模型性能。

在现有干扰手段(如高斯噪声和压降噪声)以及常规的强化措施(如仿射变换)的基础上,在处理特定任务时采用数据增强作为‘干扰手段’的有效补充。

特别地,使用带目标性数据增强作为微扰函数具有以下优点:

  • 有效性扰动:具备出色性能的数据增强方法能够在监督学习场景下生成高度逼真的增广示例,并能在原始未标注样本以及扩展的未标注样本上实现平滑性与一致性的显著提升。
  • 多样性扰动:通过数据增强技术能够构建出一个完整的数据集系列,在这一过程中输入样本能够经过多种修改方式而不影响其原有的标签信息;相比之下基于高斯噪声或伯努利分布等单点微调手段仅会导致局部范围内的轻微变化;而在多维度扩展后的样本集合上实现平滑度的显著提升则明显改善了采样的效率与效果。
  • 目标归纳偏差:不同任务通常需要建立各自对应的归纳偏好;AutoAugment框架则允许通过对数据增强策略进行直接优化来提升每个特定任务下的验证性能;研究表明该方法不仅在典型的监督学习场景下展现出卓越的效果,在半监督学习等其他复杂场景下同样取得了令人满意的实验结果。
文本分类中的数据增强方法
  • 反向翻译(Back translation):反向翻译可以在保留原始句子的语义的同时生成多种释义,并且已被证明可以对QANet的问答性能做出重大提升。因此,对于情感分类数据集(包括IMDb,Yelp-2,Yelp-5,Amazon-2和Amazon-5),可以采用反向翻译系统来训练数据。作者发现,句子的多样性比质量或有效性更为重要。因此,采用了可调的随机采样来代替光束搜索来生成。 更具体地说,使用了WMT 14语料库训练英语到法语和法语到英语的翻译模型,并对每个句子(而不是整个段落)执行反向翻译,因为WMT 14中的并行数据用于句子级别的翻译,而情感分类语料库中的输入示例为段落。
  • 基于TF-IDF的单词替换。 虽然反向翻译擅长于维护原始句子的全局语义,但不能保证它会保留某些单词。 但是,DBPedia的任务是预测Wikipedia页面的类别,在确定类别时,某些关键字比其他单词具有更多的信息性。 因此,作者提出一种称为基于TF-IDF的单词替换的增强方法,该方法将替换通常具有较低TF-IDF分数的非信息性单词,同时保留具有较高TF-IDF分数的关键字。
    研究发现权衡数据增强方法的多样性和有效性是有益的。对于图像分类,由于AutoAugment根据监督设置中的验证集性能进行了优化,因此会自动在多样性和有效性之间找到最佳结合点;对于文本分类,可以通过调整随机采样的温度系数。一方面,当温度系数为0时,通过随机采样进行的解码会退化为贪婪解码,并生成完全有效但完全相同的样本。另一方面,当温度系数为1时,随机采样会生成非常多样化但几乎不可读的样本。作者发现将Softmax温度设置为0.7、0.8或0.9可获得最佳性能。

3. 其他训练技巧

训练信号退火(Training Signal Annealing,TSA)

由于标注数据相较于未标注数据获取较为困难,在实际应用中经常发现其比例往往呈现显著差异。为了最大化地利用大量未标注数据以提升模型性能, 通常需要构建一个具有充足参数空间的大容量模型, 然而这种规模较大的模型可能会导致有限数量的标注数据容易出现过拟合现象。为此本研究提出了一种新型训练策略称为训练信号退火(TSA)。

TSA的核心理念在于通过模型在海量无标签数据上的持续训练来逐步泄露标记样本的训练信号。具体而言,在每个迭代步骤t中,默认设定阈值范围为1/K至1(其中K表示类别总数)。当模型识别到某批标记样本所属类别x的概率超过当前阈值时,则对该样本实例从损失函数计算中予以排除仅对剩余批次中的其他标记样本执行训练操作;基于一个小批量带有标签的数据集B进行模型优化:

在这里插入图片描述

其中I(·)被定义为指示函数,Z 被定义为归一化常数。阈值ηt被设定为上限参数,其作用在于防止模型对已确定样本数据进行过度学习和优化。当ηt从初始值1/K逐步退火至最终值1时,该算法通过渐进式地增强对标记样本监督能力的过程,有效地降低了模型对已标记数据集的过拟合倾向。

增强预测(Sharpening Predictions)

当标记样本数量极少且问题高度复杂时,在这种情况下基于未经标注的数据及其增强版本的预测分布通常在各类别中较为平缓。因此KL散度提供的无监督学习信号相对较弱从而主要由有监督学习部分主导。研究者发现通过增强未经标注的数据集上的预测结果具有显著优势并采用了以下三种技术:置信掩膜熵最小化以及Softmax温度调节。实际上作者建议,在仅标注少量数据的情况下最佳策略是同时应用置信掩膜与Softmax温度调节以获得最佳效果

领域相关数据过滤

在理想情况下,在可获得性方面考虑全面的情况下,在理想情况下,在理想条件下,在理想状态下,在最佳实践指导原则下,在理论最优的情形下

4. 实验

文本分类实验
  • 数据集:该研究在包括IMDb、Yelp-2、Yelp-5、Amazon-2、Amazon-5和DBPedia等六种语言的数据集上进行了实验。
  • 实验设置:基于BERT架构设计的Transformer模型被用作基准模型。随后探索了四种预训练语言模型初始化方案:包括随机初始化的Transformer架构、BertBase预训练模型(包括中文和英文版本)、BertLarge预训练模型以及BERT微调优化方法。随后提出的微调策略既参考了ELMo也借鉴了ULMFiT的方法论框架。
  • 结果:表1汇总了文本分类的相关结果,涵盖了三个主要方面:
    1. 无论采用何种初始化方案,在进行UDA策略时都能持续提升性能表现。值得注意的是,在对BERT进行领域内微调时,即使仅使用IMDb数据也能将错误率从6.50%显著降低至4.20%。这一发现表明UDA策略能够与表示学习方法相辅相成。
    2. 在仅拥有少量标记样本的情况下(如二分类情感分析任务中仅有20个标记样本),UDA方法展现出显著优势。具体而言,在IMDb任务上与其完全监督训练的SOTA对比表现突出,并且在Yelp-2及Amazon-2等其他任务上也表现出较强竞争力。
    3. 对于五分类情感分析任务而言,在每个类别标注样本数量达到500的情况下(即UDA条件下)与在整个监督集中进行BERT预训练相比仍存在较大性能差距。这提示未来仍有必要进一步改进相关技术。
表1

标记集规模对结果的影响程度较高。此外,在实验中采用不同规模的标记集来验证UDA方法的效果.

图4
与半监督学习方法的比较

实验设置:遵循半监督学习的标准框架,在对比实验中分别采用CIFAR-10和SVHN作为数据集基础进行验证,并以WideResNet-28-2为基础构建了基准模型。研究中将UDA方法与其他几种主流策略进行系统性对比分析:包括基于自训练策略的Pseudo-Label方法、针对输入生成对抗性高斯扰动的虚拟对抗训练方法(VAT),以及Π-Model、Mean Teach、MixMatch等前沿算法方案。

与现有半监督学习方法进行了系统性对比分析,并通过对比图5可以看出

图5
消融实验
  • TSA:作者探讨了TSA在处理大量无标签数据时对两个具体任务的影响。
  • 在针对此文本分类任务的研究中(此处约有600万个无标签样本与仅2.5千个标签样本相对比),我们并未采用BERT初始化网络以排除基于预训练表示的因素。
  • 比较而言,在CIFAR-10数据集上(包含约5万个无标签样本以及4千个标签样本),这种对比更加显著。
  • 根据表5的数据显示,在Yelp-5任务中(此处无标签数据远超标签数据),与仅采用无监督方法作为基准相比(即未应用TSA的情况),应用TSA能够将错误率从50.81%降至41.35%。
表5
  • 该类增强技术在监督学习场景中展现出显著的优势。
  • 现有诸多增强技术均能在有标签数据环境下显著提升模型性能。
  • 本文旨在探究针对无标签数据设计的特定增强技术的有效性。
  • 同时探讨通过改进现有的增强方法是否能在半监督学习场景下提升模型性能。

如表6所示,在对Switched Augment所采用的AutoAugment策略进行应用时,在CIFAR-10数据集上实现了错误率从5.10提升至5.59的结果。若放弃Augment操作而仅采用Cutout技术,则测试误差将进一步提高至6.42。进一步地,在仅依赖基本的裁剪操作及其翻转变换的情况下所带来的误差上升则达到了16.17的水平。值得注意的是,在SVHN数据集上所实施的不同增强方法均呈现出相似的效果表现

表6

结论

研究表明,数据增强与半监督学习之间具有密切关联。UDA通过高度定制的数据增强手段生成逼真的扰动样本,并使模型在这些样本上保持稳定状态。此外,在处理大量未标记数据时能够有效防止UDA在受监管数据集上的过度拟合问题。对于文本处理任务而言,UDA能够与表示学习方法如BERT等良好结合,并且特别适合于小规模训练数据的情况。而针对图像处理任务,则展现了显著的优势:将错误率较之提升至30%以上的水平,在性能指标方面同样表现出色的情况下,在图像处理任务中应用的半监督学习方法——UDA——同样展现出显著的优势

代码链接:https://github.com/google-research/uda

论文链接:https://arxiv.org/pdf/1904.12848v2.pdf

全部评论 (0)

还没有任何评论哟~