Advertisement

论文笔记-A survey of active Learning for text classification using deep neural networks

阅读量:

1.主动学习是什么?

主动学习(Active Learning)

主动学习(AL)的主要目标是减少人工标注所需的数据量,并通过不断优化实现与oracle(即human annotator)之间的高效互动。

相较于传统被动学习的方法:
被动学习采用的是直接将标注好的数据输入至算法中进行训练的方式。
主动学习则通过选择待标注样本并基于新获得的标签数据重新启动训练过程。

Active Learner

  • 分类器(分类器)** :例如,在本文中以文本分类模型为例
    • 该策略决定了下一步应标记哪些实例
    • 该标准定义了何时应终止主动学习的循环

主动学习的三种场景

  1. pool-based : learner可以访问封闭的、未标记的实例集 ,称为池。具体来说,就是离线的、批量的学习场景。
  2. stream-based :learner每次接收一个实例,可以选择保留或者丢弃。即流式的学习场景。
  3. membership query synthesis(成员查询合成) : learner创造新的、需要标记的合成实例。

AL(Active Learning)的基本思想是少量具有代表性的样本能够代替全部数据集

  • 通过使用较小的数据子集能够有效降低计算成本
    • 相比之下,在完整数据集上进行学习可能会牺牲模型性能优势;而人工智能技术则能够实现更高的模型质量

应用优势

  • 在主动学习从业者中观察到的现象表明,在相同条件下这一现象可能通过两种途径实现:一是减少所需数据量以达到与现有方法相当的效果;二是保持数据规模的同时提升性能。
  • 另一个有益的趋势是迁移学习在NLP领域的应用——特别是微调预训练语言模型(LMs)的表现。
  • 主动学习在小数据场景下表现得尤为出色——它不仅减少了所需的数据量,并且还能通过微调优化现有的小规模模型。
  • 最后值得注意的是,在子词单元上利用LMs能够有效地管理那些不在词典中的单词或符号——这种方法的优势明显超过了许多传统方法。

本文旨在总结面向文本分类的、基于(D)NN的主动学习方法。
贡献点:

  1. 在文本分类领域内,在主动学习相关的查询策略与分类策略之间进行划分
  2. 研究当前存在的主动学习技术与文本分类技术之间的交叉点
  3. 本文综述了相关领域的最新进展以及现有方法在主动学习场景下的适用性
  4. 基于数据集、模型以及查询策略对以往研究的实验设置展开深入分析
  5. 研究表明实验中存在新的趋势、普遍现象及其存在的不足之处
  6. 我们识别出当前研究中存在的主要差距并阐述未来的研究方向。

与以往综述不同的是, 本文重点讨论了基于神经网络的主动学习方法, 特别是NLP领域的研究方向, 包括单词嵌入技术, 上下文语言模型的发展及其应用现状, 以及基于这些技术的进步性研究及其应用效果分析。

2. The details of AL

The overview of AL process

在这里插入图片描述

分为3步:

  1. query: oracle 发出请求获取未标注的数据
  2. unlabeled instances: active learner根据query strategy 筛选出固定数量的未标注实例,并将这些实例反馈给oracle
  3. update: oracle 对选中的实例进行标注,并将这些标注好的实例反馈回active learner用于模型更新
    每次完成一次update操作后, active learner会重新训练一次模型。循环此流程直至oracle停止或达到预先设定的终止条件。

每轮操作所需的开销不低于底层模型进行训练所需的时间。
在主动学习体系中占据核心地位的是查询策略。
基于不确定性的方法占据了相当比例。

2.1 Query Strategy

依据输入信息将常见的AL查询策略按照某种标准进行分类。在此时此刻, 输入信息可能是随机值. 数据源或模型预测结果. 这些层级是按照复杂性递增排列而设立的, 并非互斥关系. 在此情况下, 则将查询逻辑分配至最具体的层级(具体来说, 在此层级中优先采用预测驱动的方式, 在上一层级则采用模型驱动的方式, 在最高层级则依据原始数据进行判断).

在这里插入图片描述

从第二层一直到倒数第二层这一系列层次中, 我们构建了连续的子类别, 最后一层则具体展示了各类别的实例. 由于目前存在的查询策略数量庞大, 这种分类体系尚显不够完善, 而且这种分类主要集中在NLP领域内的检索策略

Random : randomly sampled selected instances, serving as a strong foundation for AL instance selection. It often competes with more complex strategies, especially when the label pool grows larger. 传统上被用作许多任务的基础

Data-based 策略体现了最基本的操作能力。这些方案仅关注输入样本及其标注信息,并不涉及更高级的认知活动。它们可分为两大类:一种分类方法关注于数据分布中的不确定性因素(data-uncertainty),另一种则侧重于样本代表性的评估(representative)。其中一种分类方法通过分析样本间的分布差异和标签相关性来推断潜在的数据特性;另一种分类方法则通过选择最具代表性的样本集来近似整体特征。前者关注的是数据内在特性及其相互关系;后者则通过精炼样本集来实现高效学习。

基于模型的方法旨在通过提供特定的数值指标来检索实例。具体而言:

  • 涉及:基于该实例生成器评估生成内容与真实内容之间的相似性。
  • 包括以下三个维度:
    • 置信程度:例如,在计算每个样本的概率分布后取最小值作为置信度基准。
    • 预期程度则由梯度幅度和权重参数共同决定。
    • 类别区分不足的情况( evidence不足不确定性)即在训练数据中没有找到足够的特征来进行准确分类的情形

该目标指标可作为优化约束,
且必须来源于模型内部计算出的相关指标,
但需注意的是该指标不应直接指向最终分类结果

Prediction-based :基于预测的方法通过评估预测结果来选择实例。这类方法中最具代表性的两种是基于预测不确定性和基于分歧的方法。具体而言,在分类问题中,基于预测的不确定性反映了类别间的分布不均匀性(即类别间不确定性),而基于模型的不确定性则对应于同一类别内部的数据分布不均匀性(即类别内不确定性)。 Sharma和Bilgic[87]采用证据冲突度作为衡量基于预测不确定性的指标,在本研究中与我们所采用的概念有所不同:他们认为这种度量属于另一种形式的模型不确定性。值得注意的是,在文献中将不确定性抽样[55]通常视为基于预测不确定性的策略应用方法;但在具体实施时需特别注意其定义是否与本文一致。

Ensembles : 集成多个查询策略的结果。(1)基于该分类法下的查询策略的方法。(2)集成过程可以采用不同类别查询策略的融合方式。( 集成结果通常是由各个分类器之间分歧所决定的 ,这一观点已在Olsson[71]及Fu, Zhu, and Li[25]之前的相关研究中得到体现。)

2.2 Neural-Network-Based Active Learning

本小节专门探讨神经网络在主动学习应用中为何并不普遍采用这一现象的原因

第一部分分析其局限性体现在哪些方面

  • 神经网络中的不确定性量化,
  • 比较依赖大量数据训练的神经网络与采用少量数据进行主动学习的方法之间的差异。

Neural networks' uncertainty (Uncertainty in Neural Networks)
Uncertainty sampling was among the earliest and most widely adopted strategies. However, uncertainty sampling is not applicable to neural networks, as they lack an inherent measure of uncertainty.
Solutions include:

  • 涵盖误差估计的集成方法。
    • 扩展贝叶斯框架,并引入Dropout机制以量化模型不确定度;同时利用概率神经网络评估预测不确定度。
      然而,在处理大规模数据集时,现有的集成方法和贝叶斯方法均表现不足;而深度学习模型由于对预测过于自信(容易过拟合),未能有效解决这一问题。
      现有技术在处理神经网络中的不确定度方面仍存在不足,在这一研究热点上仍有大量工作待开展。

需要大数据的神经网络与处理小数据的主动学习的模式对比

DNN特别擅长处理大量数据集,在保证性能良好的情况下,则通常会采用较多的标注样本数量进行训练;然而,在实际应用中,则会致力于最大限度地降低标注样本的数量

以深度神经网络(DNN)为例,在有限的数据量下容易出现过拟合现象,并因而影响其泛化性能。相比于浅层模型,在处理有限训练数据时深度神经网络通常表现不足。另一方面,在实际应用中我们显然不能要求主动学习方法对更大规模的数据进行标注操作,这与其本质目标存在矛盾。

对小数据集的应对措施通常是基于预训练模型或迁移学习技术展开的。在多数情况下,默认会采用现有研究中的超参数设置(当存在优化机会时)

3. 文本分类中的主动学习

3.1 文本分类的最新进展

Representations :

  • 词袋模型(BoW):稀疏性与高维度特征

    • 词嵌入(Word2Vec,GloVe,fastText): a.在向量空间中表征语义关联并缓解了同义词在向量空间中难以对齐的挑战;b.这些方法显著提升了下游任务的表现效果;c.与传统的袋整模型不同的是,在这种表示方式下生成的向量具有密集性且维度较低,在支持固定大小输入的神经网络架构中有广泛的适用性;d.值得注意的是,在这种表示方式下生成的向量不直接携带词语的具体上下文信息。
    • 由于这些方法生成的是独立于具体上下文意义的低维向量,在检测和处理歧义方面存在局限性。
  • 语言模型:语言模型(LMs)基于单词及其周围的语境信息构建单词向量,并生成了上下文相关的表征。其优点在于继承了词嵌入方法的密集性和低维性,在生成句子表征时采用了类似的思路。例如ELMo、Bert、XLNet、RoBERTa以及ELECTRA等方法均属于此类别。
    所有提到的方法都比传统的Bag of Words(BoW)表征更加丰富, 因此非常适合用于主动学习的目的。

基于神经网络的文本分类

  • KimCNN: 广为人知的一个由Kim开创性地提出的CNN架构,在采用预训练词向量的基础上,并仅凭借一个简洁而优雅的设计,在当时的文本分类任务中取得了最佳成绩。该网络架构的设计特点在于减少了不必要的超参数调节需求,并验证了Dropout在基于卷积神经网络的语言分类中的有效性。
  • ULMFiT(通用语言模型微调): 一种利用AWD-LSTM架构进行迁移学习的语言模型方法,在仅基于100个标记样例进行微调的情况下,在多个文本分类数据集上展现出超越现有复杂模型的优势。
  • 基于上下文的语言模型(如BERT和XLNet):这类方法通过为每个token生成与其相关的上下文表示,在显著提升基于神经网络的语言分类技术方面发挥了重要作用。

近年来,在文本分类领域取得显著进展的技术是通过预训练语言模型进行微调训练的XLNet模型。从测试误差率来看,在性能上XLNet略胜一筹。紧随其后的是ULMFiT模型,而KimCNN仍以其强大的性能表现突出。值得注意的是,在这三种方法中都采用了迁移学习策略:通过将知识从一个预训练模型转移到另一个任务相关的模型中去,从而大幅降低了所需的数据规模。

3.2 基于主动学习的文本分类

  1. 基于主动学习的传统文本分类方法高度依赖于预测不确定性和集成型查询机制的选择过程。 常用的学习器包括支持向量机、朴素贝叶斯分类器以及logistic回归等模型。
  2. 基于神经网络的主动学习方法主要聚焦于卷积神经网络(CNN)与长短期记忆网络(LSTM)、门控循环单元(Gated Recurrent Unit, GRU)等架构的设计与应用。
    (a)CNN : Zhang等研究者提出了基于CNN架构的主动学习策略,在该框架下通过词嵌入预测变化率与实例不确定性度量选择最优样本进行学习。
    (b)LSTM/GRU : An等人对SVM、LSTM及GRU方法进行了系统评估,在中文新闻数据集ThucNews上发现后两者在性能指标上均显著优于传统SVM基线方法。
    (c)文本表示 : Lu团队研究了池化操作在主动学习场景下的表现特征,在对比实验中发现使用transformer编码器所提取的文字表征形式能够显著提升传统支持向量机模型的表现效果。
    (d)FastText+预测不确定性查询策略 : Prabhu等人深入探讨了抽样偏差问题,并提出将主动学习技术应用于大规模文档库的可能性。他们发现采用FastText.zip结合熵度量不确定性采样策略可获得一个强大的性能基准,并在此基础上构建了一个仅占总数据5%-40%的小型代理数据集,在该子集上通过ULMFiT预训练模型实现了与完整数据集训练相当甚至更好的性能水平。

3.3 以前实验的共性和局限性

下表为文本分类中的主动学习进展:

文本分类中的主动学习进展
  1. 共性:主要采用的是以预测为基础的查询策略(其中包含以预测不确定性为基础以及基于分歧两种类型)。
  2. 局限性:多数实验采用了两个或更多标准数据集进行评估,在不同数据集之间的实验结果很少有重叠;因此导致与以往研究缺乏可比性。进一步的问题在于目前尚不清楚这些先前实验及其结果是否及多大程度上适用于DNN。

结论

4.开放研究问题

神经网络中的不确定性评估:基于神经网络的主动学习的发展依赖于对神经网络不确定性评估的清晰理解。
表示:尽管在实际应用中已有一定成果[1-3],但目前仍缺乏针对主动学习特异性的系统性研究来全面比较词嵌入方法与基于语言模型的方法。
小数据的DNN:深度学习(DL)方法通常依赖于大量标注数据集的支持。然而,在主动学习场景中,默认的数据规模往往难以满足需求[4]。通过预训练语言模型进行微调处理后[5] ,问题得到了一定程度上的缓解:即可以通过极小规模的数据集快速完成模型微调训练。尽管如此[6] ,如何确定一个模型成功训练所需的最低数据量仍是一个开放且重要的研究问题。
【可比较的评估

全部评论 (0)

还没有任何评论哟~