Advertisement

【论文阅读】a survey of deep active learning

阅读量:

概念:

从未标记的数据集中挑选最具价值的样本,并由人工标注者完成其标注任务,在保证性能水平的同时尽量减少人工标注成本。

试图通过标记最少量的样本使得模型的性能收益最大化。

注意:

主动学习无法提取特征,无法处理高维数据,要靠深度学习模型。

该领域通过结合人工与自动化手段全方位地构建性能卓越的特征提取模型。

通过制定巧妙的查询标准用于从未标记数据中筛选最优样本,并最大限度地减少标注成本。这些精心设计的查询标准在主动学习体系中占据着至关重要的地位。

DAL面临的挑战:

AL在查询策略方面的研究已形成较为完善的体系。然而若要将其直接应用于DL领域仍面临诸多挑战。

该系统在当前阶段存在标注样本数量较少的问题。主动学习能够仅基于有限的标注样本实现有效的学习与模型更新;而深度学习通常以数据驱动为主,在这种情况下难以直接替代传统监督学习方法的作用——后者由于其依赖大量标注数据而难以支撑深度学习模型的训练。解决这一问题的方法包括通过生成对抗网络增强数据多样性并结合有标签与无标签数据进行联合训练;此外,在已有有标签数据的基础上为高置信度样本添加人工标签以进一步扩展训练集。值得注意的是,在现有研究中针对传统逐一采样的查询策略的研究相对较少;因此研究人员倾向于研究基于批量采样的查询策略优化方法——同时兼顾采样实例的信息量与多样性特征。

模型的不确定性问题。基于对不确定性的利用,主动学习策略形成了一个关键的研究方向。在分类任务中,尽管深度学习通过Softmax层能够推断出标签的概率分布,然而,仅将Softmax分数作为置信度评估的方法存在不足。这种方法的表现甚至不如随机采样策略

在实际应用中发现,在深度学习环境下进行特征提取与分类器训练时会遇到维度不匹配的问题

主动学习应用场景分类:

采用委员会投票机制:将多模型集成成为一个决策单元;所有模型依次对未标注样本实施预测,并特别关注那些在投票决策中最不一致的样本。

基于流式的查询流程中

基于未标注数据的操作:负责管理未标注样例集合,并由标注专家从该集合中挑选当前需要进行标注的样本(约占总样本量的5%)。

因此,在数据流处理中,基于流的方法与基于池的方法的主要区别体现在各自的处理策略上:其中前者是通过单独对数据流中的每个样本进行独立判断来获取其是否需要查询未标记样本的信息;相比之下后者则是通过综合评价整个数据集并按排序结果选择最佳查询样本的方式完成任务。

停止学习的条件:标注预算耗尽,或者其他预设好的终止条件。

DAL的一般框架:

两部分:在未标注数据集上的AL查询策略和DL的模型训练。

在标签训练集上初始化或预训练DL模型的参数θ

利用DL模型对未标记池U的样本进行特征提取。

根据相应的查询策略选择样本,并让标注专家进行标注

把新标注的样本加进训练集中

重复以上过程直到标注预算耗尽或未标注样本用尽。

因为AL和DL在处理管道方面存在差异,在应用过程中仅仅是在AL框架内对DL模型进行微调,并且直接将两者分开作为独立的问题可能会导致矛盾。

AL-DL为有DBNs的DL模型提出了一个主动标记方法。

CEAL将深度卷积神经网络合并到AL中,提出了一个新颖的DAL框架。

HDAL也采用了类似的框架用于人脸识别任务中。

深度主动学习框架被提出用于融合全卷积网络与AL以针对较少标注医学图像分割问题进行研究

Active Palmprint Recognition将其视为一个二分类任务,并构建了一种改进型的DAL框架以实现掌纹识别。

此外,在深度学习架构中还存在通过中间隐藏层获取特征的技术。除了浅层模型外,在深度学习体系中通常将深层网络划分为特征提取和特定任务的学习两个主要环节。仅依赖于深度学习模型最后一层输出来评估样本预测不确定性的方法具有不足之处。

AL-MV模型。

LLAL以较小的参数代价实现了与任务无关的AL框架设计。

类似的[17]采用了相似的策略实现了一个手指骨骼分割任务的DAL框架。

查询策略:

抽样策略或准则是根据具体目标任务而制定的方案或标准,在多数情况下缺乏通用性。举例而言,在某些适用于特定领域(如文本分析)的模型中展现出良好效果的情况下,在其他领域(如图像分类)直接应用则往往达不到预期效果。

不确定性,多样性以及混合模型。

仅依赖于不确定性驱动的采样策略可能导致采样偏倚:即所选取的样本无法充分代表未标记数据集的整体分布情况。

如果仅采用多样性策略,则可能导致标记成本上升;即可能有相当数量的信息量较低的样本会被选中。

在DAL中查询策略对标注代价的减少是至关重要的。

  1. Batch Mode DAL(BMDAL)

与经典AL相比,DAL的主要区别在于其采用了基于批量处理的方式进行样本查询。在传统的AL框架下,大多数算法采用了逐个实例进行处理的方式。这使得学习模型需要不断重新训练以适应新数据的变化,并最终导致学习效率低下以及容易出现过拟合现象。在这种情况下所形成的训练集,在DL模型的学习过程中不仅表现出效率低下,并且在过拟合方面也存在明显风险。

BMDAL的核心在于查询一组信息丰富且多样的样本。

  1. Uncertainty and hybrid query strategy

DBAL

基于多样性的策略并非适用于所有数据集。当数据集的类别内容越复杂时(其规模越大),基于多样性的方法表现出更好的效果。相反地,在这种情况下(即当不确定性较高时),采用不确定性驱动的查询策略能够表现得更为出色。

Batch Active learning via Diverse Gradient Embeddings (BADGE) performs a novel sampling operation in the perceiving manifold of perceptual gradients, enabling efficient integration of model uncertainty and sample diversity within a single batch. The core advantage of BADGE lies in its ability to automatically balance prediction uncertainty with sample diversity without requiring manual hyperparameter tuning.

Wasserstein-Adversarial Active Learning (WAAL) 提出了一个基于对抗学习框架的数据主动学习方法,在平衡数据采样的不确定性与类别分布多样性方面实现了明确的权衡关系

TA-VAAL提出了一种创新性方法,将损失预测模块与Rank-CGAN的概念整合为变分对抗主动学习(VAAL)体系的一部分,并以综合考虑数据分布与模型不确定性为基础。

实际情况下, 虽然混合查询策略显示出更优的效果, 但相比之下, 基于不确定性带来的AL查询策略与深度学习模型中softmax层的输出相结合更加便捷, 因而这一基于不确定性查询的方法仍然被广泛采用.

  1. Deep Bayesian Active Learning (DBAL)

在处理数据时的数据采集中心对许多经典的对抗学习(Adversarial Learning)算法而言是一个关键研究领域。然而,在深度学习(Deep Learning)领域中,传统的方法往往未能充分捕捉到模型的这种不确定性特性。基于此,在进一步的研究中提出了DBAL作为一种解决方案。

DBAL通过融合贝叶斯卷积神经网络与AL方法相结合,并促使BALD得以适应于深度学习的环境,在此基础之上开发出一种新的高维数据处理的主动学习框架

DBAL由于需要批量采样的存在,并不适合大型数据集。

针对不确定性较高的DBAL方法可能难以抵御对抗性示例。极小量的变化可能引发显著性能下降。

DEBAL通过结合集成方法的表达能力和MC-dropout技术,在不依赖交易样本的情况下表现出更优的不确定性估计

BatchBALD则选择了将BALD扩展应用至批量查询领域,并重新评估了批量样本与模型参数之间的互信息关系,以实现对所有样本的一致性进行综合考量。这种做法能够更加精准地衡量整体一致性。

该方法重构了批处理架构,并旨在提升对整个数据集所导致的对数后验分布的稀疏子集近似的效率和准确性。与现有查询策略相比,在数据分布的关键区域上具有更优的样本覆盖率。

DPEs则引入了一种可拓展的深度概率集合技术。

虽然AL具备高效采样的能力,在每次迭代过程中均需从零开始重新训练模型。这在一定程度上阻碍了DL训练效率的发展。一种可行的方法是在现有基础上逐步更新模型参数,并将其与现有数据集相结合以提升性能。然而这可能导致两种极端情况:一方面可能使模型过于依赖新选数据量少的情况;另一方面也可能使model倾向于早期挑选阶段的数据

ActiveLink采用了一种基于元学习的有原则的无偏差增量训练方法。

  1. Density-based Methods

基于密度的方法主要是指从集合(核心集)的角度来考察样本的选择。­

旨在利用关键集合来反映特征空间的整体分布情况,从而减少AL的标注成本

为了缓解批量查询中的采样偏差问题,并非仅仅依赖于单纯地增加样本数量;而是通过提升样本多样性来实现这一目标。

Discriminative Active Learning (DAL) 基于密度按比例从未标记的数据集中执行采样操作,并且不会偏向位于稀疏流行区域的数据点。

除了现有的查询策略之外,一些学者也探讨了批量查询大小对查询性能影响范围的问题。

采用基于密度的技术时,通常会从数据分布的角度对核心样本进行选择;然而相关研究方法的数量相对有限;这种技术提供了针对样本查询的新思路

  1. 其他方法

从DFAL的角度来看,这些方法确实容易被对抗性示例误导。因此,从DFAL的角度来看,在决策边界附近的样本研究具有特殊重要性。

数据集的特征对DAL性能的影响是显著的。研究者们开发了一种通用的数据分析工具。在AL中过度依赖较小规模的小子集也是不合理的。

利用集合论方法在数据收集阶段能够有效地消除数据集中不同类别间的不平衡现象。然而这可能带来预测结果准确性的降低进而影响分类器的性能表现

已有研究表明,在传统主动学习(AL)流程中,默认假设获取函数为固定且已知的先验结构,在这种假设下设计的学习器表现出较好的性能表现然而该假设的有效性却有待验证:通常仅在标记预算耗尽时才能对其实用性进行评估这一缺陷使得基于固定假设的传统主动学习方法难以实现精准的模型优化基于此缺陷,在现有框架下难以实现精准的模型优化的前提下,则可能需要探索其他解决方案:例如采用强化学习算法对获取函数进行动态优化可能成为一种有效替代方案

标准的AL,RAL and DRAL的管道对比。

典型的AL管道一般由三个关键组成部分构成:输入层、隐含层以及输出层。 Oracle提供一组标记化的数据集, 作为训练模型的基础, 其中基于神经网络(BNN)作为预测器用于学习这些数据, 并赋予指导层能够预判不确定性的能力。 该指导层通常以固定的形式存在, 且以预设好的获取函数形式选择系统能够根据当前结果选择下一个样本进行评估, 从而使得系统能够根据当前结果选择下一个样本进行评估, 这种机制形成了一种闭环过程

(b)RAL采用概率状态神经网络(BNN)替代传统的固定获取函数。该方法基于概率状态模型构建神经网络,并通过与oracle交互机制收集反馈信息。采用强化学习算法优化采样点选择过程。这使得RAL在不同数据集上表现出更强的适应性

该研究开发了一种复杂而先进的深度强化学习架构DRAL用于解决person Re-ID问题。在这一主动学习系统中,增强型主动学习者作为主体,在每次迭代过程中都会从预设的大规模候选样本库中筛选出最具代表性的样本,并通过与专家 oracle 进行交互以获取精确的一二分类标签信息。随后系统会综合分析所有候选样本间的相似程度,并基于 oracle 的反馈结果计算奖励值来优化代理策略。

Active-i NAS提出了对该假设的反证,在执行主动学习的过程中,采用神经架构搜索技术(NAS)来动态优化模型架构.

针对DAL中数据量不足问题

传统的大多数DAL方法主要集中在基于查询策略采集标记样本的过程中。它们没有充分考虑现有的未标记数据集,并未充分利用相关的数据扩展技术和训练方法。这些技术有助于缓解DAL训练中标签数据不足的问题,并且在应用过程中无需额外增加人工标注的工作量。由此可见,在研究这类技术时具有重要的理论价值和实践意义。

CEAL(2017)不仅采用了基于查询策略采样的标记数据集的方法,并且对于模型预测置信度较高的样本群体而言,在原有数据集的基础上赋予了伪标签以进一步增强训练数据集的质量。

基于标记数据集和未标记数据集进行无监督学习,并结合其他技术手段以优化整个网络架构。

WI-DL通过基于无标记数据进行特征提取与利用带有标签的数据进行优化相结合的方式构建DBN模型。

GAAL的主要目标是致力于通过应用先进的生成学习算法,在系统中自动生成比原始数据集更具信息含量的数据样本。

然而,在实践中,并非所有的数据增强都能确保其带来的额外信息量比原始数据更为丰富。BGADL(2019)通过进一步发展了GAAL的核心理念,在此基础上系统性地构建了一个基于贝叶斯理论的主动学习框架。

VAAL(2019)和ARAL(2019)在方法上取径于前人的工作。不仅采用了标记数据集和未标记数据集共同参与训练的方式,并且将生成对抗学习融入网络架构以实现数据增强,从而进一步提升了网络的学习能力。

SSAL在跨AL周期中采用无标签、有标签以及混合标签的学习方法,在尽量避免增加标注成本的同时充分挖掘现有数据进行训练。

深入研究训练方式与数据利用技巧具有重要意义,并且其带来的性能提升甚至可能超越优化查询策略所带来的提升

采用无监督的随机采样方法( RAND )无需与模型预测结果进行任何交互操作。研究者通过从未标记的数据池中随机抽取样本进行人工标注,并将其作为评估主动学习框架中各类别别策略的基础性实验任务使用。

Softmax Confidence (CONF):该方法采用目标类别的softmax概率值作为其对应的置信度指标。随后根据这一选择策略,在未标记数据集中筛选出最低的m个置信度值对应的样本点以确定后续查询对象。对于语义分割任务而言,则是先计算每个像素点的目标类别概率值将其视为该像素点的具体置信度;而对于整个图像而言则需将所有像素的概率值相加得到整体上的置信度评估结果

Softmax Margin (MAR):这一方法与置信度方法类似,通过比较最可能标签(j₁)和次可能标签(j₂)之间的softmax概率差异来对所有样本进行排序,并筛选出具有最小概率差异的前m个样本.其核心观点在于,较小的概率预测结果表明网络对于分类结果存在较大的不确定性.

Softmax Entropy (ENT) 被定义为,在语义分割任务中将图像中每个像素对应的熵值求和而得到的整体熵值。考虑到所有类别概率的信息 entropy指标相比, 它主要关注出现概率最高的类别, 而与CONF不同, 它主要关注出现概率最高的类别, 或者 MAR仅仅关注前两名出现概率较高的类别.

Core-Set Selection (CSET):每次迭代选取m个样本,并将其视为从数据集中筛选出最具代表性的样本集合的过程类比。从未标记的数据集中选择m个样本并将其纳入已标记池S后,则新加入的点u必须满足与现有标记集S的最大距离要求。

对于未标注样本点u及其所属数据集S而言,其间的最短距离定义为其到集合中各成员的最短间距,其中计算采用欧几里得距离作为度量标准.

具体实现中设置核大小为32,并以步长12进行平均池化操作后提取图像特征以形成一个特征向量;随后计算不同图像(无标记样本点u与集合S中的样本)提取的特征向量之间欧几里得距离,并找出这些距离中的最小值;最后将具有最小值中最大的前m个数据加入到已标记的数据池S中。

全部评论 (0)

还没有任何评论哟~