Advertisement

开放世界的半监督学习OPEN-WORLD SEMI-SUPERVISED LEARNING

阅读量:

开放世界的半监督学习

摘要

在现实世界中应用半监督学习存在一个主要障碍:即假设待测样本中的未标记实例仅包含与训练集中标记样本相同的类别。然而,在野外场景下这一假设计算机视觉领域往往难以满足需求:因为当系统处于测试阶段时可能出现不属于已知类别的情况。

在本研究中,我们构建了一个新型开放世界半监督学习环境,该环境明确界定"新类在未标记测试数据中的可能出现"这一概念.在此环境中,我们的目标是在已标记数据与未标记数据之间建立合理的类别划分标准,并在此基础上实现分类器的有效学习.在测试阶段,每个输入实例必须判断其所属类别:或者归于现有已知类别;或者创建一个新的未知类别并将其归类.

为了应对这一具有挑战性的难题,我们设计了一种名为ORCA的新方法。该系统采用端到端架构,并通过动态调整机制实现高效的学习过程。其核心理念在于通过动态调整不确定性来规避因快速学习已有类别而产生的对已有类别的偏见。研究者发现,在经过广泛测试后发现,在图像分类数据集和单细胞数据集上进行的大量实验表明,在ImageNet数据集上实现了25%的可见类改进和96%的新类改进。

1.引言

随着深度学习技术的兴起,在多个领域已取得显著进展(Hinton等人, 2012;LeCun等人, 2015;Silver等人, 2016;Esteva等人, 2017)。这些优势体现在现有机器学习系统能够在标注数据丰富的任务中表现出色的能力上(Bendale & Boult, 2015;Boult等人, 2019)。然而,在野外环境中这一假设往往不成立(Boult等人, 2019),因为标注数据的质量依赖于研究者是否具备该领域全面的专业知识(Silver等人, 2016),而这在实际工作中几乎是难以实现的(LeCun等人, 2015)。例如,在生物学领域中研究人员可能先对已知的一些细胞类型进行标记分类(Silver等人, 2016),随后希望通过训练模型来识别新的组织样本中的已知细胞类型(Silver等人, 2016),同时也能识别出之前未见过的新细胞类型(Silver等人, 2016)。类似地,在社交平台中用户通常希望根据兴趣属性被归类到预设的兴趣组中(Hinton等人, 2012),同时也能识别出不属于现有兴趣划分的新未知用户群体(LeCun等人, 2015)。与传统封闭世界假设不同的是,在真实世界的问题场景下通常会遇到开放世界的情况——即测试数据中可能出现过从未在训练阶段见过的新类别(Hinton等人, 2012)。

在这里,我们介绍了开放世界半监督学习(open-world SSL)的概念及其在涵盖半监督学习与新类发现方面的应用。在开放世界的SSL框架下,我们获得了两个数据集:一个是带标签的训练集(包含一组已知类别的样本),另一个是无标签的测试集(其中样本既可能来自已知类别也可能来自未知类别(图1所示)。在这个设置下,模型需要将样本分配到之前见过的类别中,并识别出新的类别以将其归入相应类别。换句话说,在分类任务中当类别分布存在不匹配时(即未标记测试集中可能包含从未标记过的类别),模型需要通过过渡学习的方式进行分类任务并实现新类发现功能。基于未标记测试数据的存在,在这种情况下模型不仅需要对已知类别进行判别还需要具备发现新类的能力以实现全任务的目标

开放世界的SSL与最近的两条工作路线有根本的不同,但又密切相关:

鲁棒半监督学习(R-Supervised Learning, SSL)以及新类的识别与学习问题。稳定型SSL方法(Oliver等, 2018;Guo等, 2020;Chen等, 2020b;Guo等, 2021;Yu等, 2021)假设标记数据与非标记数据之间存在类别分布不匹配的情况,在这种情形下模型只需具备识别并将其归入异常类别的能力。与此不同的是传统开放世界SSL方法并未采取这种"拒绝"策略,在面对新类别样本时则致力于单独发现这些新类别并进行独立分类处理。

基于未标记数据的新颖类研究(Hsu等人, 2018; 2019; Han等人, 2019; 2020; Zhong等人, 2021)属于一种聚类问题。 相比之下,在开放世界情况下的半监督学习方法更具普适性。例如,在这些情况下中存在既有已知类别又有未知新类别的情况。

  • 为了实现稳健的 SSL 和新类识别方法在开放世界 SSL 中的有效结合, 我们主要采用分阶段的方式. 首先, 通过稳健型 SSL 对不属于新类别的一批样本进行初步筛选. 然后, 再利用新型分类器对这些筛选出来的样本进行细粒度分类.
  • 此外, 我们还可以将所有类别视为待识别的新类型, 引入新型分类策略. 并结合已知类别数据进一步优化识别效果.

但是,通过实验证明这种一次性手段的实际效果并不令人满意。因此,在端到端架构下开发相应的解决方案是必要的

在本文中,我们开发了ORCA(基于不确定性自适应边际的开放世界学习框架),该框架在新的开放世界SSL设置下实现了对未标记数据的高效分类。ORCA能够将未标记实例可靠地分配到已知类别中,并通过将类似实例分组为新的潜在类别来实现新类别的识别。作为端到端深度学习架构的核心创新在于其新颖的不确定性自适应边际机制,在训练过程中动态调节模型灵活性以增强区分能力。这种机制不仅有效降低了所见类别内部方差因快照学习导致的增长风险,还实现了新旧类别平衡点的最佳动态调节。为了支持这一独特设计需求,在模型训练阶段我们构建了一个专门化程序来优化关键组件的工作流程:一方面通过优化已知类别的分类器提升对已有数据的学习效率;另一方面则赋予模型新增类别识别的能力。实验结果表明,在不预先指定新类数量的情况下,ORCA能够自主发现并建立合理的分类边界。

我们在三个适合开放世界SSL的基准图像分类数据集以及一个生物学领域的单细胞数据集上进行了ORCA评估。由于现有方法无法在开放世界的SSL环境下运行的有效性问题,在此研究中我们首次将现有的最先进的SSL、开放集识别和新类发现方法扩展至开放世界的SSL环境中,并与ORCA进行了系统对比分析。实验结果显示,在ImageNet数据集上ORCA实现了25%在可见类性能上的提升,并以96%的显著优势在新奇类任务中取得优异成绩。此外,在面对未知数量的新类、所见与新类分布差异、非平衡数据分布以及预训练策略等多维度测试条件下,ORCA表现出了良好的鲁棒性特征

相关工作

我们对开放世界SSL技术和相关设置进行了深入归纳分析,并归纳分析了它们的异同点。其他相关研究则完整讨论了这些技术及其应用背景。

新颖的类发现。

在新研究领域(Hsu et al., 2018; Han et al., 2020; Brbic et al., 2020; Zhong et al., 2021)中》,研究目标是针对未标注数据集中的复杂分类问题。这类问题涉及多个互不相关的类别群组,在学习更好的聚类表示方面具有重要意义。现有方法假设所有测试类别均为未知类别,在这种情况下能够有效发现新类别。然而这些方法存在一个局限性即无法识别已经见过或标注过的已知类别。相反我们提出的方法——开放世界半监督学习(Open-world SSL)更具通用性因为其不仅包含从未见过的新类别而且也包含可能来自标注数据集中见过但尚未被识别出的新类别【理论上人们可以通过将所有测试类别视为"未知类别"然后将其与现有的标注数据中的已知类别建立联系从而扩展现有的多分类发现方法

半监督学习(SSL)。基于封闭世界假设[1]的研究表明,在现有标注数据与新增未标注数据均源自同一类别集合的前提下展开探讨。在此框架下构建了一系列改进型SSl方法[6]以应对传统SSl存在的局限性:这些改进型方法放宽了原有闭合世界假设的前提条件[7]。相比之下[8]稳健型SSl算法的核心目标则是排斥可能来自未知类别的实例[9]以实现更为安全的数据处理机制。然而在开放世界设定下[5]其主要关注点不再是完全排斥潜在的新类别样本而是通过识别并接纳少量新类别样本来提升模型泛化能力这一思路与稳健型SSl的主要理念存在明显差异为此我们提出了一种新的解决方案即通过合理利用被丢弃的数据点并结合聚类技术或其他方法识别新类别从而实现对传统闭合式SSl框架的有效突破实验结果表明这种创新性的策略能够显著提升模型在分布外样本检测方面的性能

开发现代视觉别名识别与跨领域检测研究取得重要进展。基于Scheirer等人的研究(2012),Geng等人(2020),Bendale & Boult(2016),Ge等人(2017)以及Sun等人(2020a)的工作,在测试过程中系统会自动识别可能出现的新类� Belias,并且模型需要能够有效地拒绝来自新类别的样本。为了实现上述目标,在现有研究基础上我们设计了一个基线方案:以扩展这些方法至开放世界设定为目标,在拒绝实例的基础上进行学习以发现新的类别。然而经过实验验证的结果表明:这种方法并不能有效地解决当前面临的挑战问题。同样地,在现有的开箱即用视觉别名识别方法中(Bendale & Boult, 2015;Rudd等人, 2017;Boult等人, 2019),系统需要通过人工反馈逐步更新已知类别集合,并在此基础上完成分类任务。与之相比的是,在不需要人工干预的情况下完成分类的任务才是现代视觉别名识别的核心优势所在。

Generalized Zero-Point Learning (GZSL) shares similarities with Open-World Learning (SSL). Following prior studies by Xian et al. (2017), Liu et al. (2018), and Chao et al. (2016), GZSL assumes that both classes observed in the training set and novel classes are present during testing. However, GZSL makes additional assumptions regarding the availability of prior knowledge, which is uniquely used as distinct attributes to characterize each individual class. This restrictive assumption significantly limits the practical applicability of GZSL methods. As opposed to this, Open-World Learning has become a more general framework for handling unseen categories without requiring extensive prior knowledge about them.

提出方法

在本节中, 我们随后阐述了一个开放式的SSL场景. 接着, 我们对ORCA架构进行了概括介绍. 最后, 我们深入分析了该架构的各个组成部分.

3.1 开放世界的半监督学习设置

基于此过渡的学习环境存在于开放世界SSL之中。其对应的标记数据集Dl由f(xi; yi)构成(i从1到m),而未标记数据集Du则由f(xi)构成(i从1到n)。我们将从这些标记样本中识别出的所有类别定义为集合Cl,并对出现在未标记测试样本中的所有类别进行定义处理得到Cu。进一步假定存在两类之间的迁移现象,并且明确指出已知类别与未知类别之间存在交叠。此外我们认为Cs=Cl\Cu是一个已知类别的集合而Cn=CunCl则是指代那些不属于已知范畴的新分类对象。

Definition 1 (Open-World SSL). Within the framework of open-world SSL, the model is tasked with assigning instances from set Du to either previously seen classes Cs or creating a new class c (where c ∈ Cn) and assigning the data points to it. The note highlights that open-world SSL encompasses both new class discovery and traditional closed-world SSL approaches. The new class discovery assumes that classes in labeled and unlabeled datasets are disjoint, i.e., Cl ∩ Cu = ∅, while closed-world SSL assumes that classes in labeled and unlabeled datasets are identical, i.e., Cl = Cu.

3.2 ORCA的概述

克服开放世界SSL的主要问题是既要学习已见/标记类别也要学习未见/未标记类别。然而归因于这一现象 在已观察到类别上的类内方差确实小于新类别。为了应对这一挑战 我们提出了ORCA 一种通过利用训练过程中不确定性适应性余量来减少两类间类内方差的方法。ORCA的核心理念是通过利用未标记数据中的不确定性来控制已观察到类别上的类内方差 如果这些未标记数据具有较高的不确定性 则允许较大的已观察到类别内的方差从而缩小两类间的差距 如果这些数据具有较低的不确定性 则应限制已观察到分类别的内部方差 以此促进模型充分利用标注数据的作用 基于这种思路 我们通过不确定性自适应余量的方法实现了对已有标注数据判别特征的有效平衡

给定标注实例Xl = {fxi}∈RNgn, i=1 和未标注实例Xu = {fxi}∈RNgm, i=1,请问ORCA系统如何工作?随后通过嵌入层fθ: RN→RD得到特征表示Zl={fzi}∈RDgn, i=1 和 Zu={fzi}∈RDgm, i=1 分别对标注数据集和未标注数据集进行处理。其中zi为输入样本xi经过fθ变换后的特征向量。在骨干网络顶端部分,请问ORCA系统如何实现多任务学习?随后通过优化目标函数来推断可能存在的新类别数量并新增一个分类器。请详细解释ORCA系统的优化目标及其在聚类中的应用情况。(i)带有不确定性适应余量的监督损失项;(ii)成对对比损失项;(iii)规范化项

其中LS代表监督目标、LP代表成对目标,并且R是正则化项。η₁和η₂被设定为1,在所有实验中使用了这些值作为正则化参数。该算法的伪代码已被包含在附录B中的算法1部分。我们在附录C部分进行了详细分析以探讨不同正则化参数的影响,并随后将重点放在每个具体目标上进行详细阐述。

3.3 带有不确定性适应性余量的监督目标

首先, 基于具有不确定性的自适应比率的监督目标, 网络被驱动去将实例可靠地分配到已知类别中. 然而, 为了控制学习该任务的速度, 从而能够并行地构建新的类别集群. 我们通过使用标记数据的分类标签i=1来优化权重W和骨架θ. 这些分类标签可以通过采用标准交叉熵(CE)损失函数作为监督目标来进行优化.

在标注数据中采用标准交叉熵损失可能会在可见类别与不可视类别之间引发失衡问题。即梯度仅作用于可见类别Cs而未影响不可视类别Cn。这可能导致模型在可见类别上的学习幅度较大(如Kang等的研究所示),从而使得整体模型更倾向于可见类别。为此,我们提出了一个不确定的自适应衰减因子,并建议采用归一化处理。我们将详细阐述上述解决方案及其应用

一个主要难题在于,在监督信号存在的情况下,学习到的新类样本会比已有类别更快地被学习完毕。因此,在与新类比较时,这类样本往往表现出较小的类内方差(Liu等人, 2020)。成对目标通过排序特征空间中的距离来为未标记的数据分配伪类别标签。这种做法会导致类内方差不平衡的现象出现,并最终导致产生容易出错的伪标签的情况。换一种说法就是,在训练阶段中被归入新类的数据会被分配到已知类别中去。为了缓解这一偏差问题,在我们的框架中建议引入一种自适应边界来缩小已有类别与新类别之间的内方差差异。直观上讲,在训练初期我们要施加较大的负边际以促进已有类别相对于新类别的内方差达到相同水平。当训练接近尾声时,并且新类别已经形成明确分布后,我们将边界项调整至接近于零值状态(即此时模型能够充分利用标记数据),从而使得目标归结于公式(2)所定义的标准交叉熵损失函数。

其中uncertainty(后续将详细阐述)由u¯表示,在该研究的所有实验中,则将λ设定为1值。我们已在附录C部分深入探讨了该参数的稳定性与可靠性特征。值得注意的是,在所有测试案例中均采用了相同的设定策略;具体而言,在交叉熵损失函数中引入了一个缩放因子s(Wang等, 2018),该因子用于调节分类边界softness;在此研究框架下,默认将其赋值为10.这种设计思路源自AM-Softmax算法体系(Wang等, 2018)的研究成果。

我们推荐用不确定性来表征类内差异。为了估计不确定性u¯, 我们基于softmax函数输出的结果计算未标记实例的置信度。在二元分类中, u¯等于jD₁uj乘以Px²Du乘以Var(Y|X=x), 这一值进一步近似为jD₁uj乘以Px²Du乘以(Pr(Y=1|X=x) - Pr(Y=0|X=x))

采用相同的数学表达式来估算多类环境下的群体不确定性。为确保余量调整的准确性,在调整过程中需对分类器的规模进行限制。通过采取相应的措施来规避因无约束导致的影响问题。将线性分类器的输入特征与权重参数进行标准化处理以实现归一化效果。

3.4 成对目标

其次,在成对目标学习中估计每一对实例之间的相似程度的同时,在同一个类别中的实例能够被聚合成一个组别。在无监督学习场景下,在这一阶段的目标是利用未标注数据生成假标签以辅助模型训练过程。通过采用基于不确定性的自适应比例因子来调节现有类别与新类别间的内部差异程度,在ORCA算法的作用下能够有效地提升假标签的质量

我们致力于将聚类学习问题转换为成对相似性预测任务(Hsu等人提出了一种创新方法;Chang等人则提出了另一种优化方案)。基于现有数据集Xl(带标签)与Xu(无标签),我们的目标是微调神经网络模型参数fθ,并设计一种基于线性分类器W的相似性预测函数。通过这种方法可使同一类别中的实例能够被归类在一起。为了实现这一目标,我们主要利用了真实标注信息以及通过小批次计算生成的伪标签信息。针对包含真实标注信息的数据集Xl与Xu,在计算特征表示对zi之间的余弦距离时采用了小批量策略以提高效率。随后我们对这些距离值进行了排序,并根据每个实例最接近的对象为其生成伪标签值。值得注意的是,在这种情况下每个实例都被赋予了一个最具有代表意义的真实正类邻居作为参考点以提高准确性)。ORCA框架中所采用的目标函数是基于改进型二元交叉熵损失函数BCE的一种创新设计

在这里,σ代表Softmax函数,并将实例分配到已识别或未识别的类别中。对于带标签的数据样本而言,在计算目标时我们利用真实标注数据;而对于未标注的数据样本,则基于生成的伪标签来进行目标计算。为了确保数据质量,在生成伪标签的过程中我们仅采用信心最高的配对进行操作——这一选择基于我们在实验中发现引入额外噪声会对集群效果产生负面影响这一观察结果。通过引入不确定性自适应权重参数,在优化过程中我们成功地降低了已有类别与新类别的方差水平,并显著提升了所生成伪标签的质量。值得注意的是,在现有文献研究方面与(Hsu等的研究团队在2018年;Han等的研究团队在2020年;Chang等的研究团队在2017年)相比存在显著差异:具体而言,在我们的研究中我们主要关注于正样本对的相关性分析——这一选择基于实验结果表明负样本对并不会带来实质性的提升效果这一发现基础之上进行的

3.5 正则化项

最后,在应用正则化措施时有效地防止了使所有实例被统一分类的情况出现。在训练初期阶段,在某些情况下网络可能会趋向于仅将所有输入数据归类至同一个类别(如jCuj = 1)。为此,在损失函数中引入Kullback-Leibler散度项有助于约束Pr(y|x∈Dl ∪ Du)使其趋近于与真实标签y对应的先验概率分布P

在本研究中, σ被定义为softmax函数...基于以下研究者的研究, 在实验中我们假定了先验概率服从均匀分布. 这一技术手段主要应用于基于伪标签的半监督学习、深度聚类以及噪声标签训练的方法论. 通过这种方式, 我们能够有效防止类别分布过于平坦从而提升模型性能.

4.实验

4.1实验设置

数据集。我们在四个不同的数据集上评估ORCA,包括三个标准的基准图像分类数据集CIFAR-10、CIFAR-100(Krizhevsky,2009)和ImageNet(Russakovsky等人,2015),以及一个来自生物学领域的高度不平衡的单细胞小鼠细胞图谱Tabula Muris Senis(Consortium等人,2020)。对于单细胞数据集,我们考虑了一个现实的跨组织细胞类型注释任务,其中未标记的数据与标记的数据相比来自不同的组织(Brbic等人,2020)(详情见附录B)。对于ImageNet数据集,我们按照(Van Gansbeke等人,2020)对100个类进行了细分。在所有的数据集上,我们使用可控的未标记数据和新类的比例。我们首先将类分为50%的可见类和50%的新颖类。我们在附录C中展示了不同比例的结果。然后,我们选择50%的已见类作为标记的数据集,其余的作为未标记的数据集。我们在附录C中展示了只有10%的标记样本的结果。

基线研究。鉴于当前研究领域中开放世界环境下的自监督学习(SSL)尚处于新兴阶段且缺乏成熟的基础工作可供参考,在本研究中我们首次系统性地将新型类发现、SSLS以及分布外识别方法扩展至开放世界环境框架下进行研究与应用探索。其中新型类发现方法仅能识别已知类别数据而非未知类别样本即通过将未标注数据集中存在的新类别与已有标注数据集中的已有类别建立对应关系从而实现对新类别样本的有效识别与评估。为此我们设计并实施了两种基于不同策略的方法以适应这一需求:第一种策略采用基于匈牙利算法的优化方案;第二种策略则采用K均值聚类算法结合阈值判断机制以实现更为精确的结果获取。具体而言第一种策略主要通过将识别出的新类别视为潜在的新类别并通过匈牙利算法匹配这些新旧类别间的关联关系从而实现对未知类别样本的有效分类;第二种策略则通过K均值聚类算法将分布外样本划分为独立于现有已知类别之外的独特群体并据此确定相应的分类阈值以实现对未知类别的识别目标。此外我们还进行了多维度的设计对比实验以验证所提出方法的有效性与适用性包括:1. 通过对比分析不同算法在各类别样本上的分类性能;2. 通过引入自适应边际损失函数来提升模型对分布外样本的区分能力;3. 通过引入负边际损失函数来模拟真实场景下的分布外测试条件等多方面指标综合评估模型性能表现。

4.2结果

5.结论

我们提出了一种开放世界的SSL配置方案,在这种架构下允许在未标记的数据集中引入未曾见过的新类实例。为了实现这一目标,在模型识别阶段必须将每个实例分类到之前在带标签的数据集中出现过的类别中,并且可以通过聚类分析相似实例来生成新的类别。为了平衡已有类别与新兴类别对模型性能的影响,在训练过程中我们提出了ORCA方法。该方法通过动态调整鲁棒性参数来平衡已有类别与新类别的影响,在训练过程中优化了两类之间的内部分异度。通过广泛的实验研究,在图像数据集和单细胞数据分析案例中证明了ORCA的有效性:AUC值较现有方法提升了约20%以上。我们的研究不仅推动了传统封闭式评估体系的发展方向,在实际应用场景中也具有重要的指导意义

全部评论 (0)

还没有任何评论哟~