Robust Semi-Supervised Learning for Self-learning Open-World Classes(ICDM 2023)
自学习开放世界类别的鲁棒半监督学习(ICDM 2023)
Wenjuan Xi, Xin Song, Weili Guo, Yang Yang
南京理工大学,百度人才智库,香港理工大学
paper:https://arxiv.org/pdf/2401.07551.pdf
code: https://github.com/njustkmg/SSOC
@inproceedings{SSOC,
author = {Wenjuan Xi and
Xin Song and
Weili Guo and
Yang Yang},
title = {Robust Semi-Supervised Learning for Self-learning Open-World Classes},
booktitle = {ICDM},
address = {Shanghai China},
pages = {2374-8486},
year = {2023}
}
摘要
现有的半监督学习(SSL)方法认为标记数据与未标记数据共享同一类别空间。然而,在实际应用场景中存在一类问题:未标记数据通常会包含不在已标注集合中的新类别成员。这会导致基于已有标注数据训练出的分类器对已知类别的识别性能出现下降效果。针对这一挑战性问题,在本文工作中我们提出了一种创新性的自学习开放世界分类器(SSOC)。该分类器能够明确地自主学习多组未知类别的特征表示并有效区分它们之间的差异性特征。具体而言:SSOC首先通过交叉注意力机制为已知类别与未知类别各自定义类中心标记;接着利用所有样本的数据信息自主学习其表征表达;为了实现高效识别新类别目标:该分类器还设计了一种基于成对相似性的损失函数;这种损失函数不仅能够有效捕捉样本间的相似关系还能智能地利用未标注数据中的潜在信息;最终能够实现对新类别的自动划分与识别;经过大量实验验证:在多个基准测试上 SSOC 的性能优于现有的最先进的方法
1**、引言**

随着机器学习技术的进步,在视觉识别、文本分析及语音处理等领域已取得显著成效[68,69,70,71]。传统的监督学习依赖于大量高质量标注数据以训练模型;为了降低获取标注数据的成本,在无监督学习中通过充分挖掘大量未标注数据中的信息即可实现与监督学习相当的效果;然而,在大多数无监督学习方法中都基于一种常见的假设:即未标注样本与标注样本服从同一分布;这种假设导致许多实际问题难以得到解决;例如,在病理图像分析领域中某些病变组织切片图像可能源于未知的新病种;由于不同未知病种间的差异较大;因此要求模型具备识别未知病理图像类别的能力;在网络安全领域内;安全专家需利用模型对软件进行恶意检测工作;同时希望模型能识别新型恶意软件类型;因此开发一种更具包容性和广泛适用性的开放世界方法势在必行。
近年来的研究学者提出了开放世界SSL(OSS)这一概念[1]。该设定允许未标记数据集中包含标记集未曾涵盖的类别样本即所谓的未知类样本如图1第三行所示其目标是实现对已知类与潜在未知类样例的有效分类先前的研究已将开放场景的概念纳入其框架中[54,55].然而与本文关注的重点不同现有研究主要采取一种更为保守的方式通过阻止未知类样本参与分类任务来实现对潜在威胁的规避这种做法的核心目标仍然是聚焦于提升模型在已知类别上的识别能力如图1第二行所示.相比之下基于聚类的方法假设未标记数据中仅包含未知类别样本并致力于通过非监督学习手段实现对这些未知类别进行识别而对其在已有知识域的表现则并未给予充分关注与上述两类方法相比 OSS 模型所面临的挑战更为复杂因为不仅要应对多维度分布的问题更要兼顾现有知识库的有效性维护.因此解决这一问题的关键在于模型如何有效地学习并分类多个未知类别的同时仍能保持对已知类别数据的高度准确性
开放世界SSL问题受到了广泛关注,并已提出一系列解决该问题的方法[1,2]。这些方法主要从损失函数设计的角度出发,并结合未知类学习优化目标进行改进,在不确定性机制或自适应阈值等方面进行了创新性探索以缓解类别不平衡问题。尽管这些方法在实际应用中取得了显著成效[1,2]但受限于传统分类模型的框架限制当面临多个未知类别时往往会陷入决策边界模糊的问题导致鲁棒性不足的现象严重制约了其推广价值。此外传统的特征与标签映射机制过分依赖于各类别间的统计关联以及特征空间分布特性使得模型难以真正实现对各类别概念的理解尤其在面对复杂多变的未知类别时表现出明显的知识缺口这一缺陷亟需得到理论突破与技术突破以进一步提升模型性能。
针对此问题本文提出了一种创新的自监督学习方法命名为Self-Supervised Open-World Class(SSOC)旨在通过数据驱动的方式实现对未知类别信息的有效建模具体而言我们首先初始化已知类别与未知类别对应的类原型表示随后利用交叉注意力机制结合数据特征逐步迭代优化类原型表示以提升对各类别信息的理解为了进一步促进多新类别的学习我们采用了高置信度的未标记样本对熵损失进行了约束同时通过成对相似性损失挖掘未标记数据中的潜在信息从而实现了实例自身表示与其预测结果之间的全局一致性约束整个模型架构不仅能够有效提升已有类别分类性能还特别注重探究各类别间的差异性与相似性特性通过提取精确反映了类特征的信息表征SSOC不仅为开放世界自监督学习任务提供了新的研究思路也为可解释性学习方法的应用开辟了新的探索方向
综上所述,我们的工作具有以下贡献:(1)我们提出了一种新颖的自学习开放世界分类任务的自监督学习(SSL)方法。通过交叉注意力机制来显式建模各个类别的特征空间,并能够自主地识别并学习多个未知类别的特征。(2)我们设计了一种成对相似性损失函数,在未标记数据中智能地提取实例间的相似关系,并在此基础上发现新的类别。(3)我们在CIFAR-10、CIFAR-100、ImageNet-100以及不同数据划分上进行了实验验证,并证明了所提出的SSOC方法的有效性;特别在标记数据极度匮乏且新类数量较多的情况下展现了其卓越的鲁棒性能。
2**、相关工作**
开放世界SSL与新型分类检测技术、多标签分类识别问题紧密相连,在本节中我们归纳了不同研究方向间的共性与差异,并梳理了其发展历程
2.1****半监督学习
SSL的主要目标是充分利用大量未标注数据与少量标注数据以显著提升模型的学习性能的同时有效缓解标注成本过高的挑战。近年来深度SSL迅速发展并已划分为以下几种类型:一致性正则化方法、伪标签法、生成式方法、基于图的方法以及混合型策略等。其中混合型策略通常会综合多种主流技术。例如MixMatch[3]融合了一致性正则化与伪标签策略通过对样本进行随机增强处理并结合MixUp[4]来进行伪标签挖掘从而提取未标注样本中的潜在信息;而FixMatch[5]则是采用强增强图像与其预测对应的弱增强图像上的伪标签来进行一致性目标的学习过程。尽管当前 SSL 方法已在多个领域取得了显著成效但其假设条件存在局限性即假定未标注样本仅包含来自标注集中的类别信息一旦这一假设不成立可能会导致模型误判未知类别同时由于未知类别分布与已知类别差异较大会导致现有 SSL 方法在已知类别识别上表现不足因此传统的 SSL 方法难以应对开放世界场景下的分类问题。
2.2****开放集检测与开放场景半监督学习
开放集识别(Open set recognition, OSR)不仅扩展了传统的封闭环境设定,在测试阶段还可能遇到各种未知情景[54,55]。一个鲁棒的OSR模型应能准确分类已知类别并识别潜在的新类目标识样本。现有的OSR方法主要可分为判别式模型与生成式模型[54]。判别式模型通常采用阈值设计或调整预测概率分布的方法来拒绝那些来自未知类别的低概率样本[56,57,58,59];例如,在文献[56]中提出了一种基于OpenMax层替代SoftMax层的方法,并利用Weibull分布拟合激活向量以估计样本属于未知类别的可能性。而生成式模型则致力于通过生成新的未知类目标识样本来欺骗鉴别器,在此过程中实现对抗学习的目的[60,61,62,63]
开放集SSL技术整合到常规SSL框架中时,默认情况下会将未标记数据中的潜在未知类样本纳入考虑范围。然而,在测试阶段仅关注已知类别的性能可能无法全面应对实际应用中的复杂情况。现有研究主要聚焦于降低来自潜在未知类样本的影响(如DS3L、Robust-SSL等方法)或者优先采用部分潜在未知类样本(如UASD方法)。其中DS3L通过动态调整权重矩阵来减少潜在未知类的影响效果较为显著;而UASD则提出了一种不确定性感知的自我蒸馏方法以防止模型对潜在未知类过于自信。然而这些研究仍存在局限性:它们未能有效区分测试集中可能存在多个潜在未知类的情况;也无法实现对所有潜在未标记数据中不同潜在未知类别的有效识别与分类;因此现有的开放集SSL技术尚无法彻底解决开放世界学习问题
2.3****新类发现
新类发现场景属于弱监督学习[6,7,8],其构建模型基于带有标签的数据集与无标签数据集的结合。与传统的SSL方法不同的是,在该框架下无标签训练集与测试集中的样本均归属未知类别,并旨在实现对未知类别样本的有效聚类。早期研究主要采用分阶段的学习策略:首先在带标签数据上训练积累先验知识基础;然后通过类似于迁移学习的方式对无标签数据实施聚类操作以识别未知类别特征。其中一种典型方法DTC[9]提出了一种深度迁移聚类方案,在提升已知类别先验知识的同时强化对未知类别表征能力;而RankStats[10]则通过整合有监督与无监督数据来减小表示偏差,并利用秩统计技术将已有知识迁移到未知领域以辅助分类任务。然而值得注意的是,在关注开放世界SSL场景方面NCD方法存在局限性:它专注于优化未知类别识别效果而忽视了现有有监督分类任务的表现提升需求。因此在混合存在已知与未知类别的情况下该方法难以达到理想的整体性能表现。
2.4****开放世界半监督学习
研究[1]提出了一种开放世界SSL设定方案,在该设定下假设同一数据集中可能存在多个未知类别,并旨在实现对已知类别的准确分类的同时也能有效识别多个未知类别。相较于现有研究工作而言,开放世界SSL场景更加贴近实际应用环境但目前仍处于探索阶段。ORCA[1]作为一种端到端的深度学习框架首次解决了这一问题它通过引入不确定性自适应边缘机制来增强对未知类别的学习并取得了令人满意的实验效果。NACH[2]则采用了自适应阈值的方法来平衡已知类别与未知类别之间的关系并设计了一种新的分类损失函数以辅助模型更好地学习未知类别最终在性能上超越了ORCA框架。
3、前置定义
在开放世界的半监督学习(SSL)背景下,训练集包括一个带有

个标记样本的标记数据集

和一个包含

个未标记样本的未标记数据集

,其中

,

表示图像输入的维度。我们定义

为出现在

中的类别集合,

为出现在

中的类别集合。在标记数据集

中,

,而在未标记数据集

中,

属于

中的某个类别。假设

且

,我们定义

为已知类别集合,

为未知类别集合。

和

分别表示已知类别和未知类别的数量。
在先前提到的与开放世界SSL相关的技术手段中,SSL中不包含新增的概念类别,并默认采用该模式。

,而NCD则假设未标记数据不包含任何已知类别,即

。因此,开放世界SSL在本质上更具挑战性。
4**、问题设置**
在本节内容里,我们首先详细阐述了自学习开放世界类别的模型架构。接着系统地建立了发现多种未知类别学习目标的框架。最后则概述了完整的算法流程。

4.1 自学习开放世界类别
通过形式化的分析可知,开放世界SSL问题的关键在于如何合理地利用未标记数据集中的未知类样本。SSOC的主要思想是在视觉上实现对开放世界类别的自学习过程,在这种情况下无论是已知类还是未知类都需要展示出其类别特征的表示方法。仅仅获取类原型表示并非难题,因为许多无监督聚类方法都可以将数据划分为多个簇并计算出每个簇的中心点位置;然而这些方法缺乏对标记信息的利用,并且仅通过优化特征嵌入模型来实现聚类性能并不能有效地将类中心纳入学习过程。在SSOC的设计框架下,在开放世界SSL训练阶段采用批处理输入的方式可以让模型有意识地探索每一批次中的类别信息并在反向传播过程中动态更新类中心的位置;为了实现这一功能SSOC的核心模块采用了交叉注意力机制这一独特的设计元素;这也是SSOC区别于其他特征提取器的关键所在——除了包含参数外它无需额外添加任何网络层即可完成任务
交叉注意力机制是一种用于捕获两个序列之间相关性特征的方法。它最初出现在Transformer[72]中,在解码器部分将输入序列与编码器输出进行融合以获取相关编码信息。该机制对序列建模及自然语言处理任务均具有重要意义,在图像文本分类等多模态任务中被用于整合不同模态信息,在机器翻译中则能有效捕获不同位置间的依赖关系等。交叉注意力机制由三个矩阵组成:查询矩阵WQ、键矩阵WK以及值矩阵W^V。尽管输入模型中的两个嵌入层来自不同模态但必须保持相同维度以确保运算一致性。该机制通过计算关联程度并依据查询权重整合对应的值矩阵从而聚焦于关键信息以显著提升任务性能及表现能力
在本文的场景下,我们假设

为第

个批次的图像数据,其中B表示批次大小。经过预训练的深度神经网络

,我们可以得到嵌入特征

,

。在这里,

表示模型参数,

表示嵌入向量的维度。值得注意的是,为了方便后续计算,SSOC将

、

、

的维度设置为

。我们记第

个批次得到的类中心为

,特别地,

表示随机初始化的类中心特征矩阵。其中

表示第

该类别的特征向量。在交叉注意力机制中,在这一机制下,则将该类别的特征视为查询信息、数据特征被视为键信息和值信息,并利用相应的参数矩阵进行点积运算。

,于是,我们采用的交叉注意力机制可以表示为:

两个矩阵的点积通常可以代表向量间的相似程度,在上式中,

是大小为

的注意力矩阵,该矩阵中第

行、第

列的元素可以看作是第

个类中心与batch中第

单个样本的相关性其数值越大则表示该样本越可能属于该类别首先将注意力分数通过SoftMax层进行转换然后将其与数据特征进行加权求和运算最终计算得到输出向量大小为

的交叉注意力矩阵

,其中的第

行正好是第

该类中心与其他数据特征经过加权求和后形成的特征向量,在当前批次的数据集中

个类别越相似的样本对

的贡献越大,反之贡献很小。因此,

可以被视为一批样本的类中心特征向量,在基于先前计算的残差基础上用于更新新的类中心位置

:

这样一来,

不仅保留了大部分历史数据的类别信息,在后续迭代过程中还以残留部分的方式引入了当前新发现的类别信息。在后续迭代过程中, 它将作为上一步生成的类中心参与计算注意力分数. 在经过若干次迭代后, 式(2)所得到的最终类中心能够整合数据集中所有存在的类别信息, 并通过这种机制实现数据特征与类中心之间的动态交互, 从而完成对各类别的自适应学习. 相比于单纯依靠聚类方法获取类中心的做法, 该方法能够更好地避免受到极端偏离分布规律的数据点的影响, 并且能够更有效地捕捉样本与各类别之间的相关特征.
在前面的部分,我们获得了类中心的残差表示,表示为

接下来,在已有研究的基础上我们提出了改进型SSOC方法,并采用了基于距离的方法来计算样本与同一特征空间内类中心之间的具体距离值。为了实现明确的分类依据我们运用激活函数将这些标准化的距离值转换为概率分布形式。然而在实际应用中我们发现即使是在同类样本之间实现平衡学习过程也面临着诸多挑战这通常会导致模型对未知类别样本的学习速度较慢并且容易出现过拟合已知类别的情况为此我们需要对模型性能进行优化以达到更好的分类效果。

,其概率分布可以表示如下。

其中

表示SoftMax优化算子,

是缩放超参数,

表示样本

属于类别

的预测概率。在后续讨论中,我们使用

表示最大的置信分数,

标记样本作为伪标签后进行编码处理,并将结果转化为独热形式表示。最终,在图2中展示了SSOC的整体架构
4.2 学习目标
为了辅助SSOC学习开放世界类别,我们设计了有助于未知类学习的优化目标。具体来说,我们的损失函数包含三部分:能够选择置信未标记数据的交叉熵损失(CE)、能够选择置信相关样本对的成对相似性损失(BCE)和能够防止已知类过拟合的正则化项(RE)。SSOC的总目标如下所示:

其中

和

为平衡超参数。接下来的内容,我们将详细地介绍三个损失目标。
交叉熵
交叉熵作为一种表征两个概率分布之间区别程度的度量指标,在分类任务以及概率估计领域具有广泛应用。针对标注数据这一特殊场景下,SSOC方法通过优化交叉熵损失这一目标函数来充分挖掘样本间的内在关联性,并在此基础上实现有效的模型训练与参数更新。我们采用系统性方法对标注数据进行预处理

真实标签的one-hot形式记作

,使用公式3计算得标记数据的概率分布

,该部分的监督损失可以表示为以下形式。

针对未标注的数据(即无标记数据),它们缺少真实标签信息,并且无法直接计算交叉熵损失函数值。为此问题提供解决方案的方法中一种是基于自我监督学习(Self-Supervised Learning, SSL)的方法,在这些方法中通过为无标注样本分配人工生成的"伪标签"(pseudo-labels)来进行监督式学习;这种方法有助于模型从这些未标注样本中提取有用的信息)。然而,在实际应用中发现一个问题:当数据集中存在噪声时(即含有异常或不真实的特征),这些"伪标签"可能包含大量错误信息或者不可靠的结果;这会干扰到整个学习过程并降低最终模型性能;针对这一问题提出了解决方案:我们引入了置信度阈值筛选机制;通过该机制可以有效去除低质量或者错误率较高的"伪label";只保留那些具有较高置信度的有效"pseudo-label"用于后续训练工作;具体而言;根据公式3可以得到一个关于所有无标注样本集合Xu^U的一个评估指标;该指标能够量化每个样本的质量水平

的概率分布

和伪标签

,我们只选择最大置信分数高于阈值

的无标记样本来计算交叉熵损失。

其中

是指示函数。综上所述,SSOC的总交叉熵损失是上述两部分的加权和。

经过多轮实验观察后发现,在起始阶段

监督信号强度较高可能会导致模型倾向于偏向已有类别,在面对未标记样本时可能出现误判现象。为此我们需要采取以下两项措施:首先我们通过人为干扰未标记数据集来改善性能;其次为每个未标记图像生成两个增强版本以便提升模型泛化能力

和

将标记数据的特征向量与其自身的特征向量连接起来,在公式1中共同用于计算类中心增量的变化值。当计算伪监督损失时,则仅保留

的图像数据,并将

的伪标签视为

的伪标签。通过这种方式,模型能够学习到更多未知类别的不变特征。
成对相似性
针对二分类问题的二元交叉熵损失常被用来评估模型性能。为了优化目标函数设计,并使SSOC能够更好地学习到高质量的类别特征,在嵌入空间中引入了一种基于余弦相似度约束的新方法。该方法通过引入带余弦相似度约束的BCE损失函数,在嵌入空间中强化样本间的类别区分度。在有标签数据的情况下(即标记数据),我们直接利用真实标签信息来判断两个样本是否属于同一类别;而在无标签数据的情况下(即未标记数据),则利用两个样本特征向量之间的余弦相似度作为衡量标准。为了抑制噪声干扰并提高模型鲁棒性(即减少不可靠噪声样本带来的负面影响),我们设置了合理的阈值来平衡误判风险

,用于筛选具有足够置信度的样本对。

在最小化BCE损失的过程中,原本特征非常相似的样本对(即

大约1),它们的概率分布经过优化后更加趋近于相似状态。相反地, 具有较大特征差异的样本对的概率分布经过优化后呈现出更大的差异化. 注意到的是, 在我们的方法中, BCE损失的主要角色是通过对齐预测空间与嵌入空间的结构关系来推动模型构建, 并最终实现分类任务所需的学习目标-即区分不同类别间的独特属性同时保持同类样本之间的高度一致性和稳定性.
最大熵正则化
我们在实验中发现,在训练初始阶段,交叉熵损失对于SSOC的学习起到了主导作用,导致类中心容易聚集在一起,难以区分开。这样一来,所有的未标记数据可能都被错误地分为同一类别,而这不是我们所期望的结果。为了使预测的类别分布更加均匀,我们引入了最大熵正则化项,以增加模型预测的不确定性。最大熵正则化本质上是经验熵,通过观测到的数据频率来估计先验概率分布的不确定性。其形式如下所示。

在SSOC框架下(Structure and Style of Object Classification),我们将上述数学公式整合到所有样本中。通过最大化经验熵指标(index),使得模型预测结果更加灵活且具有多样性特征,并赋予未标记数据进入不同类别更大的可能性空间。研究表明(Through empirical evidence),最大熵正则化项显著提升了模型对未知类别的鲁棒性表现。具体而言,在附录中的算法1部分(Appendix A: Algorithm 1),我们完整阐述了整个SSOC训练流程的各种关键步骤和理论依据。

5、实验
在本节中,我们详细介绍了SSOC的实验设置,并给出了结果分析。
5.1 实验设置
数据集
为了验证SSOC的有效性,在三个常用的计算机视觉基准数据集上展开实验研究:CIFAR-10、CIFAR-100以及ImageNet-100。这些数据集各自包含6万张分辨率分别为...的图片。

该研究采用了基于五个经典的数据增强策略对所有图像进行处理,并将其划分为多个子集以供后续分析。为了确保研究的有效性,在所有实验中均采用了随机划分的方法,并对划分结果进行了详细的记录以保证结果的一致性与可重复性。此外,在本研究中我们采用了ORCA和NACH模型中所使用的分类方法,并对其进行了一定的改进以适应新的分类任务需求。
对比方法
我们对比了SSOC与其他几种如SSL、open-set SSL等以及现有开放世界SSL的方法。这些基于仅限于已知类别的分类器,在扩展到开放世界场景时,则需将未知类别应用K-means聚类以评估其性能表现。为了实现这一目标,请问您是想了解具体的实现细节吗?

以CGDL为代表的方法,在当前开放集自监督学习领域具有重要的地位
实施细节
针对CIFAR-10数据集的研究中,本研究采用了ResNet34作为主干网络,并通过两个Adam优化器各自对主干网络与交叉注意力模块进行了优化.在主干网络的训练过程中,默认学习率为1e-4的小值.相对于交叉注意力模块,则采用了稍高的学习率5e-3,并注重分类信息的提取.两个优化器的动量参数均设置为

我们采用了批量大小为128的训练策略,并进行了207 epoch的学习过程。对于CIFAR-17数据集而言,在采用主干网络架构的同时配合交叉注意力机制的情况下实现了更好的收敛效果;而对于ImageNet-7数据集,则采用了更为复杂的Resnet结构并结合了多阶段学习率衰减策略以提升分类性能
我们采用经过无监督预训练技术的ResNet模型来提取更高质量的图像特征。在启动训练过程前,我们首先通过该基础结构获取所有样本的数据表示。

随后采用K-means算法对这些向量执行无监督聚类, 从而获得初始类中心的表征

。这种含有先验知识的类中心初始化有助于模型的学习过程。
评价指标
我们借鉴了文献[1,2]所采用的评估手段,并记录了SSOC在已知类别、未知类别以及全部分类任务中的准确率。此外,在消融实验环节中,我们还计算并报告了新类样本集的标准化互信息(NMI)指标。值得注意的是,由于模型在学习过程中积累的新类特征呈现无序性,在进行未知类别与全部分类任务的准确性评估前,必须运用匈牙利算法进行最大权匹配以实现标签对齐。从而实现未知类聚类标签与真实标签的最佳对应关系。
5.2 主要结果
主要结果比较

我们表1详细列出了SSOC及多种对比方法在CIFAR-10、CIFAR-100以及ImageNet-100平台上的分类准确率对比结果。在整个实验组中采用统一的50%标记比率及50%新类比率设置。结果显示,在各类数据集上SSOC分别在已知类别识别准确率、未知类别识别准确率以及全部类别识别准确率方面都明显优于SSL、Open-set SSL以及NCD等现有方法。相较于表现最佳的RankStats算法,在CIFAR-10测试集上SSOC实现了3.8%的提升,在具有挑战性的ImageNet-100测试集中则获得了显著的进步——分别提升了2.9%和3.1%的未知类别识别能力。我们的实验数据显示:SSOC提供了一种有效解决开放世界SSL问题的方法。
改变标记比率

为了证明SSOC在少量标记数据场景下的有效性,我们固定新类比率为50%,对比了标记比率为10%和30%时,ORCA、NACH和SSOC的性能。表2展示了所有类别的准确率,其中部分ORCA、NACH实验结果来自它们的论文。从表中可以观察到,随着标记数据的减少,三个方法的性能都会下降,但是在CIFAR-10和ImageNet-100上,当标记数据从50%减少到10%时,SSOC仅产生了1.89%和7.22%的性能下降,而NACH分别下降了3.2%和12.79%。此外,在ImageNet-100数据集上,当标记比率为10%和30%时,SSOC的总准确率比NACH高出8.66%和$6.09%。遗憾的是,我们在CIFAR-100上标记比率为30%时的结果略差于NACH,但仍比ORCA高出6.95%。总体而言,SSOC具有较强的鲁棒性,能够很好地应对标记数据不足的情况。
改变新类比率

此外,在固定设置为50%的情况下(如图2所示),我们系统性地考察了不同新类比例对open-world SSL策略的影响效果(如表3所示)。表3详细列出了ORCA、NACH和SSOC在10%、30%、70%及90%新类比例下的全面准确率。值得注意的是,在复现相关论文代码的过程中遇到了一定挑战(如图4所示)。通过分析实验结果发现:当未知类别数量增加时(如表5所示),三个策略的表现均呈现下降趋势(如图4所示)。其中,在大部分情况下(如图5所示),SSOC的表现优于另两个策略;然而,在极少数情况下(如图6所示),其表现略逊于另两个策略。具体而言,在98个测试样本中(如表6所示),SSOC的表现明显优于其他两种策略;而在测试集大小为8k的情况下(如图7所示),其表现则稍逊于另两个策略。此外,在仅包含少量已知类别的情况下(如图8所示),所有模型均未能显著超越随机猜测水平;但在包含更多已知类别的情况下(如图9所示),表现则各有千秋:SSOC表现出较强的泛化能力;而其他两个策略则各有其特点
基于以下三项实验研究,在证明SSOC的有效性及其优异性能的同时(...),该方法展现了卓越的鲁棒性和泛化能力。其中,在应对标记数据不足或新类数量繁多的情况下(ORCA,NACH),该方法不仅表现更为出色(...),而且应用范围更加广泛(...)。这种方法不仅展现出显著的实际价值(...),而且其理论基础也更为扎实(...)。
5.3 消融实验

为了评估不同损失函数的效果,在ImageNet-100的数据集上进行了消融实验分析,在该过程中设定标记样本与新引入类别的比例均为50%。表4详细列出了在已知类别、未知类别以及全部分类任务中的准确率指标,并计算了未知类别样本的归一化互信息(NMI)值。在前三个实验设置中,依次排除了交叉熵损失项、成对相似性损失项以及最大熵正则化项的影响因素,并以剩下的单一损失函数作为优化目标。通过实验结果分析可以看出,在保持分类精度的同时显著提升了模型的泛化能力

在SSOC中扮演着关键角色,在删除操作之前必须利用标记数据的监督损失来生成真实的参考数据;同时,在完成伪标签训练后借助伪监督损失来学习未知类别。

在实验过程中,在处理未知类别时,在测试集上的性能严重下降

能进一步优化模型的整体性能。
5.4 参数敏感性
阈值选择的影响

该研究旨在探讨阈值对实验结果的影响,在CIFAR-100数据集上进行该实验,并采用多种不同的参数设置。

和

,标签比例和新颖比例均为50%。在图3(a)和(b)中,我们改变了

该研究不仅呈现了每个训练阶段阈值设置下的未标记样本数量(a),也显示出所选未知类别样本伪标签准确率(b)。可以看出,在较低...的情况下。

难以有效地去除误标示例的情况存在,则可能导致模型性能下降;另一方面,在较大参数范围内运行可能加剧这种问题的影响。

过度消除了未标记的数据可能会对模型的泛化能力产生负面影响。通过限制对未标记数据的利用程度,在一定程度上可能导致模型无法充分学习来自不同分布的数据特征。这种做法可能不利于提升模型在真实世界中的表现能力。此外,在第(c)项中我们引入了新的解决方案以平衡这一挑战

值的所选未知类别样本的伪标签准确性。在所有CIFAR-100实验中,我们将

设置为0.6,将

设置为0.8。
损失平衡超参数对损失的影响

为探究不同损失权重对结果的影响,在图4中展示了SSOC在ImageNet-100数据集上采用两种不同损失权重的准确率表现。经观察发现,在提升与未知类别相关的损失项权重时似乎会削弱模型从这些未知类别中学习的能力,并因而降低整体性能表现。这一现象表明,在构建分类模型时合理分配各类别之间的关系至关重要

,

, and

与未知类别的学习紧密相关,并非仅仅关注未知类别的学习可能会对整体分类带来负面影响。我们可以设想一个极端情形:当监督损失

当规模变得可以忽视不计时(即当样本数量极少),SSOC将退化为基于未标记数据的聚类算法,并缺乏真实的类别信息。采用匈牙利算法进行最大权重配对后发现,在预测产生的标签与实际标签之间出现大量错误配对的情况之下(即预测产生的 tag 和 real tag 之间出现错误 match 的数量显著增加),无法准确识别尚未定义的 category 以及整体 classification 效果欠佳。因此必须寻找能够平衡各类 loss 的最佳 weight 组合
6、总结
在本研究中,我们提出了一种名为SSOC的方法用于解决开放世界SSL问题这一技术难题。该模型通过交叉注意力机制自动生成对开放领域进行分类的任务,并从未标记的数据中提取特征相似性的信息作为训练依据。为了实现对新类别样本的识别与关联关系的建立过程,则采用实例分类以及关联关系识别新的未知类别这一系列操作步骤完成这一目标任务的具体实施细节与算法流程设计工作也得到了充分的验证与支持这一过程的具体实现细节与算法流程设计工作也得到了充分的验证与支持这一过程的具体实现细节与算法流程设计工作也得到了充分的支持与认可这一过程的具体实现细节与算法流程设计工作也得到了充分的支持与认可这一过程的具体实现细节与算法流程设计工作也得到了充分的支持与认可。
