Advertisement

论文阅读笔记:SCAN: Learning to Classify Images without Labels

阅读量:

论文阅读笔记:SCAN: Learning to Classify Images without Labels

  • 摘要

  • 简介和相关工作

  • 方法

    • 表征学习
    • 语义聚类损失
    • 2.3 通过自标记进行微调
  • 3 实验

    • 3.1 实验设置
    • 3.2 消融实验
    • 3.3 与SOTA相比(略)
    • 3.4 过聚类

摘要

当 ground truth 是缺失时, 我们能否自动实现图像按语义上具象化的聚类?

在本文中提出了一种不同于以往工作的新方法——为此建议采用分步策略:首先进行特征学习;然后进行聚类分析。具体而言,在第一步中,在表征学习框架下运用自监督任务提取具有语义意义的特征向量;随后,在第二阶段中,则将这些预提取的特征作为初始条件用于可学习式的聚类过程。通过上述分步策略实施后能够规避传统端到端方法中对低级表征过度依赖的问题

简介和相关工作

在有监督的学习框架内,该网络具备能力,在学习到预定类别中的差异性特征表示后进行归纳。然而,在缺少ground-truth标签的情况下会出现什么问题?或者更进一步地讲,在这种情况下语义的类以及它们的总数都是预先未知的数量和类别结构?在这种情况下最近研究者们关注并发展了无监督或自监督学习技术。理想的目标是根据聚类结果对图像进行分类处理。

通过自监督学习从图像中仅提取特征表示进行表征学习,从而避免了对图像进行昂贵的语义标注过程。为了实现这一目标,研究者们设计了一系列辅助任务,使得视觉特征能够被训练以最小化代理任务的目标函数。即使在没有ground-truth标注的情况下,在进行聚类分析时仍需自行设定并优化聚类指标(如K-means)。这种做法存在明显缺陷,因为它可能导致数据分布失衡的问题,并且无法确保所学集群与实际语义类别之间具有良好的对应关系

端到端学习

相较于现有的端到端学习方案而言,在本研究中我们采用了两阶段无监督图像分类体系。所提出的SCAN算法(基于最近邻节点进行语义聚类)通过巧妙地结合表征学习与端到端学习的优势,并且成功弥补了现有方案的不足之处

  1. 第一步,我们通过代理任务学习特征表示。表征学习方法在学习特征表示后需要K-means聚类,这会导致聚类退化。与表征学习方法不同,我们建议基于特征相似性挖掘每个图像的最近邻。在大多数情况下,这些最近邻属于同一语义类,这使得它们适合于语义聚类。
  2. 第二步,我们将语义上有意义的最近邻作为先验知识整合到可学习的方法中。我们通过使用损失函数将每个图像及其挖掘的近邻分类在一起,该损失函数在softmax之后最大化它们的点积,推动网络生成一致和无偏的one-hot预测。与端到端方法不同,学习的聚类依赖于更有意义的特征,而不是网络体系结构。此外,我们发现没有必要对输入应用特定的预处理。

方法

首先,在探讨如何从代理任务中获取最近邻作为语义聚类基础的知识时

表征学习

端到端式的聚类学习对于网络初始化过程较为敏感。此外,在训练初期阶段,网络尚未有效地提取图像中的高级特征。尽管如此,在语义聚类任务中这类基于低级属性(如颜色、纹理和对比度等)的方法往往表现欠佳。针对上述局限性问题,在探索潜在语义结构方面仍存在不足之处的情况下,则建议采用表征学习作为一种解决方案。

在表征学习领域中,通过自监督的方式实现了一个称为Φ_θ的嵌入映射(由参数θ控制的神经网络实现),该映射能够将输入图像转换为其对应的特征表示。在语义聚类过程中,则要求这些特征表示对于图像变换具有鲁棒性。基于此需求,在原有代理任务的基础上进行改进设计,使得其目标是尽可能缩小输入样本X_i与其增强版本T[X_i]之间的差异

在这里插入图片描述

如图所示,在满足等式1下检索最近邻域的结果。我们发现相似特征被赋予语义相似图像。代理任务将输出基于输入图像的信息,并迫使模型参数θ从中提取关键特征。由于模型Φ_θ容量有限性它必须丢弃无法预测的高级代理任务信息因此导致具有相似高级特征的图像在嵌入空间中的位置更加接近

在这里插入图片描述

在表征学习过程中,在完成代理任务后能够提取出相关的语义特征,并将这些特征作为图像聚类的基础条件。

语义聚类损失

通过最近邻居挖掘,在第2.1节中

我们首先关注的是以下实验的设计与实施过程。利用表征学习的方法,在未标记的数据集\mathcal D上训练出模型Φ_θ用于解决预设任务τ(即实例判别)。对于每一个样本x_i∈\mathcal D来说,在其对应的嵌入空间Φ_θ中确定其K近邻节点集合\mathcal N_{X_i}作为x_i的近邻样本群。图2展示了最近邻实例属于同一语义聚类的情况,在大多数情况下都是如此。基于这一观察结果的基础上,我们建议采用通过预设任务τ获得的最近邻节点集合作为语义聚类的经验性先验分布

在这里插入图片描述

我们的目标是学习一个聚类函数Φη(X),该函数由具有权重η的神经网络参数化,并将样本Xi及其近邻NXi归为一类。Φη通过应用softmax函数对聚类结果进行处理,并将其转换为[0,1]C空间中的软赋值。具体而言,样本Xi被分配到第c类的概率表示为Φηc(Xi)。为了优化Φη的权重参数,我们最小化以下目标函数:

在这里插入图片描述

该目标函数的第一部分旨在促进预测结果在X_i及其近邻\mathcal N_{X_i}上的一致性。值得注意的是,在预测结果为one-hot编码且具有较高置信度的情况下,并且当这些结果被分配到同一类别时,这种情况下会最大化点积计算的结果(从而使得第一部分最小化)。为了避免模型将所有样本过于集中在某一个类别中而导致退化解问题,我们增加了第二个部分(熵项),该部分旨在促进预测结果在所有类别上的均匀分布。如果类别集合\mathcal C的概率分布已知(但在当前情况下未知),则第二部分可能采用Kullback-Leibler散度来衡量分布间的差异。

在实践经验的基础上, 我们可以预期获得一个关于集群数量的大致估算结果. 根据这一估算值, 进而实现对大量类别进行过聚类处理, 并通过合理的分配策略确保各类别间的均衡分布.

实施细节
在实际实现我们的损失函数的过程中,我们采用充分的抽样策略来近似数据集的统计特性。在训练过程中,我们增加了样本及其邻近样本的数量。当K=0时,在角点处仅施加样本增强的一致性要求;为了平衡引入噪声与获取更多聚类方差之间的关系,在设定K≥1的情况下实现了这一目标。即并非所有样本及其相邻样本都来自同一聚类空间,在第3.2节中进行的实验结果表明这种策略显著提高了模型性能。

讨论

2.3 通过自标记进行微调

在第2.2节中,在应用语义聚类损失函数时,在样本与其近邻之间建立了高度一致性的关系。具体而言,每个样本至少与一个(K≥1)近邻相联系。然而,在某些情况下自然地不属于同一个语义集群。这些异常情况可能导致网络预测不确定性。通过实验分析发现,置信度较高的预测结果通常属于正确的类别。这使得我们能够基于预测结果的可信度来更可靠地选择样本。在此基础上我们提出了一种自监督学习方法用于识别这些代表性的特征并纠正最近邻噪声带来的误判问题。

在训练阶段中, 通过设置输出概率的最大值阈值来筛选出置信度较高的样本. 对于这些候选样本, 我们将对其进行聚类处理, 并为其分配对应的伪标签. 采用交叉熵损失函数作为优化目标, 进而更新这些伪标签的权重参数. 为了防止模型过拟合问题, 我们采用了增强数据的方法来降低交叉熵损失. 通过自监督学习机制使模型能够自动识别并纠正自身的预测误差.

该算法概述了新提出的方法的所有步骤,并命名为SCAN;其中采用最近邻进行语义聚类的方式。

在这里插入图片描述

3 实验

3.1 实验设置

该研究采用了ResNet-18作为主干网络,并针对每个样本实施了基于噪声对比估计(NCE)的方法以识别其20个最相似邻居。在小规模数据集上实施的任务中,则采用了SimCLR算法进行预训练,并在ImageNet数据集上应用MoCo方法(Momentum Contrastive Learning)。所选预训练任务不仅满足公式1中的特征不变性约束条件,并且结合了图像增强技术。从 RandAugment 中随机选取四个不同的变换策略应用于图像增强过程。验证准则在聚类步骤中采用最小损失模型选择策略,并在自标记过程中待机保存权重参数

3.2 消融实验

在这里插入图片描述

我们系统性地利用表1的数据评估了我们方法各组成部分的表现提升。在采用K-means聚类分析NCE代理特征时,此时其分类精度达到65.9%,这一数值具有显著差异。这并不令人意外的原因在于,在实际应用中聚类结果可能存在不均衡问题(如图3所示),此外这种方法无法确保与真实类别标签完全一致。

在这里插入图片描述

有趣的是,在无监督分类问题中应用基于端到端学习方案的方法时所获得的效果相比传统方法更为出色。这一观察结果验证了我们提出的中心论点:即通过将特征学习过程与聚类分离开来能够取得更好的效果。具体而言,在网络权重更新过程中采用了SCAN损失函数(同时结合SimCLR变换提升输入图像的质量),其性能比传统K-means算法高出约15.9%(从78.7%提升至81.8%)。值得注意的是,在两种方法中都采用了代理特征的概念:SCAN损失函数利用代理特征来进行图像聚类前的基础处理工作;然而两者的区别在于:我们采用的方法避免了聚类退化的问题。此外,在训练过程中我们还探究了不同增强策略的影响:将 RandAugment 转换应用于样本及其近邻挖掘对象能够进一步提高分类性能(如上所述)。我们推测强化增强策略通过引入额外的数据不变性特性有助于缩小潜在解空间的可能性。

在对网络施加自标记的过程中,在经过这一调整后使聚类质量得到了显著提升(从81.8%提升至87.6%)。伴随复杂性逐步增强时自动进行自我修复。(见图4)

在这里插入图片描述

关键在于, 为了实现有效的自标记应用, 必须调整强化方法(见图5)。我们推测这是为了避免网络在那些已经被准确分类的数据上发生过拟合。最终研究表明, 在不同阈值下评估的结果均表现出稳定性

在这里插入图片描述

代理任务
我们探究多类代理任务对最近邻挖掘的效果探究。我们探讨多类实例区分任务的实现方式,表2呈现了CIFAR10上的实验结果。

在这里插入图片描述

首先,通过观察发现所提出的方法与特定的代理任务无关:SCAN在所有测试中均表现出更高的准确率(超过70%)。其次,在满足不变性准则的任务中发现更适合用于近邻分析的具体指标表现优异——具体而言,在两个指标上分别达到83.5%和87.6%。这验证了我们在第2.1节提出的假设——选择能够在图像及其增强之间施加不变性的代理任务能够带来显著优势。

近邻数量 图7展示了不同数量的最近邻(k)对聚类效果的影响。(译者注:此处应补充说明)结果显示这一参数设置对于最终结果影响不大。(译者注:此处应补充说明)具体而言,在将k值从5逐步提升至50的过程中,并未观察到明显的变化趋势。(译者注:此处应补充说明)这种特性具有显著优势(译者注:此处应补充说明),因为它允许我们无需为新数据集重新设定合适的k值。(译者注:此处应补充说明)进一步研究表明,在k达到一定数值后(译者注:此处应补充说明),不仅分类准确度有所提升(译者注:此处应补充说明),而且算法稳定性也得到了明显改善。(译者注:此处应补充说明)。特别地,在k=0的情况下仅进行图像及其增强版本的一致性预测(译者注:此处应补充说明),其性能表现略低于将k设为5的情况(译者注:此处应补充说明)。实验结果表明这种方法能够有效提升模型泛化能力(译者注:此处应补充说明),从而获得更好的特征表示效果

图8呈现了去除不同类别样本对后的情况结果

3.3 与SOTA相比(略)

在这里插入图片描述

3.4 过聚类

基于目前的假设

基于ImageNet层次结构,我们选择以下超类的类实例:狗、昆虫、灵长类、蛇、衣服、建筑物和鸟类。图10显示了所选类别的混淆矩阵。混淆矩阵具有块对角结构。结果表明,错误分类的示例倾向于分配给同一超类中的其他集群,例如,该模型混淆了两个不同的狗品种。我们得出结论,该模型已学会将具有相似语义的图像分组在一起,而其预测错误可归因于缺乏注释,这可能会解开某些类别之间的细粒度差异。

全部评论 (0)

还没有任何评论哟~