Advertisement

【对比学习】【论文翻译】Unsupervised Embedding Learning via Invariant and Spreading Instance Feature(InvaSpread)

阅读量:

0.摘要

研究了无监督嵌入学习问题,该问题需要在低维嵌入空间中有效地度量样本间的相似性。受从类别监督学习中观察到的正集中和负分离性质的激励,我们建议利用实例监督来近似这些性质,旨在学习数据扩充不变量和实例展开特征。为了实现这一目标,我们提出了一种新的基于实例的softmax嵌入方法,该方法在softmax函数的基础上直接优化“真实”实例特征。它实现了比所有现有方法明显更快的学习速度和更高的准确性。所提出的方法对于具有余弦相似性的可见和不可见测试类别都表现良好。即使没有来自细粒度类别的样本的预训练网络,它也能实现有竞争力的性能。

1.研究背景

深度嵌入学习是计算机视觉中的一项基础任务[14],旨在学习具有以下性质的特征嵌入:1)正集中,属于同一类别的样本的嵌入特征彼此接近[32];2)负分离,尽可能分离属于不同类别的样本的嵌入特征[52]。监督嵌入学习方法已被研究以实现这些目标,并在各种视觉任务中表现出令人印象深刻的能力[28,30,53]。然而,监督方法所需的注释数据可能很难获得。为不同的任务收集足够多的带注释的数据需要昂贵的人力和特殊领域的专业知识。为了解决这个问题,本文解决了无监督嵌入学习问题(在[21]中也称为无监督度量学习),其目的是在没有人类注释标签的情况下学习有区别的嵌入特征。

无监督嵌入学习通常要求学习到的嵌入特征之间的相似性与输入图像的视觉相似性或类别关系一致。相比之下,一般的无监督特征学习通常旨在从未标记的数据中学习良好的“中间”特征表示[6,26,31,34]。然后,通过使用来自目标任务的一小组标记训练数据来微调模型(例如,线性分类器、对象检测器等),将学习的特征推广到不同的任务。)对于目标任务[3]。然而,学习的特征表示可能不会保持视觉相似性,并且对于基于相似性的任务,例如最近邻搜索,其性能会显著下降[46,48,50]。

无监督嵌入学习的主要挑战是从未标记的样本中发现视觉相似性或弱类别信息。Iscen等人[21]提出在流形上挖掘难正负样本。然而,它的性能严重依赖于标签挖掘的初始化特征表示的质量,这限制了对一般任务的适用性。在本文中,我们建议利用实例监督来近似前面提到的正集中和负分离性质。学习过程仅依赖于实例关系,而不依赖于预定义类别之间的关系,因此它可以很好地推广到以前没有见过的任意类别的样本(看不见的测试类别)[12]。

对于正集中:用随机初始化的网络挖掘可靠的正信息通常是不可行的。因此,我们对每个图像实例应用随机数据增强(例如,变换、缩放),并使用增强的图像作为正样本。换句话说,在不同的数据增强下,每个图像实例的特征应该是不变的。对于负分离:由于未标记的数据通常高度不平衡[27,49],每个图像实例的负样本数量比正样本数量大得多。因此,一小批随机选择的实例可以近似地视为每个实例的负样本。在这样的假设下,我们试图将每个实例与批处理中的所有其他采样实例分开,从而产生一个展开属性[52]。很明显,这种假设可能并不总是成立,每一批可能包含一些假负样本。然而,通过我们大量的实验,我们观察到展开特性有效地提高了判别能力。总之,我们的主要思想是学习一个判别实例特征,它为无监督嵌入学习保持数据扩增不变量和展开属性,如图1所示。
在这里插入图片描述

图1:我们基本想法的图示。同一实例在不同数据增强下的特征应该是不变的,而不同图像实例的特征应该是分离的。

为了实现这些目标,我们引入了一种新的基于实例特征的softmax嵌入方法。现有的softmax嵌入通常建立在分类器权重[8]或记忆特征[46]上,其效率和可分辨性有限。我们建议通过在softmax函数上直接使用实例特征的内积来显式优化特征嵌入,从而显著提高性能和效率。softmax函数挖掘硬负样本,并充分利用所有采样实例之间的关系来提高性能。由于实例数明显大于类别数,因此我们引入了孪生网络训练策略。将多类分类问题转化为二元分类问题,并利用极大似然估计进行优化。主要贡献可归纳如下:

•我们提出了一种新的基于实例特征的softmax嵌入方法来学习数据扩充不变量和实例展开特征。与所有竞争方法相比,它实现了明显更快的学习速度和更高的准确性。
•我们证明了数据扩充不变量和实例扩展属性对于基于实例的无监督嵌入学习都很重要。它们有助于捕捉样本之间明显的视觉相似性,并对看不见的测试类别进行很好的概括。
• 在综合图像分类和嵌入学习实验中,该方法比其他无监督学习方法取得了最先进的性能。

2.相关工作

2.1 一般无监督学习

无监督特征学习在文献中得到了广泛的研究。现有的工作可以大致分为三类[3]:1)生成模型,这种方法旨在学习图像和预定义噪声信号之间的参数化映射,这限制了原始数据和噪声之间的分布[46]。博尔兹曼机(RBMs)[24,40],自动编码器[20,42]和生成对抗网络(GAN)[7,10,11]被广泛研究。2)估计图像间标签,它通常使用提供标签信息的聚类技术[3,9,26]或基于kNN的方法[41]来估计图像间标签。然后对标签信息和特征学习过程进行迭代更新。3)自监督学习,该方法设计代理任务/信号来生成“伪标签”,然后将其公式化为预测任务来学习特征表示。借口任务可以是局部图像块的上下文信息[6]、随机重排图像块的位置[31]、图像的缺失像素[34]或来自灰度图像的颜色信息[51]。一些尝试还使用视频信息来提供弱监督,以学习特征表示[1,44]。
正如我们在第1节中所讨论的,一般的无监督特征学习通常旨在学习一个良好的“中间”特征表示,该表示可以很好地推广到其他任务。中间特征表示可能不会保持视觉上的相似属性。相比之下,无监督嵌入学习需要学习特征的额外视觉相似性属性。

2.2 深度嵌入学习

深度嵌入学习通常通过最小化类内变化和最大化类间变化来学习嵌入函数[32,37,45,47]。它们中的大多数是在成对[12,30]或三联体关系[13,29]的基础上设计的。特别是,几种采样策略被广泛研究以提高性能,如硬挖掘[16],semihard挖掘[35],智能挖掘[13]等。相比之下,softmax嵌入在没有采样要求的情况下实现了有竞争力的性能[18]。监督学习在各种任务上取得了卓越的性能,但它们仍然依赖于足够的注释数据。

2.3 无监督嵌入学习

根据评估协议,可以分为两种情况,1)测试类别与训练类别相同(可见测试类别),2)测试类别与训练类别不重叠(不可见测试类别)。后一种设置更具挑战性。在没有类别标签的情况下,Iscen等人[21]提出在流形上挖掘难正样本和负样本,然后用三元组损失训练特征嵌入。然而,它严重依赖于标签挖掘的初始化表示。

3.提出方法

我们的目标是从一组未标记的图像X={x1,x2,⋅⋅⋅,xn}X = {x_1, x_2, · · · , x_n}中学习一个特征嵌入网络fθ(⋅)f_θ(·)。fθ(⋅)f_θ(·)将输入图像xi映射到低维嵌入特征fθ(xi)∈Rdf_θ(x_i) ∈ \mathbb{R}^d,其中d是特征维数。为了简单起见,图像实例的特征表示fθ(xi)f_θ(x_i)由fif_i表示,并且我们假设所有的特征都是l2归一化的,即‖fi‖2=1‖f_i‖_2 = 1。一个好的特征嵌入应该满足:1)视觉相似图像的嵌入特征彼此接近;2)分离不同图像实例的嵌入特征。

在没有类别标签的情况下,我们利用实例监督来近似正集中和负分离的性质。特别地,同一实例在不同数据扩充下的嵌入特征应该是不变的,而不同实例的特征应该是分散的。在本节的其余部分,我们首先回顾了两种现有的基于实例的特征学习方法,然后提出了一种更加有效和有区别的基于实例特征的softmax嵌入方法。最后,我们将给出详细的原理分析,并介绍我们的孪生网络训练策略。

3.1 基于实例的Softmax嵌入

3.1.1 基于分类器权重的Softmax嵌入

Exemplar CNN[8]将每个图像视为一个不同的类。在常规分类器训练之后,它定义了矩阵W=[w1,w2,⋅⋅⋅,wn]T∈Rn×dW = [w_1, w_2, · · · , w_n]^T ∈ \mathbb{R}^{n×d},其中第j列wjw_j称为第j个实例的相应分类器权重。样本CNN保证了不同图像变换下的图像实例可以通过学习到的权重正确地分类到其原始实例中。基于Softmax函数,样本xjx_j被识别为第i个实例的概率可表示为
在这里插入图片描述
在每一步,网络将样本特征fif_i拉向其相应的权重wiw_i,并将其推离其他实例的分类器权重wkw_k。然而,分类器权重阻止了对特征的显式比较,这导致有限的效率和可辨别性。

3.1.2 基于Memory Bank的Softmax嵌入

为了改善较差的效率,Wu等[46]建议建立一个memory bank来存储在上一步中计算的实例特征fif_i。存储在memory bank中的特征被表示为viv_i,它在接下来的步骤中用作相应实例的分类器权重。因此,样本xjx_j被识别为第i个实例的概率可以写成
在这里插入图片描述

其中ττ是控制样本分布的浓度水平的温度参数[17]。viTfjv^T_if_j测量特征fjf_j和第i个记忆特征viv_i之间的余弦相似性。例如xix_i,在每一步,网络将其特征fif_i拉向其相应的记忆向量viv_i,并将其推离其他实例的记忆向量。由于效率问题,对应于实例xix_i的记忆特征viv_i仅在以xix_i为输入的迭代中更新。换句话说,记忆特征viv_i在每个epoch仅更新一次。然而,网络本身在每次迭代中都会更新。将实时实例特征fif_i与过时的记忆特征viv_i进行比较会阻碍训练过程。因此,memory bank方案仍然是低效的。

提高效率的一个简单方法是直接优化特征本身,即用fif_i代替权重{wi}{w_i}或内存{vi}{v_i}。然而,由于两个原因,它是不可信的:1)考虑到识别xix_i自身的概率P(i∣xi)P(i|x_i),因为fiTfi=1f^T_if_i=1,即特征和“伪分类器权重”(特征本身)总是完全对齐的,优化网络不会提供任何正的集中属性;2)为了计算等式(2)中的分母而动态计算所有样本(fk,k=1,...,n)(f_k, k = 1, . . . , n)的特征是不切实际的,尤其是对于大规模实例数数据集。

3.2 “真实”实例特征上的Softmax嵌入

为了解决上述问题,我们提出了一种用于无监督嵌入学习的softmax嵌入变体,它直接优化真实实例特征,而不是分类器权重[8]或memory bank[46]。为了实现同一实例在不同数据增强下的特征不变,而不同实例的特征是分散的目标,我们建议考虑1)原始图像及其增强图像,2)一小批随机选择的样本,而不是完整的数据集。

对于每次迭代,我们从数据集中随机抽取m个实例。为了简化符号,在不损失一般性的情况下,选择的样本用{x1,x2,⋅⋅⋅,xm}{x_1, x_2, · · · , x_m}表示。对于每个实例,应用随机数据增强操作T(⋅)T(·)来稍微修改原始图像。增广样本T(xi)T(x_i)用xi\hat{x}_i表示,其嵌入特征fθ(xi)f_θ(\hat{x}_i)用fi\hat{f}_i表示。我们没有将实例特征学习视为多类分类问题,而是通过最大似然估计(MLE)将其视为二元分类问题。特别是,例如xix_i,扩充的样本xi\hat{x}_i应该被分类到实例i中,而其他实例xj,j≠ix_j, j\neq i不应该被分类到实例i中。被识别为实例i的概率定义如下
在这里插入图片描述
另一方面,xjx_j被识别为实例i的概率定义如下
在这里插入图片描述
相应地,xjx_j不被识别为实例i的概率为1−P(i∣xj)1 − P (i|x_j)。

假设被识别为实例i的不同实例是独立的,则x^i\hat{x}_i被识别为实例i和xj,j≠ix_j, j\neq i不被分类为实例i的联合概率为
在这里插入图片描述

负对数似然由
在这里插入图片描述
我们通过最小化批处理中所有实例的负对数似然和来解决这个问题,它由
在这里插入图片描述

3.3 基本原理分析

这一节详细分析了为什么最小化等式(6)可以实现扩充不变量和实例展开特性。最小化等式(6)可以看作是最大化等式(3)和最小化等式(4).
考虑到等式(3),它可以重写为
在这里插入图片描述
使等式(3)最大化需要使exp(fiTfi/τ)exp(fT_i\hat{f}_i/τ )最大化和最小化exp(fkTfi/τ),k≠iexp(fT_k\hat{f}_i/τ ), k\neq i。由于所有的特征都是l2归一化的,最大化exp(fiTfi/τ)exp(fT_i\hat{f}_i/τ )需要增加fi\hat{f}_i和fifi之间的内积(余弦相似性),导致特征对于数据扩充是不变的。另一方面,最小化exp(fkTfi/τ),k≠iexp(fT_k\hat{f}_i/τ ), k\neq i确保f^i\hat{f}_i和其他实例{fk}{f_k}是分开的。考虑到批处理中的所有实例,这些实例被迫彼此分离,从而导致展开属性。类似地,等式(4)可以改写为,
在这里插入图片描述
注意,内积fjTfjfT_jf_j是1,ττ的值通常很小(比如实验中的0.1)。因此,exp(fjTfj/τ)exp(fT_jf_j/τ )通常决定整个分母的值。最小化等式(4)意味着exp(fiTfj/τ)exp(f^T_if_j/τ )应该最小化,其目的是分离fjf_j和fif_i。因此,它进一步提高了铺展性能。

3.4 使用孪生网络训练

我们提出了一个孪生网络来实现所提出的算法,如图2所示。在每次迭代中,在第一分支中输入m个随机选择的图像实例,并将相应的扩充样本输入第二分支。注意,在第一个分支中也使用数据扩充来丰富训练样本。为了实现,每个样本有一个随机增加的正样本和2N-2个负样本来计算等式(7),其中N是批量大小。所提出的训练策略大大降低了计算成本。同时,这种训练策略还充分利用了小批量采样的所有实例之间的关系[32]。理论上,我们也可以通过考虑批处理中每个实例的多个增强图像来使用多分支网络。
在这里插入图片描述
图2:提出的孪生网络无监督学习方法的框架。使用CNN主干将输入图像投影到低维归一化嵌入特征中。不同数据增强的同一图像实例的图像特征是不变的,而不同图像实例的嵌入特征是分散的。

4.实验

我们在两种不同的环境下进行了实验,以评估所提出的方法。第一个设置是训练集和测试集共享相同的类别(参见测试类别)。该协议被广泛用于一般的无监督特征学习。第二个设置是训练集和测试集不共享任何公共类别(看不见的测试类别)。这种设置通常用于监督嵌入学习[32]。按照[21],我们在训练集中不使用任何语义标签。后一种设置比前一种设置更具挑战性,它可以明显地证明在看不见的类别上学习到的特征的质量。

4.1 可视化测试类别的实验研究

我们遵循[46]中的实验设置,在CIFAR-10[23]和STL-10[4]数据集上进行实验,其中训练集和测试集共享相同的类别。具体来说,采用ResNet18网络[15]作为主干,输出嵌入特征维数设置为128。初始学习率设置为0.03,在120和160epoch衰减0.1和0.01。该网络被训练了200个epoch。温度参数ττ被设定为0.1。该算法在PyTorch上用带动量的SGD优化器实现。权重衰减参数为5×10−45×10^{−4},动量为0.9。对于两个数据集上的所有竞争方法,训练批量大小设置为128。在PyTorch中采用了四种默认参数的数据增强方法(随机大小裁剪、随机灰度、颜色抖动、随机水平翻转)。根据[46],我们采用加权kNN分类器来评估性能。给定一个测试样本,我们基于余弦相似性检索其top-k(k=200)最近邻,然后应用加权投票来预测其标签[46]。

4.1.1 CIFAR-10数据集

CIFAR-10数据集[23]包含来自相同十个类的50K训练图像和10K测试图像。图像尺寸为32 × 32。包括五种方法进行比较:不同聚类数的DeepCluster[3],ExemplarCNN[8],NPSoftmax[46],NCE[46]和有无难采样的Triplet损失。Triplet(hard)是用于训练的每批内的在线难负样本[16],边距参数设置为0.5。DeepCluster[3]和NCE[46]代表了最先进的无监督特征学习方法。结果如表1所示。

分类准确率:表1表明,我们提出的方法实现了kNN分类器的最佳性能(83.6%)。DeepCluster[3]在使用大规模未标记数据学习良好的“中间”特征方面表现良好,但使用kNN分类的性能急剧下降。同时,它对簇数也相当敏感,不适合不同的任务。与使用分类器权重进行训练的样本CNN[8]相比,所提出的方法优于它9.1%。与使用记忆特征进行优化的NPSoftmax[46]和NCE[46]相比,所提出的方法分别优于2.8%和3.2%。由于直接对特性本身执行优化的想法,性能改进是显而易见的。与triplet loss相比,所提出的方法也明显优于triplet loss。这种优势是由于Softmax函数中的难例挖掘性质。
在这里插入图片描述

我们在图3中绘制了竞争方法在不同epoch的学习曲线。所提出的方法仅需要2个epoch就可以获得60%的kNN精度,而[46]需要25个epoch,[8]需要45个epoch才能达到相同的精度。很明显,我们的学习速度比竞争对手快得多。通过直接优化实例特征而不是分类器权重[8]或memory bank[46]来保证效率。
在这里插入图片描述
图3 CIFAR-10数据集的训练效率评估。报告了每个epoch的kNN准确度(%),展示了不同方法的学习速度。

4.1.2 STL-10 数据集

STL-10数据集[4]是一个图像识别数据集,具有大小为96 × 96的彩色图像,广泛用于无监督学习。具体来说,这个数据集最初设计有三个分割:1)训练,5K标记的图像在十个用于训练的类,2)测试,来自用于测试的相同十个类的8K图像,3)未标记的100K未标记图像,其与用于无监督学习的标记数据共享相似的分布。我们遵循与CIFAR-10数据集相同的实验设置,并在表2中报告了线性分类器(线性)和kNN分类器(kNN)的分类准确度(%)。线性分类器是指根据学习到的特征和训练样本的标签来训练SVM分类器。分类器用于预测测试样本的标签。我们用它们发布的代码在相同的设置下实现了NPSoftmax[46]、NCE[46]和DeepCluster[3](100个簇)。默认情况下,我们只使用5K训练图像,不使用标签进行训练。还报道了一些最新的无监督方法(k-MeansNet[5],HMP[2],Satck[54]和Exemplar[8])的性能。这些结果摘自[33]。

如表2所示,当仅使用5K训练图像进行学习时,所提出的方法在两个分类器上都达到了最佳精度(kNN:74.1%,线性:69.5%),远优于相同评估协议下的NCE[46]和DeepCluster[3]。注意,kNN直接用学习的特征测量相似性,线性需要用标记的训练数据进行额外的分类器学习。当使用105K图像进行训练时,该方法对于kNN分类器和线性分类器都达到了最好的性能。特别地,对于5K训练图像,kNN准确率为74.1%,对于完整的105K训练图像,kNN准确率增加到81.6%。线性分类器的分类准确率也从69.5%提高到77.9%。实验结果表明,该方法可以获得更多的训练样本。
在这里插入图片描述
表2 STL-10数据集上线性分类器和kNN分类器的分类精度(%)。*结果取自[33],基线网络不同。

4.2 看不见测试类别实验

本节评估当训练样本和测试样本的语义类别不重叠时,学习特征嵌入的可区分性。我们遵循[32]中描述的实验设置,对CUB200-2011(CUB200)[43]、斯坦福在线产品(产品)[32]和Car196[22]数据集进行实验。训练不使用语义标签。加州理工学院——加州大学圣迭戈分校Caltech-UCSD鸟类200(CUB200)[43]是一个细粒度的鸟类数据集。在[32]之后,具有5,864幅图像的前100个类别用于训练,而具有5,924幅图像的其他100个类别用于测试。斯坦福在线产品(Product)[32]是一个大规模的细粒度产品数据集。类似地,具有总共59,551幅图像的11,318个类别用于训练,而具有60,502幅图像的其他11,316个类别用于测试。汽车(Car196)数据集[22]是一个细粒度的汽车类别数据集。具有8,054幅图像的前98个类别用于训练,而具有8,131幅图像的其他98个类别用于测试。

4.2.1 实现细节

我们在PyTorch上实现了所提出的方法。ImageNet上预先训练的Inception-V1[39]被用作遵循现有方法[30,32,37]的主干网络。在pool5层之后添加具有l2归一化的128维全连接层作为特征嵌入层。所有输入图像首先被调整为256 × 256。对于数据增强,图像以227 × 227的尺寸随机裁剪,然后随机水平翻转[21,30]。由于预训练的网络在CUB200数据集上表现良好,我们随机选择扩充的实例及其对应的最近实例作为正实例。在测试阶段,采用单个中心裁剪图像进行细粒度识别,如[30]所示。我们采用0.9动量的SGD优化器。初始学习率设置为0.001,没有衰减。温度参数ττ被设定为0.1。训练批大小设置为64。

4.2.2 评估指标

据监督深度嵌入学习的现有工作[13,32],评估测试集的检索性能和聚类质量。相似性度量采用余弦相似性。给定来自测试集的查询图像,R@k测量在top-k检索的排名列表中出现任何正确匹配(具有相同类别标签)的概率[32]。报告所有测试样本的平均分数。归一化互信息(NMI)[36]用于测量测试集的聚类性能。

4.2.3 与最先进技术的比较

表3、表4和表5分别列出了三个数据集上所有竞争方法的结果。MOM[21]是唯一声称无监督度量学习的方法。为了公平比较,我们在三个数据集上实现了其他三种最先进的无监督方法(Exemplar[8]、NCE[46]和DeepCluster[3]),并在相同的设置下发布了代码。请注意,这些方法最初是针对一般的无监督特征学习进行评估的,其中训练集和测试集共享相同的类别。我们还列出了CUB200数据集上监督学习的一些结果(源自[21]),如表3所示。

一般来说,基于实例的特征学习方法(NCE[46],Examplar[8],我们的)优于非基于实例的特征学习方法(DeepCluster[3],MOM[21]),特别是在Car196和产品数据集上,这表明基于实例的特征学习方法在看不见的测试类别上具有良好的泛化能力。在所有基于实例的特征学习方法中,该方法是明显的赢家,这也验证了直接优化特征本身的有效性。此外,所提出的无监督学习方法甚至可以与CUB200数据集上的一些监督学习方法相媲美。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2.4 定性结果

图4示出了在不同训练时期CUB200数据集上具有余弦相似性的一些检索示例。所提出的算法可以迭代地提高学习特征的质量,并检索更正确的图像。虽然有一些从其他类别中错误检索到的样本,但大多数检索到的顶级样本在视觉上与查询相似。
在这里插入图片描述

图4 CUB200-2011数据集上一些示例查询的4NN检索结果。正(负)检索结果用绿色(红色)框表示。相似度用余弦相似度来度量。

4.2.5 从0开始训练

我们还使用网络(ResNet18)评估性能,无需预训练。大规模产品数据集的结果如表6所示。提出的方法也是一个明显的赢家。有趣的是,MOM [21]在这个实验中失败了。其主要原因是随机初始化网络的特征为标签挖掘提供了有限的信息。因此,MOM无法估计用于训练的可靠标签。
在这里插入图片描述

4.3 消融实验

所提出的方法为实例特征学习施加了两个重要的属性:数据扩充不变量和实例展开。我们在CIFAR-10数据集上进行消融研究,以显示每个属性的有效性。
在这里插入图片描述
表7:每个数据扩充操作对CIFAR10数据集的影响。“w/o”:没有。“R”:随机大小裁剪,“G”:随机灰度,“C”:颜色抖动,“F”:随机水平翻转。
在这里插入图片描述
为了说明数据扩充不变性的重要性,我们首先通过从数据扩充集中分别删除每个操作来评估性能。结果如表7所示。我们观察到,所有列出的操作都有助于所提出的算法实现显著的性能增益。特别是RandomResizedCrop的贡献最大。我们还在表8中评估了没有数据扩充(无DA)的性能,它显示性能从83.6%显著下降到37.4%。这是因为在没有数据扩充的情况下进行训练时,网络不会产生任何正的集中属性。视觉上相似的图像的特征被错误地分离。
为了说明展开属性的重要性,我们评估了两种不同的选择负样本的策略:1)选择与查询实例相似的前50%实例特征作为负样本(难负样本);2)选择与查询实例相似的底部50%实例特征作为负样本(简单负样本)。结果在表8中显示为“困难”和“容易”。当只使用简单的负样本时,性能会急剧下降。相比之下,仅使用难样本时,性能几乎与全模型相同。结果表明,分离难负样本有助于提高学习嵌入的可分辨性。

4.4 对学习嵌入的理解

我们计算查询特征与其来自同一类别的5NN特征之间的余弦相似度(正)以及来自不同类别的5NN特征(负)。不同方法的余弦相似性的分布如图5所示。更可分离的分布表明更好的特征嵌入。结果表明,该方法在分离正负样本方面表现最佳。我们还可以观察到,我们学习的特征保持了最佳的展开特性。
在这里插入图片描述
图5:CIFAR-10上的余弦相似性分布[23]
展示学习到的实例化特性如何帮助类别标签预测是很有趣的。我们报告了基于其他类别定义([19]中的属性)而不是图6中的语义标签的余弦相似性分布。分布清楚地表明,所提出的方法在分离其他属性方面也表现良好,这证明了所学习特征的泛化能力。
在这里插入图片描述
图6:CIFAR-10[23]上具有不同属性的随机初始化网络(左列)和我们学习的模型(右列)的余弦相似性分布。

5.结论

在本文中,我们提出通过学习数据扩充不变量和实例展开特征来解决无监督嵌入学习问题。特别地,我们提出了一种新的基于实例特征的softmax嵌入方法,该方法用孪生网络训练,显式地将同一实例在不同数据扩充下的特征拉近,将不同实例的特征推开。综合实验表明,直接优化实例特征可以显著提高性能和效率。我们的经验表明,展开属性是特别重要的,它有助于捕捉样本之间的视觉相似性。

全部评论 (0)

还没有任何评论哟~