Advertisement

【对比学习】【论文翻译】Unsupervised Feature Learning via Non-Parametric Instance Discrimination

阅读量:

Unsupervised Feature Learning via Non-Parametric Instance Discrimination

摘要

在带有注释类标签的数据上训练的神经网络分类器也可以捕捉类别之间明显的视觉相似性,而无需被指示这样做。我们研究这种观察是否可以扩展到监督学习的传统领域之外:我们是否可以通过仅仅要求特征区分单个实例来学习一个好的特征表示,该特征表示可以捕捉实例之间的明显相似性,而不是类?我们将这种直觉公式化为实例级的非参数分类问题,并使用噪声影响估计来解决大量实例类带来的计算挑战。

我们的实验结果表明,在无监督学习设置下,我们的方法大大超过了ImageNet分类的最新水平。我们的方法在通过更多的训练数据和更好的网络架构持续提高测试性能方面也是显著的。通过微调学习的特征,我们进一步获得了半监督学习和对象检测任务的竞争性结果。我们的非参数模型非常紧凑:每张图像有128个特征,我们的方法只需要600MB的存储来存储一百万张图像,从而在时实现快速的最近邻检索。

1.研究背景

深度神经网络,尤其是卷积神经网络(CNN)的兴起,导致了计算机视觉基准的几项突破。大多数成功的模型都是通过监督学习来训练的,这需要针对特定任务完全注释的大型数据集。然而,获取带注释的数据通常非常昂贵,甚至在某些情况下不可行。近年来,无监督学习越来越受到社区的关注[5,2]。

我们的无监督学习的新方法源于对物体识别的监督学习结果的一些观察。在ImageNet上,前5个分类错误明显低于前1个错误[18],并且第二高相关的类在softmax输出到图像更有可能在视觉上相关联。图1示出来自leopard类的图像通过jaguar类而不是通过bookcase类被评定得高得多[11]。这种观察表明,典型的判别学习方法可以自动发现语义类别之间的明显相似性,而无需被明确引导这样做。换句话说,表面相似性不是从语义注释中学习的,而是从视觉数据本身学习的。
在这里插入图片描述
图1:激励我们非监督方法的监督学习结果。对于来自leopard类的图像,从训练的神经网络分类器获得最高响应的类都是视觉相关的,例如jaguar和cheetah。不是语义标记,而是数据本身的明显相似性使一些类比其他类更接近。我们的无监督方法将类监督发挥到了极致,并学习了区分单个实例的特征表示。

我们将类监督发挥到实例监督的极端,并问:我们能否通过纯粹的判别学习来学习一个有意义的度量,以反映实例之间的明显相似性?一个图像本身是独特的,每个图像都可能与同一语义类别中的其他图像显著不同[23]。如果我们学会在没有任何语义类别概念的情况下区分单个实例,我们可能最终得到一个捕捉实例之间明显相似性的表示,就像基于类的监督学习如何仍然保留类之间的明显相似性一样。这种将无监督学习作为实例级判别的表述在技术上也很有吸引力,因为它可以受益于判别监督学习的最新进展,例如在新的网络架构上。

然而,我们也面临着一个重大挑战,因为“类”的数量就是整个训练集的大小。对于ImageNet,它将是120万个类,而不是1000个类。简单地将softmax扩展到更多的类是不可行的。我们通过用噪声对比估计(NCE)[9]近似完整的softmax分布,并通过诉诸近似正则化方法[29]来稳定学习过程,从而应对这一挑战。

为了评估无监督学习的有效性,过去的工作如[2,31]依赖于线性分类器,如支持向量机(SVM),在测试时将学习的特征与类别联系起来进行分类。然而,尚不清楚为什么通过训练任务学习的特征对于未知的测试任务是线性可分的。

我们提倡训练和测试的非参数方法。我们将实例级区分公式化为度量学习问题,其中实例之间的距离(相似性)以非参数方式直接从特征中计算。也就是说,每个实例的特征存储在离散的存储库中,而不是网络中的权重。在测试时,我们基于学习到的度量使用k-最近邻(kNN)执行分类。因此,我们的训练和测试是一致的,因为我们模型的学习和评估都与图像之间的相同度量空间有关。我们报告并比较了SVM和kNN精度的实验结果。

我们的实验结果表明,在无监督学习设置下,我们的方法在图像分类方面远远超过了最先进的水平,在ImageNet 1K[1]上的前1准确率为42.5%,在Places 205[49]上的前1准确率为38.7%。我们的方法在通过更多的训练数据和更好的网络架构持续提高测试性能方面也是显著的。通过微调学习的特征,我们进一步获得了半监督学习和对象检测任务的竞争性结果。最后,我们的非参数模型非常紧凑:每张图像有128个特征,我们的方法只需要600MB的存储来存储一百万张图像,从而在时实现快速的最近邻检索。

2.相关工作

人们对没有人类提供的标签的无监督学习越来越感兴趣。以前的工作主要分为两类:1)生成模型和2)自监督方法。

2.1 生成模型

生成模型的主要目标是尽可能忠实地重建数据的分布。经典的生成模型包括受限玻尔兹曼机(RBMs)[12,39,21]和自动编码器[40,20]。生成模型产生的潜在特征也有助于物体识别。最近的方法,如生成对抗网络[8,4]和变分自动编码器[14]提高了生成质量和特征学习。

2.2 自监督学习

自监督学习利用数据的内部结构,并制定预测任务来训练模型。具体来说,模型需要预测实例中被忽略的方面或组件。为了学习图像的表示,任务可以是:预测上下文[2],计算对象[28],填充图像的缺失部分[31],从灰度图像中恢复颜色[47],甚至解决拼图游戏[27]。对于视频,自监督策略包括:通过跟踪利用时间连续性[44,45],预测未来[42],或保持自我运动的等方差[13,50,30]。最近的工作[3]试图结合几个自监督的任务,以获得更好的视觉表现。虽然自监督学习可以捕捉实例的部分或方面之间的关系,但尚不清楚为什么特定的自监督任务应该有助于语义识别,以及哪种任务将是最佳的。

2.3 度量学习

每个特征表示F在实例x和y之间归纳出一个度量:dF(x,y)=‖F(x)−F(y)‖d_F (x, y)=‖F (x) − F (y)‖。因此,特征学习也可以被视为某种形式的度量学习。关于度量学习已经有了广泛的研究[15,33]。度量学习的成功应用通常可以产生有竞争力的表现,例如在人脸识别[35]和个人重识别[46]上。在这些任务中,测试时的类与训练时的类是不相交的。一旦网络被训练,人们只能从它的特征表示中推断,而不能从随后的线性分类器中推断。度量学习已被证明对少样本学习有效[38,41,37]。人脸识别的度量学习的一个重要技术点是归一化[35,22,43],我们在这项工作中也利用了这一点。请注意,这里提到的所有方法都需要以特定的方式进行监督。我们的工作完全不同:它以无监督的方式学习特征,从而学习诱导的度量,没有任何人工注释。

2.4 范例CNN

样本CNN[5]似乎与我们的工作相似。根本区别在于,它在训练和测试过程中都采用了参数化范式,而我们的方法本质上是非参数化的。我们在第4.1节中通过实验研究了这一本质区别。样本CNN对ImageNet等大规模数据集的计算要求很高。

3.方法

我们的目标是在没有监督的情况下学习一个嵌入函数v=fθ(x)v = f_θ(x)。fθf_θ是一个具有参数θ的深度神经网络,将图像x映射到特征v。这种嵌入将在图像空间上引入一个度量,例如x和y,dθ(x,y)=‖fθ(x)−fθ(y)‖d_θ(x, y)=‖f_θ(x) − f_θ(y)‖。一个好的嵌入应该将视觉上相似的图像映射得彼此更接近。我们新颖的无监督特征学习方法是实例级辨别。我们将每个图像实例视为其自身的一个独特类,并训练一个分类器来区分各个实例类(图2)。
在这里插入图片描述

图2:我们的无监督特征学习方法的管道。我们使用主干CNN将每个图像编码为特征向量,该特征向量被投影到128维空间并进行L2归一化。最优特征嵌入是通过实例级判别来学习的,它试图将训练样本的特征最大限度地分散在128维的单位球面上。

3.1 非参数Softmax分类器

3.1.1 参数化分类器

我们使用softmax标准制定实例级分类目标。假设我们有n个图像x1,...,xnx_1,...,x_n n个类和它们的特征v1,...,vnv_1,...,v_n,其中vi=fθ(xi)v_i = f_θ(x_i)。在常规参数softmax公式下,对于特征为v=fθ(x)v = f_θ(x)的图像x,识别为第i个实例的概率为
在这里插入图片描述

其中wjw_j是类j的权重向量,wjTvw^T_jv测量v与第j类匹配的程度,即实例。

3.1.2 非参数化分类器

等式(1)中参数softmax公式的问题。是权重向量w充当类原型,防止实例之间的显式比较。我们提出了等式(1)的非参数变体。用vjTvvT_jv代替wjTvwT_jv,我们通过L2归一化层强制实施‖v‖=1‖v‖ =1。那么概率P(i∣v)P (i|v)变成:
在这里插入图片描述
其中ττ是控制分布的浓度水平的温度参数[11]。ττ对于监督特征学习很重要[43],对于调整单位球面上v的浓度也是必要的。

然后,学习目标是最大化联合概率∏i=1nPθ(i∣fθ(xi))∏^n_{i=1}P_θ(i|f_θ(x_i)),或者等价地最小化训练集上的负对数似然,如
在这里插入图片描述

3.1.3 用Memory Bank学习

计算等式(2)中的概率P(i∣v)P (i|v)。所有图像的{vj}{v_j}都需要。我们不是每次都穷尽地计算这些表示,而是维护一个特征存储库V来存储它们[46]。在下文中,我们将介绍从网络转发的存储器组和特征的单独符号。设V={vj}V={v_j}为记忆库,fi=fθ(xi)f_i = f_θ(x_i)为xi的特征。在每次学习迭代中,通过随机梯度下降优化表示fif_i和网络参数θ。然后在相应的实例条目fi→vif_i→v_i处将fi更新到V。我们将内存库V中的所有表示初始化为单位随机向量。

3.1.4 讨论

从类别权重向量wjw_j到特征表示vjv_j的概念变化是显著的。原始softmax公式中的权重向量{wj}{w_j}仅对训练类有效。因此,它们没有被推广到新的类,或者在我们的环境中,新的实例。当我们去掉这些权重向量时,我们的学习目标完全集中在特征表示及其诱导度量上,这可以应用于空间中的任何地方以及测试时的任何新实例。

在计算上,我们的非参数公式消除了计算和存储{wj}{w_j}梯度的需要,使其更具大数据应用的可扩展性。

3.2 噪声对比损失

计算等式(2)中的非参数softmax是成本过高的,当类别n的数量非常大时,例如在数百万的规模上。类似的问题已经在学习词嵌入的文献中得到很好的解决[25,24],其中单词的数量也可以扩展到数百万。减少计算的流行技术包括分层softmax[26]、噪声对比估计(NCE)[9]和负采样[24]。我们使用NCE[9]来近似完整的softmax。

我们将NCE应用于我们的问题,以解决计算训练集中所有实例的相似性的困难。其基本思想是将多类分类问题转化为一组二元分类问题,其中二元分类的任务是区分数据样本和噪声样本。具体地说,存储器库中的特征表示v对应于我们模型下的第i个示例的概率是,
在这里插入图片描述

其中Zi是归一化常数。我们将噪声分布形式化为均匀分布:Pn=1/nP_n =1/n。根据之前的工作,我们假设噪声样本的频率是数据样本的m倍。那么特征v来自数据分布的样本i的后验概率(用D=1表示)是:
在这里插入图片描述
我们的近似训练目标是最小化数据和噪声样本的负对数后验分布,

这里,PdP_d表示实际的数据分布。对于PdP_d,v是对应于xix_i的特征;而对于PnP_n,v′v′是来自另一幅图像的特征,根据噪声分布PnP_n随机采样。在我们的模型中,v和v′v′都是从非参数存储器组v中采样的。根据等式(4)计算归一化常数ZiZ_i是昂贵的。我们遵循[25],将其视为常数,并通过蒙特卡罗近似估计其值:
在这里插入图片描述

其中{jk}{j_k}是索引的随机子集。根据经验,我们发现从初始批次得出的近似值足以在实践中很好地工作。NCE将每个样本的计算复杂度从O(n)O(n)降低到O(1)O(1)。如此大幅度的减少,我们的实验仍然产生有竞争力的性能。

3.3 近端梯度

与每个类有许多实例的典型分类设置不同,我们每个类只有一个实例。在每个训练时期,每个类只被访问一次。因此,学习过程因随机抽样波动而振荡很大。我们采用近似优化方法[29],并引入一个额外的项来鼓励训练动态的平滑性。在当前迭代t中,从网络vi(t)=fθ(xi)v^{(t)}_i = f_θ(x_i)计算数据xi的特征表示。所有表示的存储库在前一次迭代V={v(t−1)}V = {v^{(t−1)}}时存储。PdP_d正例样本的损失函数为:
在这里插入图片描述
随着学习收敛,迭代之间的差异,即vi(t)−vi(t−1)v^{(t)}_i − v^{(t−1)}_i逐渐消失,增加的损失减少到原始损失。通过近端正则化,我们的最终目标是:
在这里插入图片描述
图3显示,根据经验,近似正则化有助于稳定训练,加速收敛,并改善学习的表示,而额外成本可以忽略不计。
在这里插入图片描述

图3:我们的近端正则化的效果。原始目标值振荡很大,收敛很慢,而正则化目标具有更平滑的学习动态。

3.4 加权KNN分类器

为了对测试图像进行分类,我们首先计算其特征f=fθ(x)\hat{f} = f_θ (\hat{x}),然后使用余弦相似性将其与存储库中所有图像的嵌入进行比较si=cos(vi,f^)s_i = cos(v_i,\hat{f} ).然后,用NkN_k表示的前k个最近邻将被用于通过加权投票进行预测。具体而言,c类将得到总权重wc=∑i∈Nkαi⋅1(ci=c)w_c = ∑_{i∈N_k} α_i · 1(c_i = c)。这里,αiα_i是邻居xix_i的贡献权重,它取决于相似性,如αi=exp(si/τ)α_i =exp(s_i/τ )。我们选择τ=0.07τ =0.07作为训练,我们设置k=200k = 200。

4.实验

我们进行了4组实验来评估我们的方法。第一组是在CIFAR-10上比较我们的非参数softmax和参数softmax。第二组是在ImageNet上,将我们的方法与其他无监督学习方法进行比较。最后两组实验研究了两个不同的任务,半监督学习和目标检测,以显示我们学习的特征表示的泛化能力。

4.1 参数softmax和非参数softmax

我们方法的一个关键创新点是非参数softmax函数。与传统的参数softmax相比,我们的softmax允许将非参数度量转移到受监督的任务。我们比较了CIFAR-10[17]上的参数和非参数公式,CIFAR-10是一个数据集,在10个类中有50,000个训练实例。这个大小允许我们在没有任何近似的情况下计算等式(2)中的非参数softmax。我们使用ResNet18作为主干网络,其输出特征映射到128维向量中。

我们基于学习到的特征表示来评估分类的有效性。一种常见的做法[48,2,31]是在训练集上对学习的特征训练SVM,然后基于从训练的网络中提取的特征对测试实例进行分类。此外,我们还使用最近邻分类器来评估学习到的特征。后者直接依赖于特征度量,并且可以更好地反映表示的质量。

表1显示了CIFAR10上排名前1的分类精度。在用参数softmax学习的特征上,我们用线性SVM和kNN分类器分别获得了60.3%和63.0%的准确率。在使用非参数softmax学习的特征上,线性和最近邻分类器的准确率分别提高到75.4%和80.8%,后者显著提高了18%。我们还研究了逼近非参数softmax的NCE的质量(3.2节)。近似值由m控制,m是为每个实例绘制的负数。当m=1时,kNN的精度显著下降到42.5%,m增大,性能稳步提高。当m=4,096时,精度接近于m=49,999时的精度——完全形式评估,没有任何近似。这个结果保证了NCE是一个有效的近似。
在这里插入图片描述
表1:通过对学习的特征应用线性SVM或kNN分类器,CIFAR10的前1精度。我们的非参数softmax优于参数softmax,并且随着m的增加,NCE提供了接近的近似值。

4.2 图像分类

我们在ImageNet ILSVRC[34]上学习特征表示,并将我们的方法与代表性的无监督学习方法进行比较。

4.2.1 实验设置

我们通过经验验证来选择设计参数。特别地,我们将温度τ=0.07,并使用m=4,096的NCE来平衡性能和计算成本。使用带有动量的SGD对模型进行了200个时期的训练。批量为256。学习率被初始化为0.03,在前120个时期之后,每40个时期以系数0.1按比例缩小。

4.2.2 比较

我们将我们的方法与随机初始化的网络(作为下限)和各种无监督学习方法进行比较,包括自监督学习[2,47,27,48],对抗学习[4]和样本CNN[3]。split-brain自动编码器[48]提供了一个强大的基线,代表了最先进的技术。这些方法的结果在他们的原始论文中用AlexNet架构[18]报告,除了范例CNN[5],其结果用ResNet-101[3]报告。由于网络架构对性能有很大影响,我们考虑几个典型的架构:AlexNet[18]、VGG16[36]、ResNet-18和ResNet-50[10]。

我们评估了两种不同协议的性能:
(1)对从conv1到conv5的中间特征执行线性支持向量机。请注意,在VGG16和ResNet[36,10]中也有相应的层。
(2)对输出特征进行kNN。
表2显示:
1.利用AlexNet和中间特征的线性分类,我们的方法达到了35.6%的准确率,优于所有基线,包括最先进的基线。我们的方法可以很容易地扩展到更深的网络。当我们从AlexNet转移到ResNet-50时,我们的准确率提高到42.5%,而样本CNN[3]的准确率即使使用ResNet-101也只有31.5%。
2.通过对最终128维特征进行最近邻分类,我们的方法在AlexNet、VGG16、ResNet-18和ResNet-50上分别获得了31.3%、33.9%、40.5%和42.5%的准确率,与线性分类结果相差不远,表明我们学习的特征诱导了相当好的度量。作为比较,对于裂脑,在conv3特征上使用最近邻分类的准确率下降到8.9%,在将特征投影到128维后下降到11.8%。
3.使用我们的方法,性能随着我们从较早层到较晚层检查学习的特征表示而逐渐提高,这通常是理想的。对于所有其他方法,性能下降超过conv3或conv4。
4.重要的是要注意,来自中间卷积层的特征可以超过10,000维。因此,对于其他方法,使用来自性能最佳层的特征会导致显著的存储和计算成本。我们的方法在最后一层产生一个128维的表示,这是非常有效的工作。ImageNet中所有128万张图像的编码特征只占用大约600 MB的存储空间。在Titan X GPU上,对该数据集进行详尽的最近邻搜索只需20毫秒。
在这里插入图片描述
表2 ImageNet上排名前1的分类精度。

4.2.3 特征泛化

我们还研究了学习到的特征表示如何推广到其他数据集。在相同的设置下,我们在Places[49]上进行了另一项大规模实验,Places是一个用于场景分类的大型数据集,包含205个类别中的245万张训练图像。在本实验中,我们直接使用在ImageNet上训练的特征提取网络,无需微调。表3比较了不同方法和不同评估政策下获得的结果。同样,通过conv5特征上的线性分类器,我们的方法实现了与AlexNet的前1准确率34.5%和与ResNet-50的前1准确率42.1%的竞争性能。当最近邻位于比中间层小得多的最后一层时,我们用ResNet50实现了38.7%的准确率。这些结果表明,使用我们的方法学习的表征具有显著的泛化能力。
在这里插入图片描述
表3:Places的前1分类精度,直接基于在ImageNet上学习的特征,没有任何微调。

4.2.4 训练和测试目标的一致性

无监督特征学习是困难的,因为训练目标与测试目标是不可知的。一个好的培训目标应该反映在测试性能的持续改进上。我们研究了跨迭代的训练损失和测试精度之间的关系。图4显示,随着训练的进行,我们的测试精度继续提高,没有过度拟合的迹象。这也表明,更好地优化训练目标可以进一步提高我们的测试精度。
在这里插入图片描述
图4:随着训练损失的减少,我们在ImageNet上的kNN测试准确性继续提高,表明我们的无监督学习目标捕捉到了明显的相似性,这与数据的语义注释非常一致。

4.2.5 嵌入特征大小

我们研究了当我们将嵌入大小从32改变到256时,性能是如何变化的。表4显示,性能从32增加,稳定在128,似乎饱和到256。
在这里插入图片描述表4:不同嵌入特征大小的ImageNet和ResNet18上的分类性能。

4.2.6 训练集大小

为了研究我们的方法如何随数据大小而扩展,我们用不同比例的ImageNet数据训练不同的表示,并使用最近邻来评估完整标记集上的分类性能。表5显示了我们的特征学习方法受益于更大的训练集,并且测试精度随着训练集的增长而提高。这一特性对于成功的无监督学习至关重要,因为野外并不缺少未标记的数据。
在这里插入图片描述
表5:用ResNet-18在不同数量的训练集上训练的分类性能。

4.2.7 定性案例研究

为了说明学习到的特征,图5显示了使用学习到的特征进行图像检索的结果。上面的四行显示了最好的情况其中所有前10个结果都与查询属于同一类别。下面的四行显示了前10名中没有一个属于同一类别的最糟糕的情况。然而,即使对于失败的情况,检索到的图像在视觉上仍然与查询相似,这证明了我们无监督学习目标的力量。
在这里插入图片描述
图5:示例查询的检索结果。左列是来自验证集的查询,而右列显示来自训练集的10个最接近的实例。上半部分显示了最好的情况。下半部分显示了最糟糕的情况。

4.3 半监督学习

我们现在研究学习到的特征提取网络如何使其他任务受益,以及它是否可以为将学习转移到其他任务提供良好的基础。可以从无监督学习中受益的一个常见场景是,当我们拥有大量数据,其中只有一小部分被标记时。一种自然的半监督学习方法是首先从大的未标记数据中学习,然后在小的标记数据上微调模型。我们随机选择ImageNet的一个子集作为标签并把其他当成无标签。我们执行上述半监督学习,并在验证集上测量分类精度。为了与[19]进行比较,我们在此报告了前5名的准确度。

我们将我们的方法与三个基线进行比较:(1)Scratch,即在小标记子集上的完全监督训练,(2)用于预训练的Split-brain[48],以及(3)用于预训练的Colorization[19]。对标记子集的微调需要70个时期,初始学习率为0.01,衰减率为每30个时期10个。我们将标记子集的比例从整个数据集的1%变化到20%。图6显示,我们的方法明显优于所有其他方法,并且我们的方法是唯一一种优于有限标记数据的监督学习的方法。当只有1%的数据被标记时,我们的表现远远超过10%,这表明我们从未标记的数据中学习的特征对于任务适应是有效的。
在这里插入图片描述
图6 ImageNet上的半监督学习结果,标记数据的比例不断增加(x轴)。我们的一直都很好,而且明显更好。请注意,基于colorization的预训练结果来自更深的ResNet-152网络[19]。

4.4 目标检测

为了进一步评估学习特征的泛化能力,我们在PASCAL VOC 2007[6]上将学习的网络转移到对象检测的新任务中。从头开始训练对象检测模型通常是困难的,流行的做法是在ImageNet上预训练底层CNN,并针对检测任务对其进行微调。我们用AlexNet和VGG16架构试验了快速R-CNN[7],用ResNet50试验了更快的R-CNN[32]。当微调快速R-CNN时,学习速率初始化为0.001,并在每50K次迭代后缩小10倍。当微调AlexNet和VGG16时,我们遵循标准实践,固定conv1模型权重。当微调更快的R-CNN时,我们修正了模型权重低于第三种类型的残差块,仅更新上面的层并冻结所有批量标准化层。我们遵循标准管道进行微调,不使用[2]中提出的重新缩放方法。我们使用VOC 2007中的标准trainval集进行培训和测试。

我们比较了三种设置:1)从头开始直接训练(下限),2)以监督方式在ImageNet上预训练(上限),以及3)使用各种非监督方法在ImageNet或其他数据上预训练。表6根据平均精度(mAP)列出了检测性能。使用AlexNet和VGG16,我们的方法实现了48.1%和60.5%的映射,与最先进的无监督方法相当。使用Resnet-50,我们的方法实现了65.4%的mAP,超过了所有现有的无监督学习方法。这也表明,随着网络的深入,我们的方法可以很好地扩展。从监督预训练到mAP 76.2%,仍有11%的显著差距需要缩小。
在这里插入图片描述
表6:PASCAL VOC 2007测试中的对象检测性能,根据平均精度(mAP),用于监督预训练方法(标记为†)、现有的非监督方法和我们的方法。

5.结论

我们提出了一种无监督的特征学习方法,通过一种新的非参数softmax公式最大化实例之间的区别。它的动机是观察到监督学习导致明显的图像相似性。我们的实验结果表明,我们的方法在ImageNet和Places上的图像分类方面优于最先进的技术,具有紧凑的128维表示,可以很好地扩展更多的数据和更深的网络。它还在半监督学习和对象检测任务中提供有竞争力的泛化结果。

全部评论 (0)

还没有任何评论哟~