2018_ECCV_Deep Clustering for Unsupervised Learning of Visual Features
https://zhuanlan.zhihu.com/p/413236566
本文为ECCV2018来自Facebook团队的作品,一次完整的训练需要在P100上训练12天。全文翻译如下:
摘要
聚类是一类无监督学习方法,在计算机视觉中得到了广泛的应用和研究。很少有工作将其应用于大规模数据集上视觉特征的端到端训练。在这项工作中,我们提出了Deep Cluster,一种联合学习神经网络参数和结果特征的聚类分配的聚类方法。DeepCluster使用标准的聚类算法kmeans对特征进行迭代分组,并使用后续的赋值作为监督来更新网络的权重。我们将DeepCluster应用于卷积神经网络在ImageNet和YFCC100M等大型数据集上的无监督训练。由此得到的模型在所有标准基准上的表现都显著优于当前的技术状态。
1 Introduction
预训练的卷积神经网络,即卷积神经网络,已经成为大多数计算机视觉应用[ 8、9、50、65]的基础。它们产生优秀的通用特征,可用于提高在有限数据量上学习的模型的泛化性[ 53 ]。强监督大数据集ImageNet [ 12 ]的存在推动了卷积神经网络预训练的进步。然而,Stock和Cisse [ 57 ]最近提出的经验证据表明,目前最先进的分类器在ImageNet上的性能在很大程度上被低估了,很少有错误没有解决。这在一定程度上解释了为什么尽管近年来[ 9,21,23]提出了许多新颖的架构,性能却一直趋于饱和。事实上,按照现在的标准,ImageNet相对较小;它’ only '包含一百万张图像,覆盖了物体分类的特定领域。一个自然的前进方式是建立一个更大、更多样化的数据集,潜在的由数十亿张图像组成。这反过来又需要大量的人工标注,尽管多年来社区积累了众包中的专家知识[ 30 ]。用原始元数据替换标签会导致视觉表示的偏差,产生不可预测的后果[ 41 ]。这就需要能够在无监督的互联网规模数据集上进行训练的方法。
无监督学习在机器学习领域得到了广泛的研究[ 19 ],聚类、降维或密度估计的算法在计算机视觉应用[ 27、54、60]中经常使用。例如,"特征袋"模型使用手工设计的局部描述符进行聚类,以产生良好的图像级特征[ 11 ]。它们成功的一个关键原因是,它们可以应用于任何特定的领域或数据集,如卫星或医学图像,或者使用新的模态捕获的图像,如深度,其中注释的数量并不总是可用的。一些工作表明,将基于密度估计或降维的无监督方法应用于深度模型[ 20、29]是可能的,从而产生了有前途的通用视觉特征[ 5、15]。尽管聚类方法在图像分类中取得了初步的成功,但很少有工作提出[ 3,66,68],以适应卷积神经网络的端到端训练,而且从未达到规模。一个问题是,聚类方法主要是针对固定特征之上的线性模型设计的,如果需要同时学习特征,聚类方法几乎不起作用。例如,用k - means学习一个convnet会导致一个平凡的解,其中特征被置零,簇被折叠成单个实体。
在这项工作中,我们提出了一种新的聚类方法,用于大规模的卷积神经网络的端到端训练。我们表明,使用聚类框架可以获得有用的通用视觉特征。我们的方法,总结在图1中,包括在图像描述符的聚类和通过预测聚类分配更新卷积网络的权重之间交替进行。为了简单起见,我们将研究重点放在k - means上,但也可以使用其他聚类方法,如Power Iteration Clustering ( PIC ) [ 36 ]。整个管道足够接近一个convnet的标准监督训练,以重用许多常见的技巧[ 24 ]。与自监督方法[ 13、42、45]不同,聚类的优点在于只需要很少的领域知识,并且不需要输入[ 63,71]的特定信号。尽管简单,我们的方法在ImageNet分类和迁移任务上都取得了显著高于之前发表的无监督方法的性能。
最后,我们通过修改实验协议,特别是训练集和convnet架构来探究我们框架的鲁棒性。由此产生的一组实验扩展了Doersch等人的讨论。[ 13 ]关于这些选择对无监督方法性能的影响。我们证明了我们的方法对体系结构的变化具有鲁棒性。将AlexNet替换为VGG [ 55 ],显著提高了特征的质量和后续的迁移性能。更重要的是,我们讨论了使用ImageNet作为无监督模型的训练集。虽然它有助于理解标签对网络性能的影响,但ImageNet有一个特殊的图像分布,它继承了它用于细粒度图像分类的挑战:它由平衡的类组成,包含各种各样的狗品种。作为替代,我们考虑来自Thomee等YFCC100M数据集的随机Flickr图像。[ 58 ]。我们表明,我们的方法在这种未固化的数据分布上训练时保持了最先进的性能。最后,目前的基准测试主要关注无监督卷积神经网络捕获类级信息的能力。我们还建议在图像检索基准上对它们进行评估,以衡量它们捕获实例级信息的能力。
在本文中,我们做出了以下贡献:( i )一种新颖的无监督方法用于卷积神经网络的端到端学习,它与任何标准的聚类算法(如k - means )一起工作,并且需要最小的额外步骤;( ii )在无监督学习中使用的许多标准迁移任务上的最新性能;( iii )在未治愈的图像分布上训练时,性能高于先前的技术状态;( 4 )讨论了当前无监督特征学习中的评价协议。
2 Related Work
特征的无监督学习。与我们工作相关的几种方法都是在没有监督的情况下学习深层模型。Coates和Ng [ 10 ]也使用k - means对卷积神经网络进行预训练,但是我们以自底向上的方式依次学习每一层,而我们以端到端的方式进行学习。其他聚类损失[ 3,16,35,66,68]被认为可以联合学习convnet特征和图像簇,但它们从未在规模上进行测试,以便对现代convnet体系结构进行深入研究。特别值得关注的是,Yang et al .文献[ 68 ]使用循环框架迭代学习卷积特征和聚类。他们的模型在小数据集上提供了很好的性能,但可能难以扩展到卷积神经网络所需的图像数量。与我们的工作更接近的是,博亚诺夫斯基和Joulin [ 5 ]在一个有损的大数据集上学习视觉特征,试图保留流经网络的信息[ 37 ]。他们的方法以类似于样品SVM [ 39 ]的方式区分图像,而我们只是简单地对它们进行聚类。
自监督学习。一种流行的无监督学习形式,称为"自监督学习" [ 52 ],它使用前文本任务,通过从原始输入数据中直接计算的"伪标注"来代替人类标注的标签。例如,Doersch et al . Noroozi [ 13 ]和Favaro [ 42 ]使用预测图像中块的相对位置作为前文本任务,训练一个网络来重新排列图像块。空间线索的另一种使用是Pathak等人的工作。[ 46 ]其中缺失像素是根据其周围猜测的。Paulin et al . [ 47 ]使用图像检索设置学习补丁级卷积核网络[ 38 ]。其他人通过预测连续帧之间的相机变换[ 1 ]、利用跟踪块的时间相干性[ 63 ]或基于运动的视频分割[ 45 ]来利用视频中的时间信号。除了空间和时间相干性外,许多其他信号也被探索:图像彩色化[ 33,71],跨通道预测[ 72 ],声音[ 44 ]或实例计数[ 43 ]。最近,人们提出了几种结合多种线索的策略[ 14,64]。与我们的工作相反,这些方法是领域依赖的,需要专家知识来精心设计可能导致可转移特征的前文本任务。
生成模型。近年来,无监督学习在图像生成方面取得了很多进展。通常,在预定义的随机噪声和图像之间学习一个参数化的映射,或者使用自动编码器[ 4,22,29,40,62],生成对抗网络( GAN ) [ 20 ],或者更直接地使用重建损失[ 6 ]。特别有趣的是,GAN的判别器可以产生视觉特征,但它们的性能相对令人失望[ 15 ]。多纳休等。[ 15 ]杜牧林等文献[ 17 ]表明,在GAN中添加编码器会产生更具竞争力的视觉特征。
3方法
在简单介绍了卷积神经网络的监督学习之后,我们描述了我们的无监督学习方法及其优化的特殊性。
3.1预备知识
基于统计学习的现代计算机视觉方法需要良好的图像特征化。在这种情况下,卷积神经网络是将原始图像映射到固定维度的向量空间的流行选择。当在足够多的数据上训练时,它们在标准分类基准[ 21、32]上不断取得最好的性能。用fθf_{\theta}表示卷积映射,其中θ\theta为相应的参数集合。我们将这种映射应用于图像得到的向量称为特征或表示。给定NN幅图像的训练集X={x1,x2,…,xN}X=\left{x_{1}, x_{2}, \ldots, x_{N}\right},我们希望找到一个参数θ∗\theta{*},使得映射fθ∗f_{\theta{*}} 产生良好的通用特征。
这些参数传统上是有监督学习的,即每幅图像xnx_{n}与{0,1}k{0,1}^{k}中的一个标签yny_{n}相关联。该标签表示图像对kk个可能的预定义类之一的隶属度。参数化的分类器gWg_{W}在特征fθ(xn)f_{\theta}\left(x_{n}\right)上预测正确的标签。然后通过优化以下问题来联合学习分类器的参数WW和映射的参数θ\theta:
minθ,W1N∑n=1Nℓ(gW(fθ(xn)),yn) \min {\theta, W} \frac{1}{N} \sum{n=1}^{N} \ell\left(g_{W}\left(f_{\theta}\left(x_{n}\right)\right), y_{n}\right)
其中ℓ\ell是多项Logistic损失,也称为负log - softmax函数。该代价函数通过小批量随机梯度下降[ 7 ]和反向传播计算梯度[ 34 ]来最小化。
3 . 2聚类无监督学习
当θ\theta从高斯分布采样时,如果不进行任何学习,fθf_{\theta}并不能产生良好的特征。然而,这种随机特征在标准迁移任务上的表现,远远高于机会水平。例如,在随机AlexNet的最后一个卷积层之上的多层感知机分类器在ImageNet上达到了12 %的准确率,而几率为0.1% [ 42 ]。随机卷积神经网络的良好性能与其卷积结构密切相关,卷积结构在输入信号上具有很强的先验性。这项工作的想法是利用这个弱信号来引导卷积网络的判别能力。我们对convnet的输出进行聚类,并使用后续的聚类分配作为"伪标注"来优化方程( 1 )。这种深度聚类( Deep Cluster )方法迭代地学习特征并进行分组。
聚类已经得到了广泛的研究,并针对各种情况开发了许多方法。在没有比较点的情况下,我们重点研究了一种标准的聚类算法,k - means。与其他聚类算法的初步结果表明,这种选择并不重要。k - means以一组向量作为输入,在我们的案例中,由convnet产生的特征fθ(xn)f_{\theta}\left(x_{n}\right),并基于几何准则将它们聚类成k个不同的组。更准确地说,它通过求解以下问题联合学习一个d×kd \times k的质心矩阵C和每个图像n的聚类分配yny_{n}:
minC∈Rd×k1N∑n=1Nminyn∈{0,1}k∥fθ(xn)−Cyn∥22 such that yn⊤1k=1. \min {C \in \mathbb{R}^{d \times k}} \frac{1}{N} \sum{n=1}^{N} \min {y{n} \in{0,1}^{k}}\left|f_{\theta}\left(x_{n}\right)-C y_{n}\right|{2}^{2} \text { such that } y{n}^{\top} 1_{k}=1 .
求解该问题得到一组最优分配(yn∗)n≤N\left(y_{n}^{}\right)_{n \leq N}和一个质心矩阵C∗C^{}。然后将这些赋值作为伪标注;我们不使用质心矩阵。
总的来说,DeepCluster交替使用公式对特征进行聚类以产生伪标注。( 2 )通过公式预测这些伪标注来更新convnet的参数。( 1 ) .这种类型的交替过程容易出现平凡解;我们将在下一节描述如何避免此类退化解。
3 . 3避免平凡解
平凡解的存在不是针对神经网络的无监督训练,而是针对任何联合学习判别分类器和标签的方法。即使在应用于线性模型时,判别聚类也存在这个问题[ 67 ]。解决方案通常基于约束或惩罚每个聚类[ 2,26]的最小点数。这些项是在整个数据集上计算的,不适用于卷积神经网络在大规模数据集上的训练。在本节中,我们简要描述了这些平凡解产生的原因并给出了简单且可扩展的解决方法。
空团簇。判别模型学习类间的决策边界。一个最优的决策边界是将所有的输入分配给单个集群[ 67 ]。这个问题是由于缺乏防止空簇的机制造成的,并且在线性模型中出现的情况与在卷积神经网络中一样多。在特征量化[ 25 ]中常用的技巧是在k - means优化过程中自动重新分配空簇。更确切地说,当一个簇变为空簇时,我们随机选择一个非空簇,并将其具有较小随机扰动的质心作为空簇的新质心。然后我们将属于非空簇的点重新分配给两个结果簇。
小参数化。如果将绝大多数图像分配到少数几个聚类中,参数θ\theta将对它们进行排他性判别。在最戏剧性的场景中,除了一个簇外,所有簇都是单态的,最小化方程。( 1 )导致了一个平凡的参数化,其中,convnet将预测相同的输出,而不考虑输入。在监督分类中,当每类图像数量极不平衡时,也会出现这个问题。例如,元数据与哈希标签一样,呈现Zipf分布,少数标签主导整个分布[ 28 ]。规避这一问题的一种策略是基于类的均匀分布或伪标注采样图像。这相当于将一个输入对损失函数的贡献进行加权。( 1 )其分配的聚类规模的倒数。
3 . 4实现细节
训练数据和卷积网络结构。在Image Net [ 12 ] ( 1 , 281 , 167幅图像均匀分布在1 , 000类中)的训练集上训练Deep Cluster。我们舍弃标签。为了与之前的工作进行对比,我们使用了标准的Alex Net [ 32 ]架构。它由5个卷积层组成,包含96、256、384、384和256个滤波器;3个全连接层。去除局部响应归一化层,采用批归一化[ 24 ]。我们还考虑了具有批归一化的VGG - 16 [ 55 ]结构。无监督的方法往往不能直接作用于颜色,不同的策略被认为是[ 13、42]的备选方案。我们应用基于Sobel滤波器的固定线性变换来去除颜色和增加局部对比度[ 5、47]。
优化。我们对中心裁剪图像的特征进行聚类,并使用数据增强(随机水平翻转和随机大小和长宽比的作物)训练convnet。这对数据增强具有不变性,这对于特征学习是有用的[ 16 ]。网络采用dropout [ 56 ]、恒定步长、权值θ\theta的ℓ2\ell_{2}惩罚和0.9的动量进行训练。每个小批量包含256张图像。对于聚类,特征被PCA降至256维,白化和ℓ2\ell_{2}标准化。我们采用Johnson等人的k - means实现。[ 25 ]。注意,k - means需要花费三分之一的时间,因为需要在整个数据集上向前传递。我们可以每隔n个历元重新分配簇,但是我们发现我们在ImageNet (每一个历元更新聚类)上的设置几乎是最优的。在Flickr上,历元的概念消失了:选择参数更新和簇重新分配之间的权衡更加微妙。因此,我们保持了与ImageNet中几乎相同的设置。在Pascal P100 GPU for AlexNet上训练500个历元的模型,耗时12天。
超参数选择。我们在一个下游任务上选择超参数,即在没有微调的Pascal VOC的验证集上进行物体分类。我们使用公开的Kr ̈ ahenb ̈ uhl1。
4实验
在一组初步实验中,我们研究了Deep Cluster在训练过程中的行为。然后,我们定性地评估了用DeepCluster学习到的过滤器,然后在标准基准上将我们的方法与以前的最先进的模型进行比较。
4.1初步研究
我们通过归一化互信息( Normalized Mutual Information,NMI )来衡量同一数据的两个不同赋值A和B之间共享的信息,定义为:
NMI(A;B)=I(A;B)H(A)H(B)\operatorname{NMI}(A ; B)=\frac{\mathrm{I}(A ; B)}{\sqrt{\mathrm{H}(A) \mathrm{H}(B)}}
其中I表示互信息,H表示熵。该测度可以应用于任何来自聚类或真实标签的赋值。若两个赋值A和B相互独立,则NMI等于0。如果其中一个是确定性可预测的,则NMI等于1。
簇与标签之间的关系。图2 ( a )展示了训练过程中集群分配和ImageNet标签之间NMI的演化。它衡量了模型预测类级别信息的能力。需要说明的是,我们在此分析中仅使用了这一测度,并没有在任何模型选择过程中使用。随着时间的推移,聚类和标签之间的依赖关系增加,表明我们的特征逐步捕获与对象类相关的信息。
历元间重新分配的次数。在每个历元,我们将图像重新分配到一组新的簇中,不保证稳定性。在历元t - 1和t时刻测量星系团之间的NMI有助于了解我们模型的实际稳定性。图2 ( b )展示了该测度在训练过程中的演化情况。NMI在增加,意味着随着时间的推移,重新分配的次数越来越少,集群趋于稳定。然而,NMI饱和到0.8以下,这意味着相当一部分图像在历元间被定期重新分配。在实践中,这对训练没有影响,模型也不会发散。
选择聚类数目。我们衡量了k - means中使用的聚类数目k对模型质量的影响。我们报告了与超参数选择过程相同的下游任务,即Pascal VOC 2007分类验证集上的m AP。我们在对数尺度上改变k,并在图2 ( c )中报告了300个历元后的结果。每k个相同历元数后的性能可能无法直接比较,但它反映了本文使用的超参数选择过程。当k = 10000时性能最佳。考虑到我们在ImageNet上训练我们的模型,我们期望k = 1000可以得到最好的结果,但显然一些过分割是有益的。
4.2可视化
第一层过滤。图3展示了使用DeepCluster训练的AlexNet第一层在原始RGB图像和经过Sobel滤波预处理的图像上的滤波器。在[ 5、13、42、47]之前已经注意到在原始图像上学习卷积神经网络的困难。如图3左图所示,大多数滤波器只捕获颜色信息,而颜色信息通常对物体分类作用不大[ 61 ]。通过Sobel预处理得到的滤波器充当边缘检测器。
更深层次的探索。我们通过学习最大化激活[ 18、70]的输入图像来评估目标滤波器的质量。我们遵循Yosinki et al . [ 69 ],目标滤波器与同一层的其他滤波器之间具有交叉熵函数。图4展示了这些合成图像以及来自YFCC100M的100万张图像中的9张顶级激活图像。正如预期的那样,网络中更深的层似乎捕获了更大的纹理结构。然而,最后一个卷积层中的一些滤波器似乎只是简单地复制了之前层中已经捕获的纹理,如图5第二行所示。这一结果证实了Zhang等人的观察。[ 72 ]认为conv3或conv4的特征比conv5的特征更具判别性。
最后,图5显示了一些conv5滤波器的前9个激活图像,这些激活图像似乎是语义一致的。最上面一行的过滤器包含与对象类高度相关的结构信息。底部行上的过滤器似乎触发了样式,如图纸或抽象形状。
4.3 Linear classification on activations
继Zhang et al . [ 72 ],我们在不同的冻结卷积层上训练一个线性分类器。这种与监督特征的逐层比较显示了一个卷积网络开始具有任务特异性,即专门从事对象分类。我们在ImageNet和表1中的Places数据集上报告了本实验的结果[ 73 ]。我们通过在训练集上进行交叉验证来选择超参数。在ImageNet上,DeepCluster在conv2 ~ conv5层上的性能优于现有技术1 ~ 6 %。在conv3层观察到最大的改善,而conv1层表现较差,可能是因为Sobel滤波丢弃颜色。与Sec的过滤器可视化结果一致。4.2,conv3比conv5效果好。最后,DeepCluster与有监督的AlexNet在更高层上的性能差异显著增加:在conv2 ~ conv3层,性能差异仅为4 %左右,但在conv5层,性能差异上升到12.3 %,这表明AlexNet可能存储了大部分的类级信息。在补充材料中,我们还报告了在最后一层训练MLP的准确性;DeepCluster比目前最好的方法性能提高了8 %。
在Places数据集上的相同实验提供了一些有趣的见解:与Deep Cluster一样,在ImageNet上训练的监督模型在更高层( conv4 vs conv5)上的性能下降。此外,DeepCluster生成的conv3 - 4特征与使用ImageNet标签训练的特征相当。这表明当目标任务距离ImageNet覆盖的领域足够远时,标签的重要性较低。
4 . 4 Pascal VOC 2007
最后,对Deep Cluster在Pascal VOC的图像分类、目标检测和语义分割方面进行了定量评价。Pascal VOC ( 2 , 500幅图像)上相对较小的训练集规模使得这种设置更接近于"真实世界"的应用,在这种应用中,用大量计算资源训练的模型被适应于具有少量实例的任务或数据集。利用fast - rcnn2得到检测结果;使用Shelhamer等3的代码得到分割结果。对于分类和检测,我们报告了在Pascal VOC 2007的测试集上的性能,并在验证集上选择了我们的超参数。对于语义分割,在相关工作的基础上,我们报告了在Pascal VOC 2012验证集上的性能。
表2总结了Deep Cluster在3个任务上与其他特征学习方法的比较。在之前的实验中,我们在所有三个任务上都优于之前的无监督方法。在语义切分上,微调的改进幅度最大( 7.5 % )。在检测方面,Deep Cluster的表现仅略好于之前发表的方法。有趣的是,与许多无监督方法相比,一个微调的随机网络表现较好,但如果只学习fc6 - 8,则表现较差。为此,我们也报告了使用fc6 - 8对Deep Cluster和少量基线进行检测和分割。这些任务更接近于不可能进行微调的实际应用。正是在这种设定下,我们的方法与最先进的状态之间的差距是更大的(分类准确率最高可达9 %)。
5讨论
目前评价无监督方法的标准涉及使用在ImageNet上训练并在类级别任务上测试的AlexNet架构。为了理解和度量这种流水线在DeepCluster上引入的各种偏差,我们考虑了一个不同的训练集、一个不同的架构和一个实例级的识别任务。
5 . 1 ImageNet vs YFCC100M
ImageNet是一个针对细粒度物体分类挑战而设计的数据集[ 51 ]。它是面向对象的,人工标注并组织成均衡的对象类别。通过设计,DeepCluster支持平衡的聚类,并且如上所述,我们的聚类数k与ImageNet中的标签数有一定的可比性。这可能使DeepCluster在ImageNet上训练时比其他无监督方法具有不公平的优势。为了衡量这种影响,我们考虑从YFCC100M数据集[ 58 ]中随机选择的1M图像子集进行预训练。对YFCC100M中使用的哈希标签的统计表明,底层的"对象类"严重不平衡[ 28 ],导致数据分布对DeepCluster不利。
表3给出了在YFCC100M上预训练的DeepCluster与ImageNet在Pascal VOC上的性能差异。正如Doersch et al . [ 13 ],该数据集不是面向对象的,因此性能预计会下降几个百分点。然而,即使在未固化的Flickr图像上进行训练,DeepCluster在大多数任务(在分类上达到+ 4.3 % ,在语义分割上达到+ 4.5 %)上的表现也明显优于当前最先进的方法。我们在补充材料中报告了其余结果,结论类似。本实验验证了DeepCluster对图像分布的变化具有鲁棒性,即使这种分布不利于其设计,也能得到最先进的通用视觉特征。
5.2 AlexNet versus VGG
在有监督的环境中,更深层的架构如VGG或ResNet [ 21 ]在ImageNet上的准确率比AlexNet高得多。如果使用无监督的方法使用这些架构,我们应该期待同样的改进。表4比较了在ImageNet上用DeepCluster训练的VGG - 16和AlexNet,并在经过微调的Pascal VOC 2007目标检测任务上进行了测试。我们还报告了用其他无监督方法[ 13,64]得到的数字。无论哪种方法,更深层次的架构都会导致目标任务上的性能显著提升。用DeepCluster训练VGG - 16的性能超过了最先进的水平,使我们只低于监督的顶线1.4 %。
值得注意的是,对于这两种架构,无监督和监督方法之间的差异保持在相同的位置(即1.4 % )。最后,对于较大的架构,与随机基线的差距越来越大,这证明了在缺乏监督数据的情况下,无监督预训练对于复杂架构的相关性。
5 . 3实例检索评价
以往的基准测试衡量了无监督网络捕获类级信息的能力。他们没有评估它是否可以在实例级别区分图像。为此,我们提出图像检索作为下游任务。我们遵循Tolias等人的实验方案。在Oxford Buildings [ 48 ]和Paris [ 49 ]两个数据集上进行了实验。表5报告了除Doersch等人外,用Sobel滤波得到的不同方法训练的VGG - 16的性能。[ 13 ]和Wang et al . [ 64 ]。该预处理使一个有监督的VGG - 16在Oxford数据集上的mAP提高了5.5个点,但在Paris上没有提高。这可能意味着Deep Cluster也有类似的优势,但并不能解释19分的平均差异。有趣的是,与预训练的模型相比,随机卷积神经网络在这个任务上表现特别差。这表明图像检索是一个预训练必不可少的任务,将其作为下游任务进行研究可以进一步了解无监督方法产生的特征的质量。
6结论
本文提出了一种可扩展的聚类方法用于卷积神经网络的无监督学习。它在使用k - means对convnet产生的特征进行聚类和更新其权重之间进行迭代,通过预测聚类赋值为伪标注,以获得判别性损失。如果在ImageNet或YFCC100M等大型数据集上进行训练,在每一个标准迁移任务上都取得了比之前最好的性能。我们的方法对输入的假设很少,并且不需要太多领域特定的知识,使其成为学习特定于注释稀缺领域的深度表示的一个很好的候选者。

图1:所提方法的示意图:我们迭代地对深度特征进行聚类,并将聚类分配作为伪标注来学习卷积网络的参数

图2:初步研究。( a ):聚类质量随训练时间的演化;( b ):聚类重分配在每个聚类步骤的演化;( c ):对k的不同选择进行mAP分类性能验证

图3:在无监督ImageNet上训练的AlexNet的第一层在原始RGB输入(左)或经过Sobel滤波(右)后的滤波器

图4:在ImageNet上使用DeepCluster训练的AlexNet的conv1、conv3和conv5层中,从YFCC100M的100万张图像中的一个子集中的过滤器可视化和前9个激活图像。滤波器可视化是通过学习一个输入图像来最大化目标滤波器的响应[ 69 ]

图5:来自YFCC100M的1000万张图像的随机子集在最后一个卷积层中为目标滤波器激活的前9张图像。最上面一行对应于包含物体的图像对激活敏感的滤波器。下排表现出对风格效应更敏感的过滤器。例如,滤波器119和182似乎分别被背景模糊和景深效应所激发

表1:使用AlexNet卷积层的激活作为特征在ImageNet和Places上进行线性分类。我们报告了10种作物的平均分类精度。其他方法的编号来自Zhang et al . [ 72 ]

表2:在Pascal VOC上,本文提出的无监督特征学习方法在分类、检测和分割上的比较。[ 31 ]。我们制作的其他方法的编号用a←标记

表3:训练集对DeepCluster在Pascal VOC迁移任务上的性能影响。4 . 4 .我们将ImageNet与YFCC100M [ 58 ]的1M图像子集进行比较。无论在哪个训练集上,DeepCluster在大多数任务上都优于最好的公布数字。我们制作的其他方法的编号用a︱标注

表4:Pascal VOC 2007结合AlexNet和VGG16的目标检测。数值取自Wang et al . [ 64 ]
表5为使用VGG - 16在Oxford和Paris数据集上进行实例级图像检索的mAP。我们使用分辨率为1024像素和3个网格级别的R - MAC [ 59 ]。
