Deep Clustering for Unsupervised Learning of Visual Features
无监督的视觉特征学习的深度聚类
-
摘要
-
- 相关工作
-
方法
-
- 预先说明
- 通过聚类无监督学习
- 避免琐碎的解决方案
-
实施(实验)细节
-
- 初步研究
-
结论

摘要
论文和代码
聚类是一类无监督的学习方法,这些方法已被广泛应用和研究计算机视觉。很少的工作以使其适应大规模数据集的视觉特征的端到端训练。在这项工作中,我们呈现DeepCluster,一种聚类方法,该方法共同学习神经网络的参数和结果特征的群集分配。 DeepCluster迭代地将具有标准聚类算法,kmeans的功能统一,并使用后续分配作为监控来更新网络权重。我们将DeepCluster应用于大型数据集的卷积神经网络的无监督培训。由此产生的模型优于所有标准基准的显着裕度,优于本领域的当前状态。
相关工作
- 无监督的特征学习
- 自监督的学习 一种流行的无监督学习,称为“自我监督学习”[37],使用借口任务来替换人类通过从原始输入数据直接计算的“伪标签”注释的标签。
- 生成模型 最近,无监督的学习在图像生成方面取得了很大进展。通常,在预定义随机噪声和图像之间学习参数化映射,其中AutoEncoder [18,48,49,50,51],生成的对抗网络(GaN)[17]或更直接与重建损失进行52]。特别感兴趣的是,GaN的鉴别者可以产生视觉特征,但它们的性能相对令人失望[20]。 Donahue等人。 [20]和Dumoulin等人。已经表明,向GaN添加编码器产生更具竞争力的可视特征。
方法
预先说明
我们指代通过将该映射应用于图像作为特征或表示来获得的向量。给定训练集x = {x1,x2,。 。 。 N图像的XN},我们想找到一个参数θ*,使得映射Fθ*产生良好的通用特征。这些参数传统上学习了监督,即与标签YN {0,1} K相关联的每个图像XN。此标签将图像的成员身份代表到K可能的预定义类之一。参数化分类器GW预测特征Fθ(xn)顶部的正确标签。然后,分类器的参数W和映射的参数θ是共同学习的。优化下列函数

通过聚类无监督学习
当从高斯分布中采样θ时,没有任何学习,fθ不会产生良好的特征。这项工作的想法是利用这种弱信号来引导ConvNet的辨别力。我们聚集了卷积网络的输出,并使用后续群集分配作为“伪标签”来优化等式。这种深度聚类(DeepCluster)方法迭代地学习它们的特征和组
聚类已被广泛研究,并且在各种情况下开发了许多方法。在没有比较点的情况下,我们专注于标准聚类算法,K均值。其他聚类算法的初步结果表明,这种选择并不至关重要。 K-means将一组矢量作为输入,在我们的情况下,ConvNet产生的特征 fθ(xn),并基于几何标准将它们群集成K个不同的组。更确切地说,通过解决以下问题,它共同学习D×K质心矩阵C和群集分配Yn,通过解决以下问题

解决此问题提供了一组最佳分配(Y * n)n≤N质心矩阵C *。然后将这些分配用作伪标签,我们不使用质心矩阵。
总体而言,DeepCluster在聚类之间交替使用EQ(2)产生伪标签的功能。通过使用EQ(1)预测这些伪标签来更新convnet的参数。 (1)。这种类型的交替过程易于琐碎的解决方案;我们在下一节中介绍如何避免此类退化解决方案。
避免琐碎的解决方案
空簇 :有分别的模型学习类之间的决策边界。最佳决策边界是将所有输入分配给单个集群[57]。这个问题是由于没有阻止空集群的机制而引起的,并且在线性模型中尽可能多地出现。特征量化中使用的常见技巧[60]包括在k均值优化期间自动重新分配空群集。更精确地,当群集变为空时,我们随机选择非空群集,并使用其质心与空的随机扰动作为空集群的新质心。然后,我们将属于非空群集的点重新分配给两个结果集群。
琐碎的参数化。 如果将绝大多数图像分配给几个集群,则参数θ将完全区分它们。在最戏剧性的情况下,除了一个群集是单例之外的所有情况下,最小化EQ(1)导致琐碎的参数化,无论输入如何,其中ConvNet将预测相同的输出。当每个类的图像数量高度不平衡时,监督分类也出现了这个问题。例如,与Hashtags相同的元数据展示了ZIPF分布,其中一些标签主导整个分布[61]。规避此问题的策略是基于对类或伪标签的统一分布来采样图像。这相当于权重输入到EQ中的损失特征的贡献。 (1)通过其分配群集的大小的倒数。
实施(实验)细节
初步研究
我们通过归一化的互信息(NMI)测量同一数据的两个不同分配A和B之间共享的信息,定义为:

其中I表示互信息,H表示熵。该度量可以应用于来自聚类或真实标签的任何分配。如果两个赋值A和B是独立的,则NMI等于0。如果其中一个可以从另一个中确定性地预测,则NMI等于1。

聚类和标签之间的关系 :图2(a)显示了训练期间集群分配和ImageNet标签之间的NMI的演变。它衡量模型预测类级别信息的能力。请注意,我们仅将此度量用于此分析,而不用于任何模型选择过程。聚类和标签之间的依赖随着时间的推移而增加,这表明我们的特征逐渐捕获与对象类相关的信息。
训练步数之间的重新分配数量 :在每个训练步骤,我们将图像重新分配给一组新的簇,而不保证稳定性。在时间t—1和t测量集群之间的NMI可以洞察我们模型的实际稳定性。图2(b)显示了这一措施在训练期间的演变。NMI正在增加,这意味着重新分配越来越少,集群随着时间的推移正在稳定。但是,NMI饱和值低于0.8,这意味着很大一部分图像会在不同时期之间定期重新分配。实际上,这对训练没有影响,模型也不会出现分歧。
选择集群的数量 :我们测量k-means中使用的聚类数k对模型质量的影响。我们在对数标度上改变k,并在图2©中报告300个时期后的结果。每k个相同数量的纪元后的性能可能无法直接比较,但它反映了本工作中使用的超参数选择过程。k = 10,000时性能最佳。假设我们在ImageNet上训练我们的模型,人们会期望k = 1000产生最好的结果,但是显然一些过度分割是有益的。
结论
我们的方法对输入做了很少的假设,并且不需要太多领域特定的知识,这使得它成为学习特定于注释稀缺的领域的深度表示的一个很好的候选。
