【多视图聚类】【MFLVC】Multi-level Feature Learning for Contrastive Multi-view Clustering

CVPR 2022
Multi-level Feature Learning for Contrastive Multi-view Clustering
用于对比多视图聚类的多层次特征学习
0.摘要
多视图聚类可以从多个视图中探索共同的语义,受到越来越多的关注。然而,现有的工作惩罚了同一特征空间中的多个目标,它们忽略了学习一致的公共语义和重建不一致的视图私有信息之间的冲突。在本文中,我们提出了一种新的多级特征学习框架,用于对比多视图聚类来解决上述问题。我们的方法以无融合的方式从原始特征中学习不同层次的特征,包括低级特征、高级特征和语义标签/特征,从而可以有效地实现不同特征空间中的重建目标和一致性目标。具体地,重建目标是在低级特征上进行的。基于对比学习的两个一致性目标分别在高级特征和语义标签上进行。它们使得高层特征有效地挖掘公共语义,语义标签实现多视图聚类。结果,所提出的框架可以减少视图私有信息的不利影响。在公共数据集上的广泛实验表明,我们的方法实现了最先进的聚类效率。
1.引言
近年来,多视图聚类(MVC)越来越受到关注[22, 50, 52, 57],因为多视图数据或多模态数据可以提供公共语义来提高学习效率[3, 14, 27, 33, 36, 43]。在文献中,现有的MVC方法大致可以分为两类,即传统方法和深度方法。
传统的MVC方法基于传统的机器学习方法来执行聚类任务,并且可以是相等的贡献。细分为三个子组,包括子空间方法[6,18,24]、矩阵分解方法[45,53,56]和图方法[28,55,60]。许多传统的MVC方法存在表示能力差、计算复杂度高等缺点,导致在具有真实世界数据的复杂场景中性能有限[10]。
近期,深度MVC方法因其突出的表示能力逐渐成为社区的流行趋势[1,2,20,44,49,50,54]。以前的深度MVC方法可以细分为两个子组,即两阶段方法和一阶段方法。两阶段深度MVC方法(例如,[21,50])侧重于从多个视图中分别学习显著特征并执行聚类任务。然而,谢等人[48]提出聚类结果可以用来提高特征学习的质量。因此,单阶段深度MVC方法(例如[39, 59])将特征学习与聚类任务嵌入到统一的框架中,以实现端到端聚类。
多视图数据包含两种信息,即跨所有视图的公共语义和单个视图的视图私有信息。例如,可以组合文本和图像来描述公共语义,而文本中不相关的上下文和图像中的背景像素是用于学习公共语义的无意义的视图私有信息。在多视图学习中,学习公共语义,避免无意义的视图私有信息的误导是一个永远不变的话题。尽管现有的MVC方法已经取得了重要的进展,但它们有以下缺点需要解决:(1)许多MVC方法(例如[39, 59])试图通过融合所有视图的特征来发现潜在的聚类模式。然而,与公共语义相比,无意义的视图私有信息可能在特征融合过程中占主导地位,从而干扰聚类的质量。(2)一些MVC方法(例如,[18, 21])利用潜在特征的一致性目标来探索所有视图的公共语义。然而,它们通常需要相同的重建目标功能,以避免琐碎的解决方案。这导致了冲突,一致性目标试图尽可能多地学习所有视图中具有公共语义的特征,而重建目标希望相同的特征来维护单个视图的视图私有信息。
在本文中,我们提出了一种新的用于对比多视图聚类的多级特征学习框架(简称MFLVC)来解决上述问题,如图1所示。我们的目标包括(1)设计一个无融合MVC模型,以避免融合所有视图之间的不利视图私有信息,以及(2)为每个视图中的样本生成不同级别的特征,包括低级特征、高级特征和语义标签/特征。为此,我们首先利用自动编码器从原始特征中学习低级特征,然后通过在低级特征上堆叠两个MLP来获得高级特征和语义标签。每个MLP被所有视图共享,有利于过滤掉视图私有信息。此外,我们将语义标签作为锚,与高层特征中的聚类信息相结合,提高聚类效率。在该框架中,重建目标由低级特征实现,而两个一致性目标分别由高级特征和语义标签实现。此外,这两个一致性目标是通过对比学习进行的,这使得高级特征专注于挖掘所有视图的公共语义,并使语义标签分别表示用于多视图聚类的一致聚类标签。结果,缓解了重建目标和两个一致性目标之间的冲突。与以前的工作相比,我们的贡献如下:
•我们设计了一种无融合MVC方法,该方法在不同的特征空间中进行不同的目标,以解决重建和一致性目标之间的冲突。通过这种方式,我们的方法能够有效地探索所有视图的公共语义,并避免它们无意义的视图私有信息。
•我们提出了一个灵活的多视图对比学习框架,该框架可用于同时实现高级特征和语义标签的一致性目标。高级特征具有良好的流形并表示公共语义,这使得能够提高语义标签的质量。
•由于设计良好的框架,我们的方法对超参数的设置具有鲁棒性。我们详细进行消融研究,包括损失成分和对比学习结构,以理解所提出的模型。大量的实验表明,它实现了最先进的聚类效率。
2.相关工作
多视图聚类
MVC方法的第一类属于子空间聚类[18,24],它专注于为多个视图学习一个公共的子空间表示。例如,[6]扩展了传统的子空间聚类,其中作者提出了一种用于多视子空间聚类的多样性诱导机制。第二类MVC方法基于矩阵分解技术[23,56],该技术在形式上等同于K均值的松弛[26]。例如,Cai等[4]引入了多视图的共享聚类指示矩阵,并处理了一个约束矩阵分解问题。第三类MVC方法是基于图的MVC[28, 34],其中构建图结构以保持样本之间的邻接关系。第四类MVC方法基于深度学习框架,称为深度MVC方法,其已被越来越多地开发,可以进一步大致分为两组,即两阶段深度MVC方法[21,50]和单阶段深度MVC方法[20,51,59]。这些方法利用深度神经网络优异的表示能力来发现多视图数据的潜在聚类模式。
对比学习
对比学习[7, 42]是一种获得注意力的无监督表示学习方法,其思想是在特征空间中最大化正对的相似性,同时最小化负对的相似性。这种学习范式最近在计算机视觉中取得了有希望的性能,例如[29,40]。例如,[19]中提出了一种单阶段在线图像聚类方法,该方法明确地在实例级和聚类级进行对比学习。对于多视图学习,也有一些基于对比学习的工作[12,21,35,38]。例如,田等人[38]提出了一种对比多视图编码框架来捕捉底层场景语义。在[12]中,作者开发了一种多视图表示学习方法,通过对比学习来处理图分类。最近,一些工作研究了多视图聚类的不同对比学习框架[21, 31, 39]。
3.方法
原始特征。多视图数据集\{\mathbf{X}^m ∈ \mathbb{R}^{N×D_m} \}^M_{m=1}包括M个视图中的N个样本,其中x^m_i ∈ \mathbb{R}^{D_m}表示来自第M个视图的D_m维样本。数据集被视为原始特征,其中多个视图具有K个待发现的公共聚类模式。
3.1 动机
多视图数据通常具有冗余和随机噪声,因此主流方法总是从原始特征中学习显著表示。特别是,autoencoder[13,37]是一种广泛使用的无监督模型,它可以将原始特征投影到可定制的特征空间中。具体地,对于第m个视图,我们分别表示E^m(\{\mathbf{X}^m; θ^m)和D^m(\mathbf{Z}^m; φ^m)作为编码器和解码器,其中θ^m和φ^m是网络参数,表示z^m_i = E^m(x^m_i ) ∈ \mathbb{R}^L作为第i个样本的L维潜在特征,并表示\mathcal{L}^m_Z作为输入\mathbf{X}^m和输出\mathbf{\hat{X}}^m∈\mathbb{R}^{N×D_m}之间的重建损失:

基于{\mathbf{Z}^m = E^m(\mathbf{X}^m)}^M_{m=1},MVC旨在挖掘所有视图的公共语义,以提高聚类质量。为了实现这一点,现有的MVC方法仍然有两个挑战需要解决:(1)许多MVC方法(例如,[20,59])融合所有视图\{\mathbf{Z}^m\}^M_{m=1}的特征,以获得所有视图的公共表示。这样,通过直接对融合后的特征进行聚类,将多视图聚类任务转化为单视图聚类任务。然而,每个视图\mathbf{Z}^m的特征包含公共语义以及视图私有信息。后者是无意义的,甚至是误导性的,这可能会干扰融合特征的质量,导致聚类效果差。(2)一些MVC方法(例如,[8, 21])通过在\{\mathbf{Z}^m\}^M_{m=1}上执行一致性目标,例如,最小化所有视图上相关特征的距离,来学习一致的多视图特征以探索公共语义。然而,他们也应用等式(1)惩罚\{\mathbf{Z}^m\}^M_{m=1}上的约束,以避免模型崩溃并产生平凡解[11, 21]。一致性目标和重建目标被推到相同的特征上,使得它们的冲突可能限制\{\mathbf{Z}^m\}^M_{m=1}的质量。例如,一致性目标旨在学习公共语义,而重建目标希望维护视图私有信息。
最近,对比学习变得流行,并且可以应用于实现多视图的一致性目标。例如,Trosten等人[39]提出了一种单阶段对比MVC方法,但其特征融合面临挑战(1)。林等人[21]提出了一种通过学习一致特征的两阶段对比MVC方法,但它没有考虑挑战(2)。此外,许多对比学习方法(例如,[19, 30, 40])主要通过数据扩充来处理单视图数据。这种特定的结构使得其难以应用于多视图场景。
为了解决上述挑战,我们提出了一个新的多级特征学习框架,用于对比多视图聚类(命名为MFLVC),如图1所示。特别是,为了减少视图私有信息的不利影响,我们的框架避免了直接的特征融合,并为每个视图建立了多级特征学习模型。为了缓解一致性目标和重建目标之间的冲突,我们建议在不同的特征空间中进行它们,其中一致性目标通过以下多视图对比学习来实现。

图1。MFLVC的框架。我们避免了多级特征学习中的直接特征融合,多级特征学习从每个视图的原始特征\mathbf{X}^m中学习低级特征\mathbf{Z}^m、高级特征\mathbf{H}^m和语义标签\mathbf{Q}^m。重建目标\mathcal{L}^m_Z在\mathbf{Z}^m上单独进行。两个一致性目标(即\mathcal{L}_H和\mathcal{L}_Q)分别在\{\mathbf{H}^m\}^M_{m=1}和\{\mathbf{Q}^m\}^M_{m=1}上进行。此外,优化\mathcal{L}_P以利用\{\mathbf{H}^m\}^M_{m=1}的聚类信息来提高\{\mathbf{Q}^m\}^M_{m=1}的聚类有效性。
3.2 多视图对比学习
因为特征\{\mathbf{Z}^m\}^M_{m=1}由等式(1)获得。将公共语义与视图私有信息混合,我们将\{\mathbf{Z}^m\}^M_{m=1}视为低级特征,并学习另一个级别的特征即高级特征。为此,我们将特征MLP堆叠在\{\mathbf{Z}^m\}^M_{m=1}上,以获得高级特征\{\mathbf{H}^m\}^M_{m=1},其中h^m_i ∈ \mathbb{R}^H,并且特征MLP是由F(\{\mathbf{Z}^m\}^M_{m=1}; \mathbf{W}_H).在低级特征空间中,我们利用重建目标方程 (1)。保持\{\mathbf{Z}^m\}^M_{m=1}的表示能力,以避免模型崩溃的问题。在高级特征空间中,我们通过对比学习进一步实现一致性目标,使\{\mathbf{H}^m\}^M_{m=1}专注于学习所有视图的公共语义。
具体地,每个高级特征h^m_i具有(MN − 1)个特征对,即\{h^m_i , h^n_j \}^{n=1,...,M}_{j=1,...,N},其中\{h^m_i , h^n_j \}_{n \neq m}是(M − 1)个正特征对,其余M(N − 1)个特征对是负特征对。在对比学习中,正对的相似性应该最大化,负对的相似性应该最小化。受NT-Xent[7]的启发,余弦距离被应用于度量两个特征之间的相似性:

其中,⟨·, ·⟩是点积算子。然后,\mathbf{H}^m和\mathbf{H}^n之间的特征对比度损失被公式化为:

其中τ_F表示温度参数。在本文中,我们将所有视图的累积多视图特征对比度损失设计为:

因此,每个视图的特征可以写成\mathbf{H}^m = \mathbf{W}_H \mathbf{Z}^m = \mathbf{W}_H E^m(\mathbf{X}^m)。编码器E^m有利于滤除\mathbf{X}^m的随机噪声。\mathbf{Z}^m上的重建目标避免了模型崩溃,并将公共语义和视图私有信息都推送到\mathbf{Z}^m中。\mathbf{W}_H有利于过滤掉\{\mathbf{Z}^m\}^M_{m=1}的视图私有信息。\{\mathbf{H}^m\}^M_{m=1}上的一致性目标允许他们挖掘所有视图的公共语义。结果,高级特征的聚类接近真实的语义聚类。直观上,语义信息是一个高级概念,不涉及无意义的噪声。因此,同一簇内的高级特征彼此靠近,导致密集的形状(在第5.1节中验证)。
学习语义标签 。这一部分解释了如何从无融合模型中的原始特征中获得用于端到端聚类的语义标签。具体来说,我们通过堆叠在低级特征上的共享标签MLP获得所有视图\{Q^m ∈ \mathbb{R}^{N×K} \}^M_{m=1}的聚类赋值,即L(\{\mathbf{Z}^m\}^M_{m=1}; \mathbf{W}_Q)。标签MLP的最后一层被设置为Softmax操作以输出概率,例如,q^m_{ij}表示第i个样本属于第m个视图中的第j个簇的概率。因此,语义标签由聚类分配中的最大元素标识。
然而,在现实世界的场景中,由于视图私有信息的误导,样本的一些视图可能具有错误的聚类标签。为了获得鲁棒性,我们需要实现聚类一致性,即所有视图的相同聚类标签代表相同的语义聚类。换句话说,\{\mathbf{Q}^m_{·j} \}^M_{m=1} (\mathbf{Q}^m_{·j} ∈ \mathbb{R}^N )需要一致。类似于学习高级特征,我们采用对比学习来实现这一一致性目标。对于第m个视图,相同的聚类标签\mathbf{Q}^m_{·j}具有(MK−1)个标签对,即\{\mathbf{Q}^m_{·j} , \mathbf{Q}^n_{·k} \}^{n=1,...,M}_{k=1,...,K},其中\{\mathbf{Q}^m_{·j} , \mathbf{Q}^n_{·k} \}_{n\neq m}被构造为(M − 1)个正标签对,其余M(K − 1)个标签对是负标签对。我们进一步将\mathbf{Q}^m和\mathbf{Q}^n之间的标签对比损失定义为:

其中τ_L表示温度参数。因此,面向聚类的一致性目标由以下定义:

其中s^m_j =\frac{1}{N}\sum^N_{i=1}q^m_{ij}。等式(6)的第一部分旨在学习所有视图的聚类一致性。等式(6)的第二部分是一个正则化项[40],通常用于避免将所有样本分配到单个聚类中。
总体而言,我们多视图对比学习的损失由三部分组成:

其中\mathcal{L}_Z是在低级特征\{\mathbf{Z}^m\}^M_{m=1}上进行的重建目标,以避免模型崩溃。一致性目标\mathcal{L}_H和\mathcal{L}_Q被设计成分别学习高级特征和聚类分配。我们从\{\mathbf{Z}^m\}^M_{m=1}而不是从\{\mathbf{H}^m\}^M_{m=1}学习\{\mathbf{Q}^m\}^M_{m=1},因为它可以避免\mathbf{W}_H和\mathbf{W}_Q之间的影响。同时,\mathbf{W}_H和\mathbf{W}_Q不会受到\mathcal{L}_Z梯度的影响。由于这种多级特征学习结构,我们不需要权重参数来平衡等式(7)中的不同损失。(在第5.1节中验证。)
3.3 具有高级特征的语义聚类
通过多视图对比学习,模型同时学习高级特征\{\mathbf{H}^m\}^M_{m=1}和一致聚类赋值\{\mathbf{Q}^m\}^M_{m=1}。然后,我们将\{\mathbf{Q}^m\}^M_{m=1}视为锚,并将它们与\{\mathbf{H}^m\}^M_{m=1}中的聚类进行匹配。通过这种方式,我们可以利用包含在高级特征中的聚类信息来提高语义标签的聚类有效性。
具体来说,我们采用K-means[26]来获得每个视图的聚类信息。对于第m个视图,设\{c^m_k \}^K_{k=1} ∈ \mathbb{R}^H 表示k个簇质心,我们有:

所有样本p^m ∈ \mathbb{R}^N的聚类标签由下式获得:

设\mathbf{l}^m ∈ \mathbb{R}^N表示标签MLP输出的聚类标签,其中l^m_i = argmax_jq^m_{ij},值得注意的是,\mathbf{p}^m和\mathbf{l}^m表示的聚类并不对应。因为聚类一致性是通过等式(6)实现的。l^m_i和l^n_i表示同一个聚类。因此,我们可以通过以下最大匹配公式将\mathbf{l}^m视为锚来修改\mathbf{p}^m:

其中\mathbf{A}^m ∈ \{0, 1\}^{K×K}是布尔矩阵,\mathbf{M}^m ∈ \mathbb{R}^{K×K}表示代价矩阵。\mathbf{M}^m = max_{i,j} \tilde{m}^m_{ij} − \tilde{M}^m 和\tilde{m}^m_{ij} = \sum^N_{n=1}\mathbb{1}[l^m_n = i]\mathbb{1}[p^m_n = j],其中\mathbb{1}[·]表示指示函数。等式(10)可以通过匈牙利算法[16]进行优化。第i个样本的修正聚类赋值\hat{\mathbf{p}}^m_i ∈ \{0, 1\}^K被定义为独热向量。当k满足k = k\mathbb{1}[a^m_{ks} = 1]\mathbb{1}[p^m_i = s],k, s ∈ \{1, 2, . . . , K\}时,\hat{\mathbf{p}}^m_i的第k个元素为1。然后,我们通过交叉熵损失对模型进行微调:

其中:\hat{\mathbf{P}}^m = [\hat{\mathbf{p}}^m_1; \hat{\mathbf{p}}^m_2; . . . ; \hat{\mathbf{p}}^m_N] ∈ \mathbb{R}^{N×K}。这样,我们可以转移学习到的语义知识来改进聚类。最后,第i个样本的语义标签为:

优化 。算法1总结了MFLVC的整个优化过程。具体来说,我们采用小批量梯度下降算法来训练模型,该模型由多个自动编码器、一个特征MLP和一个标签MLP组成。自动编码器由等式(1)初始化。

然后进行多视图对比学习,以通过等式(7)实现公共语义和聚类一致性。在执行多视图对比学习后,通过等式(10)中的最大匹配公式修改从高级特征获得的聚类标签。然后,修改的聚类标签用于通过等式(11)微调模型。高级特征提取器包括编码器和特征MLP,而标签预测器包括编码器和标签MLP。
4.实验
4.1 实验设置
数据集
实验在五个公共数据集上进行,如表1所示。MNIST-USPS[34]是一个流行的手写数字数据集,它包含5000个样本,具有两种不同风格的数字图像。BDGP[5]包含2500个果蝇胚胎样本,每个样本都由视觉和文本特征表示。Columbia Consumer Video(CCV)[15]是一个视频数据集,包含属于20个类别的6,773个样本,并提供三种视图的手工制作的词袋表示,如STIP、SIFT和MFCC。Fashion[47]是一个关于产品的图像数据集,其中我们遵循文献[50]将不同的三种风格视为一个产品的三个视图。Caltech[9]是一个具有多个视图的RGB图像数据集,在此基础上,我们构建了四个数据集,用于评估比较方法在视图数量方面的鲁棒性。具体来说,

Caltech-2V包括WM和CENTRIST;Caltech-3V包括WM、CENTRIST和LBP;Caltech-4V包括WM、CENTRIST、LBP和GIST;Caltech-5V包括WM、CENTRIST、LBP、GIST和HOG。
实施
所有的数据集都被重塑为向量,并采用具有相似架构的全连接网络来实现我们MFLVC中所有视图的自动编码器。采用Adam优化器[17]进行优化。MFLVC的代码由PyTorch实现[32]。
对比算法
比较方法包括经典和最先进的方法,即4种传统方法(RMSL[18]、MVC-LFA[41]、COMIC[34]和IMVTSC-MVI[46])和4种深度方法(CDIMC-net[44]、EAMC[59]、SiMVC[39]和CoMVC[39])。
评价指标
聚类有效性通过三个指标进行评估,即聚类精度(ACC)、归一化互信息(NMI)和纯度(PUR)。报告了所有方法10次的平均值。
4.2 结果分析
四个数据集上的比较结果如表2所示,其中许多对比算法(例如,RMSL和COMIC)惩罚相同特征上的多个目标,CDIMC-net、EAMC、SiMVC和CoMVC是特征融合方法。人们可以发现:(1)我们的MFLVC在所有指标方面都实现了最佳性能。特别是在数据集方式上,MFLVC在ACC方面比最佳对比算法CoMVC(即85%)高出约14%。这是因为我们的模型是无融合的,它在不同的特征空间中进行重建目标和一致性目标,以便可以减少视图私有信息的不利影响。(2)通过先前的对比MVC方法(即CoMVC)获得的改进是有限的。我们的MFLVC也是一种对比MVC算法,相反,它避免了视图私有信息的融合,其多级特征学习框架允许高级特征更有效地学习所有视图的公共语义。

表2.四个数据集上所有方法的结果。粗体表示最佳结果,下划线表示次佳结果。
为了进一步验证我们的方法,我们基于加州理工学院构建了四个数据集,并测试了所有比较方法的性能。表3显示了不同视图在Caltech上的结果,从中我们可以得到以下观察结果:(1)大多数方法的聚类有效性随着视图数量的增加而提高,即ACC从60%增加到80%。(2)与8种比较方法相比,我们的MFLVC大多达到了最佳性能,表明了其鲁棒性。(3)一些方法在增加视图个数时得到的结果很差。例如,RMSL、COMIC和EAMC在Caltech-5V上实现了约35%、53%和31%的ACC,其低于在Caltech-4V上的ACC(即59%、63%和35%)。原因是每个视图的数据同时包含有用的公共语义以及无意义的视图私有信息。视图包含许多视图私有信息,这可能会增加提取其公共语义的难度。这些观察进一步验证了我们的方法的有效性,该方法学习多个层次的特征,以减少来自视图私有信息的干扰。
5.模型分析
5.1 了解多层次特征学习
为了研究所提出的多级特征学习,我们以MNIST-USPS为例,并可视化其训练过程。MNIST视图如图2所示,通过t-SNE[25]。可以发现,低级特征和高级特征的聚类结构在训练过程中变得清晰。低级特征的簇不密集。这是因为低级特征通过重建目标保持了样本之间的多样性。相比之下,高级特征的聚类是密集的,并且具有更好的低维流形。此外,在图3(a)中,正特征对的相似性在上升,而负特征对的相似性在下降。这表明由高级特征学习的信息接近跨多个视图的公共语义。这些观察结果与我们的动机一致,即特征MLP可以过滤掉多个视图的视图私有信息,因此输出的高级特征是密集的形状。正标签对的相似度也在上升,这表明语义标签的聚类一致性已经实现。

图2。对比学习过程的低级特征(a-d)和高级特征(e-h)的可视化。

图3.(a)特征对和标签对的相似性。(b)收敛性分析。©和(d)参数敏感性分析。
收敛性分析
不难发现,\mathcal{L}_Z, \mathcal{L}_H, \mathcal{L}_Q, 和\mathcal{L}_P的目标,即方程(1,4,6,11)都是凸函数。如图3(b)所示,聚类有效性随着损失值的减小而增加,表明MFLVC具有良好的收敛特性。
参数敏感性分析
我们研究是否需要超参数来平衡等式(7)中的损失部分,即\mathcal{L}_Z + λ_1\mathcal{L}_H + λ_2\mathcal{L}_Q。图3©显示了10次独立内NMI的平均值,这表明我们的模型对λ_1和λ_2不敏感。这是因为我们的模型有一个精心设计的多层次特征学习框架,通过该框架,不同特征之间的干扰也可以减少。在本文中,我们为所有使用的数据集设置λ_1 = 1.0和λ_2 = 1.0。此外,多视图对比学习包括两个温度参数,即等式(3)中特征对比损失的τ_f和等式(5)中标签对比损失的τ_l。图3(d)表明我们的模型对τ_f和τ_l的选择不敏感。根据经验,我们设置τ_F = 0.5和τ_L = 1.0。
5.2 消融实验
损失部分
我们对等式(7)中的损失部分进行消融研究和等式(11)调查其有效性。表4给出了不同的损耗分量和相应的实验结果。(A)优化\mathcal{L}_Q以实现多视图聚类的基本目标,即学习聚类一致性。(B)优化\mathcal{L}_Z 以使低级特征能够重建多视图。(C)优化\mathcal{L}_H以学习高级特征,然后通过\mathcal{L}_P使用高级特征来微调语义标签。(D)我们方法的完整损失成分。就结果而言,(B)和(D)分别比(A)和©具有更好的性能,表明重建目标是重要的。特别是当模型只有低级特征时,在MNIST-USPS和BDGP上,(B)的结果分别比(A)好20%和10%左右。根据©和(D),我们可以发现学习到的高级特征在提高聚类有效性方面起着最重要的作用。例如,在MNIST-USPS和BDGP上,©的结果分别比(A)好约30%和20%。

表4.损失部分的消融研究。
对比学习结构
为了进一步验证我们的建议,我们在不同的网络结构上执行对比学习(即一致性目标)。如表5所示,(a)直接从输入特征\mathbf{X}中学习语义标签\mathbf{Q}。这种结构在某种程度上类似于[29,40,58]。它通过将对比学习直接扩展到多视图场景而导致较差的性能。(b)在\mathbf{X}和\mathbf{Q}之间,我们设置低级特征\mathbf{Z},并对\mathbf{Q}和\mathbf{Z}进行对比学习。这种结构在某种程度上类似于[19,21,39],性能也受到限制。(c)基于\mathbf{Z},我们堆叠特征MLP以获得高级特征\mathbf{H},并对\mathbf{Z}、\mathbf{H}和\mathbf{Q}执行对比学习。至于(b)和(c),重建目标也在\mathbf{Z}上执行。(b)和(c)在MNIST-USPS上取得进展,因为MNIST-USPS的两个视图是数字图像,并且它们几乎没有影响学习性能的视图私有信息。然而,(b)和(c)不能很好地挖掘BDGP上的公共语义。原因是BDGP的两个视图是视觉特征和文本特征,它们有很多视图私有信息。当对相同的特征(即\mathbf{Z})执行重建和一致性目标时,它会导致较差的性能。(d)我们仅在\mathbf{H}和\mathbf{Q}上执行对比学习,而将重建目标留在\mathbf{Z}上。该设置通过在不同的特征空间中执行一致性和重建目标来获得最佳性能。这些实验进一步验证了我们的方法的有效性,并证实了通过多级特征学习结构来学习表示是有用的。

表5.对比学习结构的消融研究。“✓”表示对比损失在特征上被优化。
6.结论
在本文中,我们提出了一种新的多级特征学习框架,用于对比多视图聚类。对于每个视图,所提出的框架以无融合的方式学习多个级别的特征,包括低级特征、高级特征和语义标签。这允许我们的模型学习所有视图的公共语义,并减少视图私有信息的不利影响。在五个公共数据集上的广泛实验表明,我们的方法获得了最先进的性能。
更广泛的影响
所提出的框架学习了一个高级特征提取器和一个标签预测器,可应用于下游任务,如特征压缩、无监督标签和跨模态检索等。然而,这项工作旨在提供一个通用框架,训练后的模型可能会受到数据固有偏差的影响,尤其是对于脏样本。因此,未来的工作可以将我们的框架扩展到其他应用场景。
7.引用文献
- [1] Mahdi Abavisani and Vishal M Patel. Deep multimodal subspace clustering networks. IEEE Journal of Selected Topics in Signal Processing, 12(6):1601–1614, 2018. 1
- [2] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, and Du Tran. Self-supervised learning by cross-modal audio-video clustering. In NeurIPS, pages 9758–9770, 2019. 1
- [3] Yuki M Asano, Mandela Patrick, Christian Rupprecht, and Andrea Vedaldi. Labelling unlabelled videos from scratch with multi-modal self-supervision. In NeurIPS, pages 46604671, 2020. 1
- [4] Xiao Cai, Feiping Nie, and Heng Huang. Multi-view k-means clustering on big data. In IJCAI, pages 2598–2604, 2013. 3
- [5] Xiao Cai, Hua Wang, Heng Huang, and Chris Ding. Joint stage recognition and anatomical annotation of drosophila gene expression patterns. Bioinformatics, 28(12):i16–i24, 2012. 5
- [6] Xiaochun Cao, Changqing Zhang, Huazhu Fu, Si Liu, and Hua Zhang. Diversity-induced multi-view subspace clustering. In CVPR, pages 586–594, 2015. 1, 2
- [7] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In ICML, pages 1597–1607, 2020. 3, 4
- [8] Jiafeng Cheng, Qianqian Wang, Zhiqiang Tao, De-Yan Xie, and Quanxue Gao. Multi-view attribute graph convolution networks for clustering. In IJCAI, pages 2973–2979, 2020. 3
- [9] Li Fei-Fei, Rob Fergus, and Pietro Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. In CVPR, pages 178–178, 2004. 5
- [10] Jun Guo and Jiahui Ye. Anchors bring ease: An embarrassingly simple approach to partial multi-view clustering. In AAAI, pages 118–125, 2019. 1
- [11] Xifeng Guo, Long Gao, Xinwang Liu, and Jianping Yin. Improved deep embedded clustering with local structure preservation. In IJCAI, pages 1753–1759, 2017. 3
- [12] Kaveh Hassani and Amir Hosein Khasahmadi. Contrastive multi-view representation learning on graphs. In ICML, pages 4116–4126, 2020. 3
- [13] Geoffrey E Hinton and Ruslan R Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006. 3
- [14] Di Hu, Feiping Nie, and Xuelong Li. Deep multimodal clustering for unsupervised audiovisual learning. In CVPR, pages 9248–9257, 2019. 1
- [15] Yu-Gang Jiang, Guangnan Ye, Shih-Fu Chang, Daniel Ellis, and Alexander C Loui. Consumer video understanding: A benchmark database and an evaluation of human and machine performance. In ICMR, pages 1–8, 2011. 5
- [16] Roy Jonker and Ton Volgenant. Improving the hungarian assignment algorithm. Operations Research Letters, 5(4):171175, 1986. 5
- [17] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 6
- [18] Ruihuang Li, Changqing Zhang, Huazhu Fu, Xi Peng, Tianyi Zhou, and Qinghua Hu. Reciprocal multi-layer subspace learning for multi-view clustering. In ICCV, pages 81728180, 2019. 1, 2, 6
- [19] Yunfan Li, Peng Hu, Zitao Liu, Dezhong Peng, Joey Tianyi Zhou, and Xi Peng. Contrastive clustering. In AAAI, pages 8547–8555, 2021. 3, 8
- [20] Zhaoyang Li, Qianqian Wang, Zhiqiang Tao, Quanxue Gao, and Zhaohua Yang. Deep adversarial multi-view clustering network. In IJCAI, pages 2952–2958, 2019. 1, 3
- [21] Yijie Lin, Yuanbiao Gou, Zitao Liu, Boyun Li, Jiancheng Lv, and Xi Peng. COMPLETER: Incomplete multi-view clustering via contrastive prediction. In CVPR, 2021. 1, 3, 8
- [22] Jiyuan Liu, Xinwang Liu, Yuexiang Yang, Li Liu, Siqi Wang, Weixuan Liang, and Jiangyong Shi. One-pass multi-view clustering for large-scale data. In ICCV, pages 12344–12353, 2021. 1
- [23] Jialu Liu, Chi Wang, Jing Gao, and Jiawei Han. Multi-view clustering via joint nonnegative matrix factorization. In SDM, pages 252–260, 2013. 2
- [24] Shirui Luo, Changqing Zhang, Wei Zhang, and Xiaochun Cao. Consistent and specific multi-view subspace clustering. In AAAI, 2018. 1, 2
- [25] Laurens van der Maaten and Geoffrey Hinton. Visualizing data using t-SNE. Journal of Machine Learning Research, 9:2579–2605, 2008. 7
- [26] James MacQueen. Some methods for classification and analysis of multivariate observations. In BSMSP, pages 281–297, 1967. 3, 5
- [27] Kevis-Kokitsi Maninis, Stefan Popov, Matthias Niesser, and Vittorio Ferrari. Vid2cad: Cad model alignment using multiview constraints from videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022. 1
- [28] Feiping Nie, Jing Li, and Xuelong Li. Self-weighted multiview clustering with multiple graphs. In IJCAI, pages 25642570, 2017. 1, 3
- [29] Chuang Niu and Ge Wang. SPICE: Semantic pseudo-labeling for image clustering. arXiv preprint arXiv:2103.09382, 2021. 3, 8
- [30] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018. 3
- [31] Erlin Pan and Zhao Kang. Multi-view contrastive graph clustering. In NeurIPS, 2021. 3
- [32] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. In NeurIPS, pages 8024–8035, 2019. 6
- [33] Liang Peng, Yang Yang, Zheng Wang, Zi Huang, and Heng Tao Shen. MRA-Net: Improving vqa via multi-modal relation attention network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1):318–329, 2020. 1
- [34] Xi Peng, Zhenyu Huang, Jiancheng Lv, Hongyuan Zhu, and Joey Tianyi Zhou. COMIC: Multi-view clustering without parameter selection. In ICML, pages 5092–5101, 2019. 3, 5, 6
- [35] Nicolas Pielawski, Elisabeth Wetzer, Johan ̈ Ofverstedt, Jiahao Lu, Carolina W ̈ ahlby, Joakim Lindblad, and Nataˇ sa Sladoje. CoMIR: Contrastive multimodal image representation for registration. In NeurIPS, pages 18433–18444, 2020. 3
- [36] Raeid Saqur and Karthik Narasimhan. Multimodal graph networks for compositional generalization in visual question answering. In NeurIPS, pages 3070–3081, 2020. 1
- [37] Jingkuan Song, Hanwang Zhang, Xiangpeng Li, Lianli Gao, Meng Wang, and Richang Hong. Self-supervised video hashing with hierarchical binary auto-encoder. IEEE Transactions on Image Processing, 27(7):3210–3221, 2018. 3
- [38] Yonglong Tian, Dilip Krishnan, and Phillip Isola. Contrastive multiview coding. In ECCV, pages 776–794, 2020. 3
- [39] Daniel J. Trosten, Sigurd Løkse, Robert Jenssen, and Michael Kampffmeyer. Reconsidering representation alignment for multi-view clustering. In CVPR, pages 1255–1265, 2021. 1, 3, 6, 8
- [40] Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, and Luc Van Gool. SCAN: Learning to classify images without labels. In ECCV, pages 268–285, 2020. 3, 4, 8
- [41] Siwei Wang, Xinwang Liu, En Zhu, Chang Tang, Jiyuan Liu, Jingtao Hu, Jingyuan Xia, and Jianping Yin. Multi-view clustering via late fusion alignment maximization. In IJCAI, pages 3778–3784, 2019. 6
- [42] Tongzhou Wang and Phillip Isola. Understanding contrastive representation learning through alignment and uniformity on the hypersphere. In ICML, pages 9929–9939, 2020. 3
- [43] Jiwei Wei, Yang Yang, Xing Xu, Xiaofeng Zhu, and Heng Tao Shen. Universal weighting metric learning for cross-modal retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021. 1
- [44] Jie Wen, Zheng Zhang, Yong Xu, Bob Zhang, Lunke Fei, and Guo-Sen Xie. CDIMC-net: Cognitive deep incomplete multi-view clustering network. In IJCAI, pages 3230–3236, 2020. 1, 6
- [45] Jie Wen, Zheng Zhang, Yong Xu, and Zuofeng Zhong. Incomplete multi-view clustering via graph regularized matrix factorization. In ECCV Workshops, 2018. 1
- [46] Jie Wen, Zheng Zhang, Zhao Zhang, Lei Zhu, Lunke Fei, Bob Zhang, and Yong Xu. Unified tensor framework for incomplete multi-view clustering and missing-view inferring. In AAAI, pages 10273–10281, 2021. 6
- [47] Han Xiao, Kashif Rasul, and Roland Vollgraf. FashionMNIST: a novel image dataset for benchmarking machine learning algorithms. arXiv preprint arXiv:1708.07747, 2017. 5
- [48] Junyuan Xie, Ross Girshick, and Ali Farhadi. Unsupervised deep embedding for clustering analysis. In ICML, pages 478–487, 2016. 1
- [49] Jie Xu, Yazhou Ren, Guofeng Li, Lili Pan, Ce Zhu, and Zenglin Xu. Deep embedded multi-view clustering with collaborative training. Information Sciences, 573:279–290, 2021. 1
- [50] Jie Xu, Yazhou Ren, Huayi Tang, Xiaorong Pu, Xiaofeng Zhu, Ming Zeng, and Lifang He. Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering. In ICCV, pages 9234–9243, 2021. 1, 3, 5
- [51] Jie Xu, Yazhou Ren, Huayi Tang, Zhimeng Yang, Lili Pan, Yang Yang, and Xiaorong Pu. Self-supervised discriminative feature learning for deep multi-view clustering. arXiv preprint arXiv:2103.15069, 2021. 3
- [52] Mouxing Yang, Yunfan Li, Peng Hu, Jinfeng Bai, Jian Cheng Lv, and Xi Peng. Robust multi-view clustering with incomplete information. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022. 1
- [53] Zuyuan Yang, Naiyao Liang, Wei Yan, Zhenni Li, and Shengli Xie. Uniform distribution non-negative matrix factorization for multiview clustering. IEEE Transactions on Cybernetics, pages 3249–3262, 2021. 1
- [54] Ming Yin, Weitian Huang, and Junbin Gao. Shared generative latent representation learning for multi-view clustering. In AAAI, pages 6688–6695, 2020. 1
- [55] Kun Zhan, Changqing Zhang, Junpeng Guan, and Junsheng Wang. Graph learning for multiview clustering. IEEE Transactions on Cybernetics, 48(10):2887–2895, 2017. 1
- [56] Handong Zhao, Zhengming Ding, and Yun Fu. Multi-view clustering via deep matrix factorization. In AAAI, pages 29212927, 2017. 1, 2
- [57] Guo Zhong and Chi-Man Pun. Improved normalized cut for multi-view clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021. 1
- [58] Huasong Zhong, Chong Chen, Zhongming Jin, and XianSheng Hua. Deep robust clustering by contrastive learning. arXiv preprint arXiv:2008.03030, 2020. 8
- [59] Runwu Zhou and Yi-Dong Shen. End-to-end adversarialattention network for multi-modal clustering. In CVPR, pages 14619–14628, 2020. 1, 3, 6
- [60] Xiaofeng Zhu, Shichao Zhang, Wei He, Rongyao Hu, Cong Lei, and Pengfei Zhu. One-step multi-view spectral clustering. IEEE Transactions on Knowledge and Data Engineering, 31(10):2022–2034, 2018. 1
