[论文笔记] The Pursuit of Human Labeling: A New Perspective on Unsupervised Learning
The Endeavor to Achieve Human Labeling Process: A Fresh Approach to Unsupervised Learning Techniques
追求人类标签:无监督学习的新视角
探索人类标签化的过程:为无监督学习提供新的视角
Abstract
论文开发了一个名为HUME的简单无监督框架,在无需外部监督的情况下能够推导出数据集中的人类标记。该方法的核心观点在于:无论所使用的表示空间如何变化,在许多人类标签定义的基础类中都存在线性可分性这一特性。HUME正是基于这一发现来指导对数据集中所有潜在标签的搜索过程。作者通过实验表明:所提出的优化目标与真实标记之间的相关性异常显著;值得注意的是,在训练过程中仅需固定地使用预先训练好的表示进行线性分类器训练即可实现这一目标;因此论文所提出的架构与当前主流的大规模预训练模型以及自监督学习方法完全兼容。尽管其设计思路较为简洁明了;但实验结果却显示出:在STL-10数据集上的自监督表示之上;该方法的表现明显优于传统的有监督线性分类器;并且在CIFAR-10数据集上表现同样出色;更进一步地;相对于现有无监督基准方法;HUME在包括大规模ImageNet-1000在内的四个图像分类基准数据集上均展现了最佳性能水平。综上所述;这篇论文通过探索一致标签在不同表示空间之间的搜索关系;提供了一种全新的视角来解决无监督学习问题。
Introduction
无监督任务:人类智力的重要组成部分是在无需外界指导或指令的情况下获得知识与技能的能力。然而,尽管最近发展起来的自监督学习方法已展现出能够在无标签数据中自主学习 task-invariant 表示的能力,在某些领域仍面临挑战。一种常见策略是基于这些预训练表示构建可 task-specific 的分类模型以解决特定兴趣的任务。
迁移学习及小样本学习:在这种情境下,神经网络在众多人工标注下游任务中表现优异。这一策略亦被广泛应用至迁移学习与few-shot学习领域,并表明强大的特征提取器可在极小的监督条件下有效地泛化至新的任务。然而,在接近人类智能水平的过程中仍存在根本缺陷:机器未能发展出无需任何外部指导或监督就能解决新问题的能力。
多模态学习:与这种技能接近的是当前在对准文本-图像语料库上训练的多模态方法;这些方法在零样本学习设置中表现优异且无需微调优化。
全无监督的学习框架——基于聚类的方法:然而,在全无监督的学习框架下仍需要依赖于预定义的任务类别信息以解决新的学习任务。传统的解决方案通过聚类算法自动生成类别标签以识别语义相关联的数据点,在现有(弱)监督学习方法中其性能表现相对落后。
HUME方法:作者在此研究中构建了HUME模型这一简单而高效的无监督学习框架,在无需人工标注数据的情况下即可推断目标数据集中的人类标记信息。该论文提出的方法其关键创新点在于:系统性分析方法的核心要素及其在实际应用中的具体实现机制的深入探讨。
- 许多人类标记的任务在足够强的表示空间中是线性可分的,
- 尽管深度神经网络可以有自己的归纳偏差(inductive bias),这些偏差不一定反映人类的感知,并且容易受到拟合虚假特征的影响;然而,在这种情况下,人类标记的任务对于底层模型以及结果的表现形式并没有产生影响。

图1展示了在CIFAR-10数据集上的结果图形:HUME方法通过生成不同类型的标签来识别潜在的人类标记。对于每一个标记(图中每个数据点),HUME方法评估线性分类器在不同表示空间中的泛化误差作为其优化目标,并发现HUME方法的目标与人类标记之间的距离呈现高度显著的相关性(ρ = 0.93, p = 2.6 × 10^-45双侧Pearson相关系数)。特别地,在能够几乎完美吻合人类标记的任务中,HUME方法实现了最低的泛化误差,从而允许它在无需外部监督的情况下恢复人类标记。
该段详细阐述了在CIFAR-10数据集上运用HUME(一种可能应用于半监督学习或标签生成的技术)所进行的实验结果。具体而言,则是展示了这一研究是如何通过这种方法实现了分类任务性能的有效提升。
研究团队采用多种数据标记策略,并借助 HUME 方法识别潜在的人类标注。在评估生成标记质量时,则考察其与真实人类标注间的差异程度。
实验步骤:该研究团队采用 HUME 指标来衡量不同表征空间中线性分类器的泛化能力。这表明,在生成每个标签时,研究团队会在多个特征表征下训练线性分类器,并基于此评估模型的整体泛化能力。
结果:
总结: 研究人员强调 HUME 在那些与人类标注高度一致的任务上取得了最低的泛化误差,这使得 HUME 能够在没有外部监督的情况下恢复人类标注。最后,作者还提到了在 STL-10 和 CIFAR-100-20 数据集上的结果,这些结果可能在附录 D 中提供。
该研究借助观察结果构建了泛化优化目标,并通过实验验证其有效性(图1)。研究者提出的核心理念在于通过评估线性模型在两个预训练生成表征上的泛化能力来衡量任意标记的质量(图2)。值得注意的是,在这项研究中我们采用了通用架构(无需特定表征)、简洁明了的设计理念,并确保其适应性强仅需进行基本参数调整即可实现预期效果
总体而言,HUME阐述了一个关于如何解决无监督学习的新观点. 与传统的聚类方法不同, 聚类方法致力于将反映样本语义相关性的归纳偏差融入到学习过程, 而本文的方法则通过从模型泛化的视角有效解决了这一问题.
研究在目标数据集上应用多种自监督预训练方法(包括MOCO 与SimCLR )以及大型预训练模型(如BiT 与DINO )提取的表示形式来构建HUME框架的具体方案
2 HUME framework
在本节中,在介绍问题设定后,在不依赖任何监督的情况下探讨人工标注任务框架的一般模式
问题设定。 令\mathcal{D}=\left\{x_i\right\}_{i=1}^N为一集合型样本组。假设该数据集划分为K个类别,并且这些类别数量是预先已知的参数;同时每个实例x_i仅属于一个特定类别k∈{0,…,K−1}。标记函数τ:D→{0,…,K−1}被定义为对数据集D的真实标签进行分类的任务。
2.1 人工标记任务对表示空间的误差和不变性测试
在给定任务\tau上评估模型的泛化能力是一种常用手段之一。具体而言,对于数据集\mathcal{D},我们可以将其划分为两个互不相交的部分(X_{tr}, X_{te}).假设f: \mathcal{D} \rightarrow \Delta^{K-1}是一个概率分类器,它将输入x \in \mathcal{D}映射至类概率空间中.我们通过使用损失函数\mathcal{L}对f进行训练,并在训练完成后标记其对训练集(X_{tr})的表现.随后,我们能够在测试集(X_{te})上计算出其测试误差水平,从而为我们提供了一个对模型真实误差进行无偏估计的有效指标:
The loss function \mathcal{L} applied to f(X_{te}) and \tau(X_{te}) is equal to the reciprocal of the cardinality of X_{te} multiplied by the sum over all elements x in X_{te} of \mathcal{L}(f(x), \tau(x)), as shown in equation (1).

图2:HUME框架的概述。
HUME基于预训练特征和线性模型在这些特征顶端评估每个标签的质量。改进后提出的方法基于泛化的目标产生了与人类标注高度相关的标记结果。
在HUME中, 我们应用这个分数来量化任何给定任务τ的质量. 该分数被用于评估数据集D中的所有可能任务集合中的人工标记任务.
然而,在神经网络中存在一种归纳偏差(inductive bias),使其能够在捕捉虚假关联性以及不反映人类标注的任务中获得低测试误差(low test error)。为了区分这些任务与人工标注的任务,在论文框架中核心观点是:对于许多人工标注的任务而言,在表示空间的选择上不论如何变化,由人工标注定义的类别始终都是线性可分的(linearly separable)。换言之,在足够强大的表示空间下,人类标注的任务特性是恒定不变的(unchanging)。接下来正式定义何为足够强大的表示空间以及任务对表示对的不变性(invariance)
定义 1.
Consider two functions, ϕ₁(x) and ϕ₂(x), defined as mappings from the sample space D to low-dimensional representation spaces ℝ^{d₁} and ℝ^{d₂}, respectively. If these two representation spaces are linearly separable with respect to τ, then we say that the task τ is invariant under this pair of representations, denoted by (ϕ₁, ϕ₂). Specifically, the linear models trained on f₁ and f₂, namely ϕ₁(·) and ϕ₂(·), achieve low testing error as described in Eq. (1).
我们基于给定的一对固定预训练表示之间的不变性特性识别人工标记任务。由于我们仅在预训练表征顶层构建线性分类器,在整个学习过程中表征始终未发生变动。通过多组不同表示空间实现正则化措施,并确保学习过程不因单一表征空间导致的归纳偏差而产生误导关联。
具体来说,在给定一个任务 τ 的情况下(τ 是给定的任务),我们的目标是估计一个由权重矩阵 W_i ∈ ℝ^{K×d_i} 参数化的线性模型 f_i 在训练集 X_tr 上的每个表示空间 φᵢ(⋅),其中 i=1,2。我们定义每个表示空间 φᵢ(⋅) 的最优权重矩阵 W^̂_i(τ) 作为与之对应的目标。我们的目标则是最小化两个线性模型在测试集上的误差相对于参数 τ 的表现。
该最小化操作旨在最小化由两部分组成的损失函数之和。(1) 其中第一部分涉及σ函数作用于W₁(τ)与φ₁(X_te)的乘积,并与τ(X_te)进行比较;第二部分同样采用σ函数作用于W₂(τ)与φ₂(X_te)的乘积,并与同一个τ(X_te)进行比较;两者的总和即为所求的目标函数值。
考虑到σ(⋅)被定义为Softmax激活函数。值得读者特别注意的是:参数\hat{W}_1(τ)与\hat{W}_2(τ)都隐式地依赖于τ作为标签τ(X_tr)所指代的问题中的内部优化解。在随后介绍的第2.3节中,我们将详细阐述这一解决方案的具体实现及其对优化过程的影响。
一个尚未解决的建模问题是如何选择表示空间 \phi_{1,2}(\cdot)。我们利用目标数据集\mathcal{D} 上的自监督预训练来获得表示空间 \phi_1(\cdot)的鲁棒性和良好的聚类表示。 表示空间 \phi_2(\cdot) 作为正则化器来指导搜索过程。因此,我们利用大型预训练模型的特征作为表示空间 \phi_2(\cdot)。从效率和模型性能的角度来看,这是一个很有吸引力的建模设计选择。特别是,通过使用大型预训练模型,我们不需要在给定的感兴趣的数据集上训练模型。尽管简单,但在深度预训练模型的固定表示之上的线性层微调在解决许多下游问题方面已经显示出其效率\。下一节将讨论模型\tau的方法。
2.2 Task paramterization
Eq. (2) 中的目标旨在克服关于τ的复杂性离散优化问题这一障碍,从而阻碍了我们有效地应用有效的梯度优化技术.为此,我们需要构建三个独立的任务编码器\left(\phi_1(\cdot), \phi_2(\cdot), \tau(\cdot)\right),这些编码器在实践中可能具有较高的计算开销和较大的内存需求.为了缓解这两个主要缺陷,我们将\phi_1(\cdot)不仅用作任务编码器的基础模块,同时也承担起任务空间中的不变区域的角色.具体而言,我们放宽了τ输出以预测类别概率分布而非明确分类标签,并将任务\tau_{W_1}(\cdot): \mathcal{D} \rightarrow \Delta^{K-1}参数化如下:
映射τ_{W₁}(x)=操作符𝒜作用于(W₁ φ̂ₐₚ(x))中,W₁与自身转置的乘积等于单位矩阵I_K,而φ̂ₐₚ(x)则等于φₐₚ(x)除以其L²范数的结果,如(3)所示。
其中,在给定数据集 \mathcal{D} 上预训练的自监督表示由函数 \phi_1(\cdot) 表示;这些表示在整个训练过程中保持固定不变。为了生成稀疏标记以满足每个样本 x_i \in \mathcal{D} 的分类需求,在这一过程中我们假设每个样本都应被限制为属于特定类别的一种表现形式。上述参数化方法可视为对每个类别学习其特征性代表;这种建模策略在表示空间中具有显著吸引力。因此,在方程(2)中所定义的目标优化问题等价于寻找最优线性变换矩阵 W_1 和对应的编码器映射 \hat{\phi}_1(\cdot);其反映了该样本与类原型之间的相似程度。此外,在生成稀疏标记时所采用的 sparsemax 激活函数确保了选择过程具有软属性;基于以上规范后,在方程(2)中的优化目标简化为:
the argmin over W_1 of the loss function \mathcal{L} evaluated at \sigma applied to the product of the estimated version of W_2 multiplied by W_1 and \phi_2(X_{te}), followed by a transformation matrix associated with W_₁ and X_{te}, as shown in equation (4).
其中\hat{W}_2(W_1)代表了基于(X_{tr}, \tau_{W_1}(X_{tr}))训练后的线性模型f_2的权重参数,并直接与参数W_1相关联。我们采用交叉熵损失函数\mathcal{L}作为分类问题中常用的损失函数,并且这种损失函数在计算过程中具有良好的特性使得其应用广泛并且效果显著。由于所建立的优化问题是关于变量W_1连续性的结果,在实际求解时我们可以有效利用现有的梯度优化方法来寻找最优解点。尽管这一过程涉及复杂的内部计算以及对误差传播机制的深入理解但这些细节将在后续章节中得到详细阐述。
2.3 Test error optimization
在每一次迭代过程中k时, 我们会抽取两个互不相交的子集\left(X^{tr}, X^{te}\right) \sim D, 从而避免模型对特定的数据划分过于敏感. 这些被划分为训练集和验证集的数据会被当前任务模型\tau\left(W^{(k)}\right)进行识别分类. 在计算式(4)所定义的测试风险指标值之前, 我们需要先完成一个关于\tau\left(W^{(k)}\right)模型对训练数据\mathcal{X}^{tr}进行分类的任务. 具体而言, 我们需要求解目标函数中的优化问题.
\hat{W}_2(W_1^k)表示将权重矩阵W_1^k映射到目标空间中以最小化损失函数\mathcal{L}的过程。(5)式给出了这一优化关系的具体表达式
不难看出,上述优化问题是研究得比较充分的多类逻辑回归问题,它相对于 W_2 是凸的,易于求解。为了更新参数 W_1^k,我们需要计算Eq.(4)对 W_1 的总导数,其中包括雅可比矩阵 \frac{\partial \hat{W}_2}{\partial W_1^k}。通过上述优化过程,可以使用不同的方法来计算所需的雅可比矩阵并传播梯度。为简单起见,我们对固定的迭代次数 m 进行梯度下降来解决内部优化问题,并得到 \hat{W}_2^m\left(W_1^k\right)。然后,我们使用MAML通过展开内部优化的梯度更新的计算图来计算 \frac{\partial \hat{W}_2^m}{\partial W_1^k}。总导数的其余项可以使用首选的自动微分(AD)工具箱开箱即用。这导致了在现有AD框架中可以毫不费力地实现的高效过程。
通过熵正则化机制对任务编码器进行优化处理可能会导致其生成退化的分类边界问题。具体而言,当使用交叉熵损失函数作为目标函数时,若目标函数中的真实标签向量被设计为全零向量,那么该分类问题就等价于将其映射至一个单点集的问题,即所谓的退化解法问题会使得分类模型无法有效学习类别间的差异性特征从而影响模型性能
\mathcal{R}(\bar{\tau})=-\sum_{k=1}^K \bar{\tau}_k \log \bar{\tau}_k,
具体而言,在任务τ中,\bar{\tau}=\frac{1}{|X|} \sum_{x ∈ X} τ_θ(x) ∈ Δ^{K−1}被定义为该任务的经验标签分布。总体优化目标为:
\ minimum _{W_1} \mathcal{L}\left(\sigma\left(\hat{W}_2\left(W_1\right) \phi_2\left(X_{t e}\right)\right), \tau_{W_1}\left(X_{t e}\right)\right)-\eta \mathcal{R}\left(\bar{\tau}_{W_1}\left(W_1\right)\right),
在式(此处可能需要补充具体的位置信息)中的变量η被视为一个用于控制模型复杂度的参数项;在此过程中λ也同样扮演着重要的角色,并通过适当的衰减系数来约束模型输出;此前关于这种类型的regularization方法已经得到了广泛的研究和探讨;其伪代码实现可参考Algorithm 1的具体步骤描述

3 Experiments
3.1 Experimental setup
数据集和评估指标
HUMA的具体实现中包含了多个关键组件。针对表示空间\phi_1(\cdot)这一维度,在特定数据集上进行了相应的分割与优化处理以达到最佳效果。对于表示空间\phi_2(\cdot)这一维度,则采用了更为复杂的多模态特征提取方法来进行建模与分析。具体而言,在该框架下我们整合并测试了三个不同规模的大型预训练模型:(i)基于ImageNet-21k进行微调优化后的BiT-M-R50x1模型;(ii)经过WebImageText领域迁移学习的CLIP vitl /14版本;以及(iii)基于LVD-142M数据集优化而来的DINOv2 ViT-g/14架构。
基线。基于HUME在预训练自监督表示上的线性分类器训练结果表明,在相同预训练表示基础上构建监督线性基准具有较高的适配性评价意义。为此,在分割任务中采用标注数据对线性模型进行训练,并在相应数据集上报告测试分割性能指标。针对无监督评估部分,则采用了两种最先进的深度聚类算法——SCAN与SPICE——作为对比实验的基础方法体系。从算法流程来看,SCAN与SPICE均属于三阶段式聚类方法体系:第一阶段通过自监督学习获得高质量特征表示;第二阶段则基于冻结表示开展聚类操作;第三阶段则利用生成聚类结果进行伪标签生成与网络更新操作。值得注意的是,在这一过程中生成的伪标签均为第二阶段聚类算法所产出的结果集合,并为第三阶段半监督学习方法(SSL)应用提供了可靠样本支持体系框架基础;然而本文研究重点并非聚焦于不同SSL方法性能优化问题本身,而是更加强调SSL技术有效应用的关键因素——伪标签质量特性特征构建机制设计问题研究探索工作展开展开展开展开
具体实现细节如下:在每个实验中,我们独立运行HUME算法,并使用100个不同的随机种子生成100组标签。为了评估标签的一致性,在每个实验中都应用匈牙利算法将所有发现的标签与交叉验证精度最高的对应标签配对(这是HUME算法的目标)。通过多数投票法整合这些预测结果,在3.2节展示不同聚合策略的效果。在所有实验中,默认将正则化参数η设定为10以确保模型泛化能力;在附录b中展示了该超参数对模型性能的影响;附录a提供了其他实现细节以供参考
3.2 Results
与监督基准进行对比实验时,在HUME框架下采用了以下方法:基于ResNet-18 MOCOv2预训练表征的技术路径下对HUME进行了优化,并将其与经过监督学习训练的线性分类器进行了性能对比研究。具体而言,在监督学习环境下对表示空间进行正则化以提升性能的方法是自监督学习的标准评估策略之一。在HUME中我们采用了BiT、CLIP ViT以及DINOv2 ViT三种不同的表示空间方法作为正则化手段。实验结果表明,在无任何人工标注数据的情况下,在STL-10数据集上HUME框架无论是在传导设置还是感应设置下都优于传统的监督线性分类器;而在CIFAR-10数据集上两者的性能表现相当接近;但在更为复杂的CIFAR-100-20数据集上尽管存在性能差距但这种差距相较于其他设置并不显著扩大(差异在ARI指标上不超过11%)。当将注意力集中在感应设置的表现时发现随着数据量的增加HUME框架在该设置下的准确率相较于感应设置中的相应方法始终能够保持至少1%的优势(最高可提升至3%)。此外通过对比不同预训练模型的表现我们发现采用规模更大的预训练模型能够在一定程度上改善整体性能表现:例如在CIFAR-100-20数据集上采用DINOv2 ViT作为正则化手段相比BiT基线方法提升了约16%的精度水平
本研究中使用的表格1基于相应的数据集以及三种不同类型的大型预训练模型,并对经过预先进行MOCOv2自监督预训练的表示方法进行了对比分析,在归纳(ind)和转导(trans)两种设置下,并对HUNE与其监督线性分类器的表现进行了详细比较

与现有无监督基准方法的对比中
大范围的ImageNet-1000基准测试已完成。随后的研究将聚焦于评估HUNE算法在该基准上的性能表现,并将其与其他处于该规模领先水平的深度聚类算法进行系统对比分析。所有参与实验的方法均基于相同的ResNet-50主干网络架构构建。SCAN模型采用了基于MOCOv2自监督学习得到的表示特征;而TWIST模型及其自分类器则均采用单阶段训练策略从零开始学习特征表示;休谟算法则采用了与MOCOv2相同的自监督学习方式,并结合DINOv2作为第二层特征空间进行扩展提取。表3中的实验结果表明,在现有基线方案的基础上,HUNE算法实现了约24%绝对准确率提升,并获得了约7.8点更高的类别内一致性(ARI)值,这一显著提升结果充分验证了HUNE算法在应对具有高度细粒度挑战性任务时的良好扩展性能
表格3:HUME在大量级ImageNet-1000数据集上的性能对比分析及与无监督基线的比较。所有方法普遍采用了基于ResNet50的骨干架构设计。基于DINOv2大型预训练模型以及结合ResNet-50 MOCOv2自监督表示的技术方案。


图3:(a)在CIFAR-10数据集上采用不同聚合策略进行实验研究。通过结合MOCOv2与多种大型预训练模型来实现HUME算法。(b)在CIFAR-10数据集上评估可靠样本的识别精度。通过结合MOCOv2与DINOv2来实现HUME算法的优化效果。在对SSL方法进行测试时,在每个类别中采用完整的配置方案,并以红色线条标注其分别对应使用的可靠样本数量(分别为4、25和400个)。
4 Related work
自监督学习是一种重要的机器学习范式。它通过定义一个目标任务来生成表示(representations),这些表示对下游任务具有促进作用。近期的研究者们对对比学习的方法表现出浓厚的兴趣。通过比较正样本和负样本之间的关系来学习有效的特征表示。值得注意的是,在这项研究之外的另一项工作则通过引入有益的归纳偏差(inductive bias)来改进自监督学习效果。具体而言,在这项研究之外的工作中,则采用了以下策略:例如图像旋转、拼图求解等操作能够显著提升模型性能;此外,在这项研究之外的工作中还引入了来自视频序列中的顺序信息(temporal information)以进一步优化结果表现;在论文的核心贡献部分中,则将传统的线性探测评估方案转化为一种新的优化目标;这种新的评估框架能够在完全无监督的情况下恢复人类标注的质量;由于HUME框架本身是模型不可知(model-agnostic)的特性,在这一框架下可以通过不断引入自我监督的方法而实现更好的无监督性能评估;此外,在这一框架下还可以采用一种无监督的方式来进行模型性能评估
转移学习. Transfer learning represents a paradigm in machine learning that leverages large-scale pre-trained deep neural networks to transfer knowledge to low-resource downstream tasks. This paradigm has been successfully applied across various domains, including but not limited to few-shot learning, domain adaptation, and domain generalization. Recent advancements have demonstrated that pre-trained models based on vast amounts of data have achieved remarkable successes across different domains. The transfer learning pipeline typically involves supervised fine-tuning of linear classifiers on top of frozen representations. Within the study's framework, the strong linear transferability of these representations is employed as a regularization mechanism to guide the search process for human-annotated tasks. Notably, this approach can also be interpreted as an unsupervised transfer learning process. While CLIP-style language-image foundation models require human intervention for new tasks, HUME provides a solution that circumvents this necessity.
聚类 问题属于机器学习领域中的长期研究课题。近年来的研究表明,在性能上较传统方法有所超越的是深度聚类技术。该种技术通过构建非线性映射将原始数据映射到潜在的空间中进行分析与分类,并在此过程中生成有效的表征表示矩阵以提升分类精度与鲁棒性等关键指标的表现能力。在这一领域内还存在多种不同的思路与实现方案:一种是基于自标记的方法即逐渐将神经网络拟合到自己最自信的预测中;另一种则是通过训练嵌入空间并确定类别原型的方式进一步优化样本分类效果;再一种则是直接采用传统的监督学习策略对数据进行分类处理这种方法虽然在某些特定场景下表现良好但在复杂数据分布情况下容易出现欠拟合的问题因而难以满足实际应用需求为此作者提出了一种全新的思路即在不依赖语义相似性概念的前提下寻找能在所有可能标记的空间中找到最一般化的标记方案从而提升模型的整体性能与适用性
泛化能力
元优化策略:我们提出的方法旨在通过内嵌参数更新机制实现对该策略的有效求解。在基于梯度的高级优化框架中也常会遇到这一挑战。现有研究已针对类似任务进行了深入探讨,并探索了将凸可微性整合到深层神经网络架构中的方法。尽管这类方法通常面临计算资源和内存占用较高的挑战,在我们提出的方法中仅需对单个全连接层进行反向传播即可实现高效求解。值得注意的是,在该框架下所设计的内嵌最速下降法(Eq. 5)由于其凸性质特性得以保证收敛速度的同时仍能保持较低的时间复杂度特征。此外,在实验部分我们将对比不同内嵌更新规则下的模型性能表现并分析其对最终结果的影响因素
半监督学习
6 Conclusion
该研究者提出了HUME这一简便工具,旨在提供解决无 supervised学习问题的新思路,并将其应用于两种预先经过训练的数据表征空间中,以探索可推广标记的方式。研究发现,其方法普遍超越现有无 supervised基准,尤其在STL-10数据集上表现得超越传统有 supervision方法,并在CIFAR-10数据集上展现出与现有有 supervision方法相当的能力。此外,休谟同样可用于生成半 supervision方法所需的人工标记,并评估自 supervision表征的质量;而未知架构将因未来更强自我 supervision架构及大规模预训练技术的进步而获得显著提升
