深度半监督学习中伪标签方法综述
伪标签方法的总结与思考
伪标签方法是一种结合少量标签数据和大量无标签数据的半监督学习技术,旨在通过生成伪标签来扩展训练数据,从而提升模型性能。这种方法在深度学习领域尤为重要,因为获取高质量标签数据的成本往往高昂,而无标签数据的获取相对容易。以下是对伪标签方法的总结与思考:
伪标签方法的核心思想
伪标签方法的核心在于利用无标签数据生成伪标签,将这些伪标签与真实标签数据一起训练模型。这种方法通过引入无标签数据的分布信息,帮助模型更好地学习数据的内在结构和特征。论文中提到,伪标签方法主要分为以下几类:
熵最小化方法:通过最小化数据的熵来生成伪标签,假设无标签数据的分布遵循一定的概率分布。
代理标签方法:通过预测模型对无标签数据的预测结果作为伪标签。
噪声学生方法:利用无标签数据的预测置信度作为伪标签的可靠性指标。
元伪标签方法:通过生成元标签的方法,进一步提升伪标签的准确性。
方法的优缺点
优点:
- 无需大量人工标注,节省了大量时间和资源。
- 利用无标签数据的分布信息,提升了模型的泛化能力。
- 在某些领域(如图像分类)中表现优异,如自半监督模型在ILSVRC-2012数据集上取得了91.23%的Top-1准确率。
缺点:- 无标签数据的质量和分布可能影响伪标签的准确性,进而影响模型性能。
- 部分方法(如代理标签方法)可能引入噪声,导致模型训练不稳定。
- 在类别数量较多的数据集中,模型的准确率有所下降,可能与数据分布的不均匀性有关。
基于图的标签传播方法
论文中提出了一种基于图的标签传播方法,无需预训练模型即可生成伪标签。这种方法利用数据的内在相似性,通过构建图的邻接矩阵和传播矩阵,将标签数据的标签传播到无标签数据上。这种方法的优势在于简化了训练过程,但其有效性依赖于数据的分布假设(如流行假设),即数据样本在低密度区域的决策边界应位于高密度区域的决策边界之间。
实验结果与启示
实验结果表明,基于图的标签传播方法在某些数据集上表现优异,如在CIF
摘要
随着智能技术的发展趋势日益显著,深度学习正逐渐成为机器学习研究的核心方向,在多个领域发挥着越来越重要的作用。深度学习体系需要大量高质量的标注数据来提升模型性能。为了有效解决标注数据不足的问题,研究者们将半监督学习方法与深度学习相结合。这种结合方式利用少量标注数据与大量无标注数据共同构建模型,不仅能够显著扩展样本空间,而且在实际应用中展现出极高的可行性。鉴于此,针对深度半监督学习这一理论与应用并重的研究方向,本文将重点分析其中的伪标签方法。首先,从理论层面系统介绍深度半监督学习的基本概念及其研究现状,突出伪标签方法的优势特点;其次,从自监督学习和多视角学习两个角度深入剖析伪标签方法的实现机制,对现有相关模型进行综合性能评估;接着,重点探讨基于图结构与伪标签的标签传播方法,对现有伪标签方法的适用性与局限性进行实验验证;最后,从无标注数据的实用价值、噪声数据的影响、方法的合理性和多模态标签的结合应用等方面总结伪标签方法当前存在的问题及未来研究方向。
关键词: 深度学习; 半监督学习; 伪标签; 标签传播
在智能技术领域取得了长足进展的今天,深度学习正受到学术界和工业界的高度重视,尤其是在计算机视觉、图像处理、自然语言处理以及语音识别等多个领域。例如,百度集团的无人驾驶技术、阿里巴巴的人工智能用户行为分析等应用案例,充分展现了其在各行业的广泛应用。
深度学习以数据为驱动,其优异性能源于充足标签数据。然而,在现实生活中,标签数据获取成本高昂。例如,在医疗任务中,标签由领域专家分析得出。相比之下,无标签数据获取相对简便,半监督学习通过结合二者用于模型训练。研究表明,将少量有标签数据与大量无标签数据结合有助于提高学习任务的准确率[7]。基于上述思想,研究人员将半监督学习引入到深度学习领域,并提出深度半监督学习方法。根据所采用的半监督损失函数及模型设计方式,深度半监督学习方法主要可分为生成式方法、一致性正则化方法、基于图的方法、混合方法以及伪标签方法[8]。
生成式方法通过学习数据的隐式特征来捕捉潜在模式,假设所有数据均假设来自同一潜在生成模型,以便更好地将无标签数据与学习目标进行关联建模,并采用最大期望算法进行求解[9-10]。在标签数据极度匮乏的情况下,相比于其他方法,生成式方法仍能保持较好的性能,其关键在于与真实分布的吻合程度[11⇓-13]。
(2)一致性正则化方法:通过模型强化处理无标签数据,即对无标签数据施加一个实际的噪声扰动,使得经过处理后的数据不会显著影响预测结果。在聚类假设下,不同标签数据分布在低密度区域,因此在施加扰动后,数据标签发生改变的可能性极其微小。基于此,可以将一致性正则化项引入损失函数,从而在损失函数中体现这一先验假设[14⇓⇓-17]。
(3)基于图的方法:在数据集中构建图,其中每个节点代表一个训练数据样本,节点之间的边则反映了它们之间的相似性程度。图正则化常采用Laplacian矩阵进行正则化处理,假设那些通过强连接相连的节点倾向于共享相同的标签信息,例如标签传播(label propagation)、高斯随机场(Gaussian random fields)以及局部全局一致性(local and global consistency)等方法[18-20]。图嵌入则通过将节点映射为向量来表征节点特征,以便衡量节点之间的相似程度[21-23]。
(4)混合方法:通过融合伪标签、伪一致性正则化和熵最小化的方法,显著提升了模型性能。此外还引入了一种混合物学习原理,即一种简单的、数据不可知的数据增强方法[24],以及一个配对的数据及其各自标签的凸组合[25-26]。
大部分深度半监督学习方法不足之处在于过分依赖特定区域的数据增强,然而在大多数应用场景下,数据增强并不容易生成,而其中伪标签方法却不受数据增强的约束。现阶段为无标签数据标注伪标签的方法则大多先利用标签数据训练模型,而后将伪标签数据与标签数据相结合扩大数据集,共同训练模型。可见,伪标签方法的性能主要依赖于所选择的模型。伪标签方法可分成自训练和多视角训练两大部分,自训练通过获得无标签数据的伪标签从而得到更多训练数据。多视角训练是通过训练多个模型,利用模型间的“分歧”给无标签数据打上伪标签。而Zhu于2002年提出的标签传播算法,无需依赖于任何的分类模型,将图和伪标签相结合,利用样本间的关系建立图模型,通过相似度给无标签节点标记标签[18]。其具备易于实现且复杂度较低的特点,已被广泛应用于虚拟社区挖掘等领域[27]。
在本文中,首先,对深度半监督学习方法进行系统性探讨;其次,从自训练模型和多视角学习的角度,对伪标签方法进行全面解析;然后,重点阐述了一种无需预训练且依赖相似性的基于图结构和伪标签的标签传播方法,并深入分析了其优势;接着,对现有伪标签方法进行了实验对比研究;最后,从无标签数据的适用性、真实数据集中的噪声处理、数据采样的合理性和伪标签方法与其他技术结合应用等方面,总结了该方法存在的问题及未来研究方向。
1 深度半监督学习
深度学习基于数据驱动,但获取大量标注数据成本高昂。深度半监督学习通过少量标注数据与大量无标注数据构建模型,其无标注数据能够揭示数据分布特征,从而更准确地推断不同类别间的决策边界,有助于提升模型性能。
在智能信息技术推广的背景下,机器学习方法在机器学习领域中得到了广泛的研究。其主要分为监督学习、无监督学习和半监督学习。在监督学习中,算法基于标注数据进行学习;无监督学习则通过数据内在结构进行分析;而半监督学习则结合了两者的优势,利用部分标注数据和大量未标注数据进行训练。
半监督学习介于监督学习和无监督学习之间,其核心思想是通过无标签数据来提升模型的泛化能力,以减少对外界交互的依赖,从而更有效地训练模型。与监督学习和无监督学习相比,三者的主要区别在于数据来源。具体而言,半监督学习中同时提供标签数据集Dl={(x1,y1),(x2,y2),…,(xl,yl)}和无标签数据集Du={xl+1,xl+2,…,xl+u},其中无标签数据的数量远超标签数据,即l≪u。半监督学习的目标是利用无标签数据集Du辅助生成预测函数fθ,以获得比仅使用标签数据集Dl更好的性能[28]。
图 1

图1监督学习、半监督学习、无监督学习结构对比
Fig.1的结构对比分析,比较了监督学习、半监督学习和无监督学习之间的关系。
随着智能应用的普及,数据量呈现快速增长态势,而数据标注所需的信息成本却显著提高。例如,在医学影像分析领域,虽然可以获得大量的医院影像资料,但对其中的病变区域进行精确标注,却需要专业的医学专家进行专业判断和标注。同样地,在商品推荐系统中,只有少部分用户愿意主动参与商品信息的标注工作。由此可见,半监督学习方法在实际应用中具有显著的潜力和应用前景。
如何有效利用无标签数据已成为亟待解决的关键问题。虽然不包含标签信息,但无标签数据的分布特征仍能为模型构建提供重要信息。本文通过一个具象的示例进行说明,如图2所示,图中展示了两个数据类别:一个为正方形类,另一个为三角形类。待判别样本恰好位于这两个类别之间,因此在进行类别判断时只能依赖随机猜测。然而,若能够观察到图中无标签数据的分布情况,则可以将该待判别样本归类为正方形类。由此可见,无标签数据不仅保留了数据分布的特征信息,还能为估计不同类别之间的决策边界提供关键参考。
图 2

图2无标签数据效用示例(黑点为无标签数据)
Fig.2Unlabeled data utility example (black dots indicate unlabeled data)****
最早将无标签数据引入半监督学习领域的研究是Self-training方法[29⇓-31],该方法通过利用有标签数据训练模型,进而对无标签数据进行预测,从中筛选出预测结果置信度较高的样本加入标签数据集,不断迭代更新模型直至达到收敛状态。然而,要有效利用无标签数据,必须基于无标签样本所反映的数据分布特征与类别标签之间的关联做出合理假设。目前,主要研究集中在聚类假设(cluster assumption)、平滑假设(smoothing assumption)以及流行假设(manifold assumption)等几个核心方向。
若两个数据属于同一簇,则具有相同的类别标签,即若数据x1和x2位于同一簇,则y1和y2的预测结果应一致[32]。聚类假设亦即低密度分离假设,即决策边界应位于低密度区域。
(2)平滑假设原理:即,位于数据密集区域的两个数据点,它们之间的距离非常接近,因此可以推断它们具有相同的标签信息。具体而言,对于位于数据密集区域的两个数据点,如果它们之间存在连接边,则它们具有相同的标签信息。这一假设在分类任务中表现出显著的效果,但在回归任务中的应用则相对有限。
(3)流行假设:将高维数据映射至低维流形空间中,若两个数据在低维流形中属于同一局部邻域区域,则其应具有相似的类别信息[33]。在该假设下,无标签数据能够使数据空间更加密集,有助于分析局部区域的特征信息,并使决策函数较好地拟合数据。
综上所述,上述三类假设尽管采用了不同的实现方式,但其本质都是基于对样本相似性的考虑。
近年来,深度学习技术在实际应用领域展现出卓越的效果。然而,深度学习模型的训练需要大量高质量的标注数据来支撑。在实际应用场景中,样本标注的成本非常高昂。为此,研究者们将半监督学习方法融入深度学习框架中,发展出一种新型的深度半监督学习技术。
早期的方法通常将有标签数据和无标签数据分开处理,分别用于不同的阶段。首先利用无标签数据进行初始化,接着利用有标签数据进行模型调整。其本质上仍是监督学习的模式。在半监督学习框架下,神经网络需要同时训练有标签样本和无标签样本,以优化其损失函数,从而实现更高效的模型训练。
Loss=Ls+w(t)×Lu
(1)
其中,Ls定义为监督损失,Lu定义为无监督损失,w(t)则表示权重。不同方法之间的主要区别体现在对无监督损失Lu的处理方式上。
2 伪标签
当前,基于一致性正规化的深度半监督学习方法在一定程度上依赖特定区域的数据增强,难以实现其目标。为此,Lee提出了伪标签方法,该方法通过同时利用标签数据和无标签数据进行模型训练[34]。具体而言,在每次权重更新过程中,对每个无标签数据,为其分配具有最大预测概率的标签,随后将标注后的无标签数据整合到标签数据集中,用于模型的进一步训练。本章将从自训练和多视角训练两个方面对伪标签方法进行深入分析。
2.1 自训练
基于预测模型的最可信预测结果,自训练方法标记无标签数据集。该方法通过模型自身生成伪标签,主要包含熵最小化方法、代理标签方法、噪声学生模型方法、自半监督方法和元伪标签方法五种主要类型。具体而言,首先,利用少量标签数据集Dl训练预测模型fθ,随后利用fθ对无标签数据集中的样本xi进行伪标签分配。当模型预测概率超过设定阈值τ时,将数据(x,argmaxfθ(x))添加至标签数据集Dl中,并对剩余无标签数据集进行伪标签分配,重复此过程直至模型无法生成最可信预测结果或所有无标签数据被标记。在实际训练过程中,可采用相对置信度策略,每次训练后对前n个高置信度预测的无标签样本进行标记,并补充至标签数据集Dl。Yalniz等人则将自训练方法应用于ResNet-50模型的训练,首先在带伪标签的无标签图像上进行训练,随后对标签图像进行微调,实验结果表明该方法显著提升了模型的鲁棒性。
2.1.1 熵最小化方法
该方法属于熵正则化范畴,通过促进模型对无标签数据输出具有低熵的预测结果,并将其与监督学习相结合,实现对半监督学习问题的求解。理论研究表明,该方法有助于防止决策边界穿过数据点密集的区域,从而导致对无标签数据的预测具有较低的置信水平[38]。
给定图像数据x∈D,定义f(x)为特定神经网络的输出函数,通过最小化所有概率分布Pf(x)的熵H(Pf(x)),上述方法仅能实现神经网络的预测功能,单独使用存在一定局限性。如果将其作为损失函数,则会导致预测结果退化。Grandvalet和Bengio等人提出了一种从标签数据和无标签数据中学习决策规则的方法,并对熵最小化方法进行了规范化处理[38]。该方法可应用于任何特定的或具有最低熵规范的模型。当生成模型存在参数配置偏差时,熵最小化方法在实现最低熵规范化方面更具优势。最新研究发现,单独使用熵最小化方法难以取得有竞争力的性能,但将其与其他方法相结合,则可获得最先进的结果[39]。
2.1.2 代理标签方法
代理标签是一种模拟无标签数据为伪标签的最基础的方法,其目标是生成代理标签以提升学习效果[34]。该方法通过将有标签数据与无标签数据结合进行监督学习训练,如图3所示,从而实现了对无标签数据的伪标签生成。
图 3

图3代理标签模型
Fig.3Proxy-label model****
对于无标签数据,我们利用相同的模型进行预测,并选择置信度最高的预测结果作为伪标签,即具有最大预测概率的预测。鉴于标签数据与无标签数据的数量存在显著差异,为了维持训练过程的平衡性,我们定义了一个综合损失函数:
Loss=1l∑m=1l∑i=1CLs(yim,fim)+α(t)1u∑m=1u∑i=1CLu(yi'm,fi'm)
(2)
其中,l代表随机梯度下降过程中标签数据的数量,u代表无标签数据的总数,fim表示标签数据的输出类别,yim代表标签数据的真实类别,fi'm代表无标签数据输出的类别,yi'm代表无标签数据的伪标签。α(t)对网络性能产生直接影响,当α(t)取值过大时,标签数据可能会受到干扰;当α(t)取值过小时,将无法有效利用无标签数据。
Shi等致力于确定其最优标签和最优模型参数,并通过系统性地优化迭代训练过程来最小化损失函数[40]。Iscen等人将代理标签方法应用于标签传播,对网络模型进行交替训练,其在标签数据和伪标签数据上的训练过程深入分析了两个不确定性参数:一个是基于输出概率的熵(用于克服预测结果中不平等的置信度问题),另一个是基于每个类别的得分的类种群(用于处理类别间的不平衡问题)[41]。Arazo等人则认为,由于存在确认偏差,单纯依赖伪标签可能会导致模型过度拟合于不正确的标签。同时证明,通过采用混合方式并设定每批最少标签样本数量,可以有效减少上述偏差[42]。
2.1.3 噪声学生模型
基于知识蒸馏的噪声学生模型借鉴了知识蒸馏的思想[43-44],在"教师-学生"框架下运行,如图4所示。其具体工作流程如下:首先,教师EfficientNet模型[45]用于标签数据的训练,并生成伪标签,随后将这些伪标签加入标签数据集。接着,采用规模更大的EfficientNet模型作为学生模型,在扩展的数据集上进行训练。在学生模型的训练阶段,可以引入Dropout和Stochastic Depth等模型噪声。经过多次迭代训练后,学生模型的鲁棒性得到显著提升。此时,学生模型可以作为教师模型,重新对无标签数据进行标注。
图 4

图4噪声学生模型
Fig.4Noisy student model****
Liu等人采用噪声学生模型法进行药物代谢作用的探索,这一方法有助于加速药物发现进程并降低研发成本[46]。Kumar等人则采用该方法进行面部表情识别,该模型能够识别面部不同区域并并使用多级注意机制独立处理,其研究结果表明,与单一模型相比,该方法有助于提升模型性能[47]。
2.1.4 自半监督学习方法
半监督学习(self-supervised semi-supervised learning)通过引入自监督技术,有效解决半监督图像分类问题[48]。在半监督学习方法中,我们设置了四个旋转角度{0°,90°,180°,270°},用于对输入图像进行旋转处理。旋转损失则定义为旋转后图像预测输出的交叉熵损失。对于无标签样本,我们通过人工标注不同旋转角度的伪标签,并将其与标签数据共同参与模型训练,具体过程如图5所示。
图 5

图5自半监督学习模型
Fig.5Self-supervised semi-supervised learning model****
Beyer等将损失分为有监督损失和无监督损失两类,其中监督损失为交叉熵损失,无监督损失则基于自监督技术,包括旋转和样本预测。同时,提出了两种半监督图像分类方法,这些方法有助于解决半监督图像分类问题[48]。
2.1.5 元伪标签方法
在半监督学习过程中,伪标签信息通常由教师模型生成,这在一定程度上限制了其在网络训练中的适应性。为此,Pham等人提出了一种称为元伪标签(meta pseudo labels)的方法,该方法基于“学生-教师”框架(如图6所示)。在该框架中,教师模型通过元学习方法生成代理标签信息,并通过优化学习策略来调整训练目标分布,以促进学生模型的学习效果。尽管这种机制有助于教师模型与学生模型的适应性调整,但其仍难以单独完成对教师模型的系统性训练。因此,在教师模型中,还需采用验证集对标签数据进行系统性训练,以进一步提升模型性能。
图 6

图6元伪标签模型
Fig.6Meta pseudo labels model****
通过在CIFAR-10、SVHN和ImageNet上的实验进一步验证,MPL方法展现了其有效性。在CIFAR10和ImageNet上,引入了额外的无标签数据,并采用Efficient-Net进行训练。实验结果表明,通过采用元伪标签方法,在CIFAR-10上达到了88.6%的准确率,在ImageNet上获得了86.9%的top-1准确率[49]。
自训练方法因其简单性和通用性而具有广泛的应用潜力。例如,在图像分类、语义分割以及目标对象检测等任务中,自训练方法均展现出显著的适用性。然而,其主要缺陷在于无法自我纠正错误(即任何错误的分类结果都会被迅速放大)。相比之下,在理想情况下,多视角训练通过不同视角的相互补充和协作,能够显著提升整体性能。
2.2 多视角训练
多视角训练方法[50-51]也被认为是基于数据分歧的模型训练方法,通过基于不同数据视角训练的模型生成伪标签,可划分为协同训练方法和三体训练方法。与自监督学习不同之处在于,其数据来源具有多个视角,例如图像的颜色信息和纹理信息。多视角训练的基本思想是同时训练多个学习模型,每个模型负责标记无标签样本。其显著优势在于能够充分利用不同数据视角提供的丰富信息,从而提升模型的泛化能力和鲁棒性。
2.2.1 协同训练方法
协同训练方法(co-training)[52]主要通过在两个不同视角上训练两个独立的分类器,分别在标签数据集上训练两个预测函数fθ1和fθ2,如图7所示。在每次迭代中,将fθ1标记的无标签数据集补充至fθ2的训练集,并相互交换数据,重复此过程直至无标签数据用尽或达到预设的最大迭代次数。
图 7

图7协同训练模型
Fig.7Co-training model****
具体过程描述如下:定义两个不同的数据视图空间v1(x)和v2(x),使得输入样本x满足x=(v1,v2)。定义分类模型C1为在数据视图空间v1上进行训练,同时定义分类模型C2为在数据视图空间v2上进行训练。在目标函数设计中,协同训练方法假设定义如下:
其中,H(⋅)表示熵。
在标签数据集上,标准的交叉熵损失可定义为:
其中,H(p,q)表示p和q之间的交叉熵。
在协同训练模型中,两种视角的差异性与互补性是其核心特征。然而,损失函数Lct和Ls仅能确保模型在数据集上的预测结果趋于一致。为了解决这一问题,可以在协同训练模型中强制引入视角差异约束。
研究者Tran等人提出了一种协同训练半监督回归与自适应算法,通过多维度视角的输入数据的增加,结合互相关等技术,用于可见光下的指纹定位。实验结果表明,随着输入数据量的提升,模型的定位精度也随之提高[53]。研究者Díaz等人则提出了一种基于深度神经网络的视觉对象识别联合训练模型,通过引入多层自我监督神经网络作为中间视图输入,视图会因输出的交叉熵正则化而呈现多样性。该模型综合考虑输出的差异性,将协同训练与自我监督学习相结合,可称为差分自我监督共同训练模型(Different Self-Supervised Co-Training Model)。实验结果表明,该方法虽然较为简洁,但在提高模型精度方面具有显著效果[54]。
Lct=H12(C1(v1)+C2(v2))-12(H(C1(v1))+H(C2(v2)))
(3)
Loss=H(y,C1(v1))+H(y,C2(v2))
(4)
2.2.2 三体训练方法
三体训练(tri-training)[55]旨在解决多个视角数据不足的问题。通过自助采样方法获取的三个独立训练集,分别用于训练三个分类模型。这种策略不仅有助于减少自我训练过程中产生的预测偏差,如图8所示。其基本思想是:首先,利用标签数据集分别训练三个预测函数fθ1、fθ2和fθ3。令x表示无标签数据,若其在fθ1和fθ2上的预测结果一致,则认为x具有较高的伪标签自信度和稳定性。此时,将标记好的x添加至fθ3的标签数据集中,并对其进行微调。如果无数据点不再被添加到任何模型的训练集中,训练过程则停止。在整个训练过程中,三个模型会逐渐趋于一致。因此,在训练集上分别进行微调,以确保模型的多样性。根据采用的不同框架,三体训练可以分为多任务三体训练(multi-task tri-training)[56]和交叉视图训练(cross-view training)[57]。
图 8

图8三体训练模型
Fig.8Tri-training model****
多任务三体训练:在神经网络中实施三体训练由于计算开销较大,需要对三个模型中的所有无标签数据进行预测。为了解决这一问题,Ruder和Plank[56]将迁移学习思想引入到半监督学习框架中,提出了多任务三体训练方法。该方法通过使三个模型与各自特定的分类层共享相同的特征提取器,并在联合训练过程中引入正交约束条件,从而有效降低了时间和空间复杂度。值得注意的是,多任务三体训练不再单独对模型进行训练,而是通过共享参数并采用多任务学习机制进行协同训练。值得注意的是,由于各模型作用相同,这种场景属于伪多任务学习框架。
(2)交叉视图训练:Clark等人[58]融合多视角学习与一致性训练,提出了一种交叉视图训练方法。该方法通过共享编码器实现,随后又引入了辅助预测模块,将编码器的表示转换为预测输出。为便于理解,可将其划分为辅助学生模块和初级教师模块,两者具有一致的预测结果。学生预测模块能够从教师模块的预测结果中学习,从而提升编码器生成表示的质量,并有助于优化基于相同共享表示的整体模型。
在目标识别任务中,不同视点下车辆的视觉外观会发生明显变化。针对此问题,Yang等人提出了一种弱监督交叉视图学习模块,该模块用于实现车辆的重识别。该模块仅利用车辆入侵检测系统的特征信息,通过最小化交叉视角特征距离来实现一致特征表示,而无需任何视角标注。该模型在公开的VeRi-776、VehicleID、VRIC和VRAI等数据集上均实现了显著的性能提升[59]。
3 标签传播
基于伪标签的深度半监督学习方案均需利用标签数据进行模型训练,继而对无标签数据进行标注,其计算复杂度相对较高。将伪标签方法与基于图的结构相结合,可有效解决训练模型复杂度高及数据分布形状受限的局限性。本章主要阐述标签传播方法,即为二者融合的深度半监督学习方案,其满足聚类假设和流行假设,即同一簇和同一流行中的数据可能共享相同的标签。通过利用簇的结构特性和节点间的相似性,将标签数据传播至无标签数据,该方法具有运算简便和计算复杂度较低的特点。
3.1 基于图的半监督学习
半监督学习的图论基础假设为:对于每个数据样本xi(包含标签数据和无标签数据),均可描述为图中的一个节点。每条边上的权重则表示节点间的相似度。基于上述理论,图G可以系统性地表示为G(V,E),其中V={x1,x2,…,xn}代表节点集合,E={eij}i,j=1n代表边集合。进一步地,通过邻接矩阵A可以详细描述图的结构特征,其中每个元素Aij为对应两点间的非负权重(可通过相似度度量方法推导得出)。若两个节点之间不存在连接关系,则对应元素Aij设为0。
周志华认为基于图形的半监督学习具有清晰的概念框架,其特性可通过分析相关矩阵运算来明确阐述[60]。然而,该方法的主要缺陷在于存储开销成本较高。在图构建过程中,仅依赖于训练样本集,而对于新数据样本,难以确定其在图中的位置。Yi等人提出了一种自适应的基于图的标签传播模型,旨在解决非负矩阵分解在标签信息利用方面的不足。该模型通过引入局部约束来反映数据的局部结构,并采用迭代优化算法求解目标函数。实验结果表明,该框架在性能方面表现出色[61]。
3.2 基于图和伪标签的标签传播
标签传播主要基于流形假设,即属于同一流形中的数据样本可能共享相同的语义标签。基于此,标签传播通过数据流形结构和节点间相似性,将标签数据的标签信息传播给无标签数据[62]。
首先,基于给定的数据集构建模型,假设该模型为完全图,则节点xi和xj之间边的权重可以表示为:
wij=exp-||xi-xj||2α2
(5)
其中,α是超参数。
标签传播算法基于相邻节点间的标签传递机制,这一过程通过节点间权重的大小来反映其相似程度。当节点间权重越高时,标签的传播概率也随之增加。为此,可以构建概率转移矩阵P,其定义如下:
P=p11p12⋯p1jp21p22⋯p2j⋮⋮⋮pi1pi2⋯pij
(6)
其中,pij表示从节点xi转移到节点xj的概率。
pij=p(i→j)=wij∑k=1nwik
(7)
假设数据集中有Y个类和l个标签样本,则定义一个l×Y的标签数据矩阵Fl:
Fl=f11f12⋯f1jf21f22⋯f2j⋮⋮⋮fi1fi2⋯fij
(8)
其中,第i行对应第i个样本的标签指示向量。具体而言,当第i个样本的类别为Yk时,该向量的第k个元素设为1,其余元素设为0。
为了便于说明,将上述标签数据矩阵表示为Fl=[f1,f2,…,fl]T。
同样对于u个无标签样本定义一个u×Y无标签数据矩阵Fu:
Fu=f11f12⋯f1jf21f22⋯f2j⋮⋮⋮fu1fu2⋯fuj
(9)
值得注意的是,数值的初始值可在[0,1]区间内随机初始化。为了便于说明,可以将上述无标签数据矩阵表示为Fu=[fl+1, fl+2, …, fl+u]^T。
将Fl和Fu合并得到标签向量矩阵F=[Fl:Fu]。
标签传播算法的具体过程如下:
(1)执行传播F=PF;
(2)重置F中前l行标签样本的标签Fl=Fl;
(3)重复步骤(1)、(2)直至F收敛。
上述过程中,步骤(1)具体而言,是将矩阵P与矩阵F进行相乘操作,即为每个节点按照传播概率将周围节点的标注值按权重相加,并更新自身的概率分布。在欧式空间中,两个节点的相似程度越高,彼此的伪标签越容易受到影响。对于步骤(2),由于标签数据的初始标签是预先设定的,在每次传播之后,需要将节点的伪标签回归其初始设定。随着标签数据不断将标签传播出去,最终的分类边界会穿过高密度区域,而稳定在低密度的间隙位置。
在每一次迭代的过程中,需要计算F=[Fl:Fu]。因为Fl已知,同时需要恢复初始值,而Fu则为最终结果。因此,矩阵P可以表示为:
P=PllPluPulPuu
(10)
Fu计算方式可表示为:
Fu←PuuFu+PulFl
(11)
重复此步骤直至收敛。
近年来,社交媒体已广泛应用于各个领域,其中影响传播最大化问题(Influence Propagation Maximization Problem,IM)已成为社会网络分析研究的重要议题。Kumar等研究者提出了一种基于节点播种策略、标签传播技术和社团检测的系统化影响最大化算法,该方法通过扩展h指数中心性检测种子节点,并利用标签传播技术识别社群[63]。传统标签传播方法存在不足,即无法有效地融合节点属性与标签信息,且在大规模网络中收敛速度较慢。为此,Xie等学者提出了一种基于图结构数据的可扩展半监督节点分类方法(简称GraphHop)[64],该方法通过设定适当的初始标签嵌入向量构建模型。该模型主要包含标签聚合与标签更新两个核心模块:在标签聚合阶段,每个节点将上一轮迭代中相邻节点的标签向量进行综合;在标签更新阶段,利用节点的邻域信息,结合自身标签及所获取的聚合标签信息,预测新的标签向量。实验结果表明该方法在不同规模的网络中均展现出较好的性能。王俊斌对标签传播算法进行了扩展,提出了一种基于成对约束的标签传播算法,该方法将先验知识存储于成对关系矩阵中,并通过比较约束关系与聚类结果之间的差异来替代传统的划分矩阵差异。此外,该研究者还创新性地将标签传播算法的最优化问题转化为谱聚类问题,并通过特征值分解方法实现了模型的求解[65]。
4 实验分析
本章将阐述不同半监督学习中的伪标签方法所基于的数据集,并对各类伪标签方法进行实验分析和对比。
4.1 实验数据集介绍
在实验分析过程中,本文主要基于UCI(University of California, Irvine)数据集和图像数据集展开实验对比分析。UCI数据集包括Iris、Cmc(避孕方法选择)和Iono(电离层)等子集,具体信息见表1。实验过程中,为确保结果的有效性,对每个数据集均进行了归一化处理,并将数据集划分为训练集和验证集。在半监督学习中,训练集中10%的数据被标记,采用分层采样策略对各类别进行数据增强。
表****1****实验中使用的UCI数据集
Table 1 UCI datasets used in experiment
| 数据集 | 节点(样本) | 特征 | 类别 | 类别分布 |
|---|---|---|---|---|
| Iris | 150 | 4 | 3 | 50,50,50 |
| Cmc | 1 473 | 9 | 3 | 629,333,511 |
| Iono | 351 | 34 | 2 | 225,126 |
新窗口打开**|下载CSV**
该图像数据集主要包含ILSVRC-2012数据集[66](常用于自监督训练)、CIFAR-10数据集(常用于多视角训练)和CIFAR-100数据集[67](常用于多视角训练)。
ILSVRC-2012是ImageNet的一个子集,包含1,000个图像类别。其中,训练集中共有120万张图像,验证集和测试集总计约15万张图像。鉴于类别数量较多,通常将分类精度设定为Top-1和Top-5。Top-1准确度是指预测结果与真实标签完全匹配的比率,而Top-5准确性则是指基本真实标签是否包含在最多5个预测结果之中。本研究实验中使用了仅10%标签进行训练的Top-1准确度评估。
CIFAR-10和CIFAR-100是容量庞大的32×32分辨率彩色自然图像数据集,其中CIFAR-10涵盖10个类别和100个类别。该数据集分别采用了5万张图像用于训练以及1万张图像用于测试。在实验过程中,我们从CIFAR-10的训练集中随机选取了4 000张图像作为有标签数据,剩余的图像则作为无标签数据;而对于CIFAR-100,则随机挑选了10 000张图像作为有标签数据,其余的图像则作为无标签数据。
4.2 实验结果分析
为了深入分析现有的伪标签方法,本文在图像数据集和UCI数据集上分别进行了实验,具体结果展示在表2和表3中。其中,图像数据集中的CIARF-10和CIFAR-100这两种数据集尚未在自训练模型实验中得到广泛应用。鉴于此,为确保实验的公平性和一致性,自训练模型仍然主要采用ILSVRC-2012作为基准数据集。
表****2****伪标签方法在不同图像数据集上实验结果
实验结果表2展示了伪标签方法在不同图像数据集上的实验结果
| 方法 | CIFAR-10 | CIFAR-100 | ILSVRC-2012 |
|---|---|---|---|
| 熵最小化 | 86.41 | — | 83.39 |
| 代理标签 | — | — | 82.41 |
| 噪声学生 | — | — | 88.39 |
| 元伪标签 | 88.62 | — | 90.20 |
| 自半监督 | — | — | 91.23 |
| 协同训练 | 90.97 | 65.37 | — |
| 三体训练 | 91.55 | 70.26 | — |
新窗口打开**|下载CSV**
表****3****伪标签方法在不同UCI数据集上实验结果
Table 3 Performance outcomes of pseudo-labeling-based approach across diverse UCI benchmark datasets
| 方法 | Iris | Cmc | Ionosphere |
|---|---|---|---|
| 协同训练 | 75.21 | 32.33 | 63.82 |
| 三体训练 | 80.03 | 35.92 | 64.13 |
| 标签传播 | 85.02 | 40.95 | 67.65 |
新窗口打开**|下载CSV**
表2系统性展示了图像数据集上不同方法的实验结果对比,其中自半监督体系在各测试集上均展现出最佳的准确率水平。该体系作为一种混合型半监督学习框架,将自监督旋转预测机制、VAT(虚拟对抗训练)、交叉熵损失函数及微调过程有机整合到一个包含多阶段训练的统一框架中[48]。值得注意的是,该体系采用了分层损失函数设计,其中监督分支采用交叉熵损失,而无监督分支则创新性地引入了旋转预测和伪样本自监督技术。从实验结果可见,半监督学习中的伪标签方法仍存在较大提升空间。进一步分析发现,当数据样本类别数量增加时,模型的预测不确定性显著提升,导致分类精度相应下降。在相同的数据集上,三体训练方法较协同训练方法表现出更优的性能提升效果,这一优势源于三体训练方法同时融合了半监督学习与集成学习机制,从而显著提升了整体学习效能。综上所述,随着半监督学习方法的不断优化,模型识别系统的准确率持续提升。然而,架构复杂度的增加可能对模型的预测精度带来一定的滞后效应。
表3系统阐述了在三个不同UCI数据集上,协同学员、三体协同和标签传播方法在kNN(k=10)上的实验结果。为了更好地区分实验结果的差异,采用了十折交叉验证法。实验结果表明,标签传播方法在性能上优于其他两种方法。模型的训练效果与数据分布直接相关,标签传播基于流行假设(即同一流形中的数据样本很可能共享相同的语义标签)进行操作,从而能够获得较好的实验效果。协同学员要求数据能够从不同角度提取特征,即使用同一份数据构建两个分类器,然而现实数据中往往缺乏多维度视角。三体协同则有效解决了协同学员缺乏多视角数据的问题,相较于协同学员,其在UCI数据集和图像数据集上的性能表现更为突出。需要注意的是,基于图的标签传播方法在整合节点属性方面存在不足,且具有较强的随机性,导致实验结果不够稳定。未来的研究工作可以进一步探讨这一问题。
5 问题与挑战
鉴于基于伪标签的深度半监督学习已显示出显著的理论和应用成果,但仍存在潜在的研究挑战需要进一步探索。
在半监督学习框架下,无标签数据被认为具有重要价值,特别是在标签数据稀缺的情况下,这一观点被广泛认可。值得注意的是,无标签数据的效能仅在适当的前提条件下得以体现,一些研究文献[68-69]指出,无标签数据在某些情况下可能导致性能退化。现有的基于伪标签的深度半监督学习方法主要通过无标签数据生成约束,与标签数据共同更新模型。在实际应用中,通常会采用平衡因子来权衡监督与无监督损失,使所有无标签数据等价对待。然而,不同场景下,无标签数据的实际适用性可能存在差异,因此,如何科学确定无标签数据的权重问题值得深入探讨。
(2)噪声数据:本文假设所使用的标签数据是准确的,从而能够有效学习标准的交叉熵损失函数。然而,在现实数据集中,标签数据往往包含噪声,在训练过程中,数据集可能会受到噪声的影响。为提升基于图的半监督学习模型的性能,我们引入了一种基于稀疏编码的L1范数形式的Laplacian正则化项[70]。从记忆效应的角度出发,我们提出了协同训练与平均教师模型的结合学习策略。此外,我们还可以通过数据预处理技术,有效降低噪声数据带来的性能损失[71]。
在标签传播方法中,现有研究主要采用有放回的取样方式,这意味着在后续采样过程中,某些样本可能再次被选中,这可能导致所采集的样本集合无法充分代表整体数据集,从而影响该方法的合理性。通过计算分析得出,约有36.8%的样本在采集数据集中并未出现[63]。在此基础上,未来研究可以聚焦于群优化技术,群优化的核心价值在于探索个体与总体之间的冲突条件,以及在满足一定条件下寻求一致结果的可能性,从而进一步提升数据采样的合理性。
在调查过程中,我们发现,一些常规方法与伪标签方法结合在一起,往往能够产生显著的效果。第3章对此进行了详细说明。然而,目前,仅有一小部分方法与伪标签方法实现了结合,而科学的组合策略有助于进一步提升模型性能。因此,不同思想的结合与融合策略,成为一个值得深入研究的未来研究方向。
6 结束语
本文首先阐述深度半监督学习的基本概念。通过分析半监督损失函数及其显著特征,该研究将学习方法划分为生成式方法、一致性正则化方法、基于图的方法、伪标签方法以及混合方法。研究以伪标签方法作为切入点,详细探讨其工作原理。该方法通过在标签数据上训练模型,利用生成的伪标签对无标签数据进行分类,随后将新增的伪标签数据补充至训练集。针对伪标签方法需要先进行模型预训练的问题,研究引入了基于图的标签传播方法,该方法无需经过预训练模型即可生成伪标签。进一步地,研究阐述了标签传播方法的核心思想,即利用数据的分布特征及其内在关联(如样本间的相似性),对无标签数据进行标记。最后,研究总结了伪标签学习过程中存在的主要问题,并对未来研究方向进行了展望。
