半监督学习
半监督学习(Semi-Supervised Learning, SSL)是模式识别和机器学习领域的重要研究方向,结合了监督学习和无监督学习的优势。其核心是利用少量标注样本和大量未标注样本提升学习性能。主要假设包括平滑假设、聚类假设和流形假设,分别从数据分布、类别标签和局部结构的角度对未标记样本进行建模。半监督学习可细化为半监督分类、回归、聚类和降维等方法,并结合主动学习和直推学习等技术。这些方法在不同场景下各有侧重,广泛应用于分类、回归、聚类和降维任务中。
简介
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的核心问题,是监督学习与无监督学习的融合方法。
半监督学习:使学习器能够独立于人工交互,通过自动利用未标记的数据来提升学习性能。

该方法主要关注如何利用少量标注样本和大量未标注样本进行训练与分类的问题。主要包含半监督分类、半监督回归、半监督聚类以及半监督降维等算法。
2.基本假设
为了有效利用未标记样本,必须建立某种与类别标记之间的关联机制,以反映这些样本所揭示的数据分布特征。
平滑性假设(Smoothness Assumption):在稠密数据区域中,两个相邻的样例具有相似的类别标签,即当两个样例在稠密区域中被连接时,它们在很大程度上具有相同的类别标签;相反地,当两个样例被稀疏区域分开时,它们的类别标签趋于不同。
聚类假设(Cluster Assumption):如果两个样例被聚类簇所包含,那么它们在较高的概率下具有相同的类别标签。这一假设的等价表述为低敏感度分离假设(Low Sensitivity Separation Assumption),其核心含义是分类决策边界应穿过数据稀疏区域,从而避免将密集区域的样本分布在决策边界的不同一侧。
聚类假设即为当样本数据间的距离相互接近时,这些样本数据则属于同一类别。基于这一假设,分类边界必须尽量经过数据较为疏松的区域,以尽量避免将密集的样本数据点分配至分类边界两侧。
如Joachims所提出的转导支持向量机算法,在其训练过程中,持续优化着分类超平面,通过交换未标记样本在超平面两侧的标签,使得分类边界在所有训练样本上实现最大间隔。这种策略不仅能够有效识别数据分布的稀疏区域,同时在所有有标记样本的分类超平面上实现准确划分。
流形假设原理(Manifold Assumption)指出,通过将高维数据映射至低维流形空间中,使得位于流形局部邻域内的两个样本其类标签保持高度一致性。
流形假设,假设数据分布在一个流形结构上,相邻样本的输出值具有相似性,相邻样本通常通过相似度来度量。流形假设可以视为聚类假设的一种扩展。
流形假设的核心内容是:在同一个局部邻域内,样本数据呈现出相似的特征,因此其对应的标记也应当保持一致。这一假设直接反映了决策函数的局部平滑特性。
与聚类假设的核心区别在于,聚类假设侧重于数据整体分布的特征分析,而流形假设则特别关注数据局部结构的特性。基于流形假设,未标记样本的数据分布能够显著提升数据空间的密集度,从而为深入解析局部区域的特征提供了有力支持,同时使决策函数的拟合过程更加完善。值得注意的是,在一定程度上,流形假设也可以直接融入半监督学习算法中。
例如,Zhu 等人基于高斯随机场与调和函数的结合进行半监督学习,首先,基于训练样本数据构建图结构,其中每个节点代表一个样本;接着,在流形假设下,通过决策函数的最优解的求取,获得未标记样本的最优标记。Zhou 等人则基于样本数据间的相似性构建图,随后,通过图中边的传播机制,使标记信息在邻近样本间传播,直至图模型达到全局稳定状态。
流型假设不受限制于输出值,相比聚类假设而言,其适用范围更为广泛,可用于更为多样的学习任务类型。
从本质上讲,这三类假设具有相同性,相同类别的样本表现出相似的输出特征,它们的关注重点各有侧重。其中,流行假设具有更广泛的适用性。
3.半监督学习细化
半监督学习可分为纯半监督学习和直推学习。在纯半监督学习中,假设未标记样本不属于待预测数据集,而直推学习则假设未标记样本即为待预测数据。学习的目标在于通过这些未标记样本实现最优泛化性能。
纯半监督学习建立在"开放世界环境"假设下,旨在使学得的模型能够适用于训练过程中未被观测到的数据;直推学习则基于"封闭世界假设",仅专注于对学习过程中已标记数据的预测。

主动学习:在某些情况下,标注数据类别间的样本分布存在较大差异,而未标注数据则极为丰富。然而,人工标注数据的费用很高。因此,学习算法可以通过主动学习,实现主动学习算法会,系统会自动选择一些待标注的数据样本,由人工标注专家进行标注。研究目标是通过尽可能少的标注查询,实现学习性能的显著提升。
这个筛选过程主要研究的是主动学习的核心内容。如何优化数据筛选策略,既能最大限度地减少标注请求的数量,又能尽可能地提升最终结果的质量。
其基本流程如下:首先,我们从一个初始可能为空的标注完成数据集K和一个未标注的数据集U开始。基于K的数据信息,系统会识别U中的关键样本集C,并主动提出对该子集进行标注请求。专家团队负责对C进行标注,并待其完成整合回K后,系统会自动进行下一轮的迭代学习。
按照Wiki百科的描述,主动学习确实属于半监督学习的范畴。然而,它们的核心思想存在差异。半监督学习和直推学习(Transductive Learning)以及主动学习,都基于未标记数据的学习方法,但其基本思想和具体实现策略却各有不同。
如上所述,主动学习中的“主动”,指的是主动发起标注请求,即,仍需要一个外在的能够对其请求进行标注的实体(通常就是相关领域专家),即,主动学习是一种交互进行的过程。
而半监督学习,特别指的是不需要人工干预的学习算法,通过自身对未标记数据加以利用。
4.从不同的学习场景看,SSL可分为四大类
半监督分类(Semi-Supervised Classification)是一种利用无类标签样例训练有类标签样本的技术,其通过提升基于有类标签样本训练分类器的性能,有效弥补仅依赖有类标签样本训练所带来的性能损失。该方法特别适用于类标签数量有限的情况,其中类标签取值为有限的离散值。
具体的有:自监督学习(Self-Supervised Learning)、基于实例的分类(Instance-Based Classification)、生成式模型(Generative Model)、基于分歧的策略(Disagreement-Based Strategy)、生成式技术(Generative Technologies)、判别式分析(Discriminative Analysis)和基于图的建模(Graph-Based Modeling)等,
半监督回归**(Semi-Supervised Regression):通过辅助无输出样本训练有输出样本,提升回归器的性能,其中输出为连续值**。
具体的主要有:基于差异的方法和基于流形学习的方法。
半监督聚类(Semi-Supervised Clustering)是一种通过类别标签信息辅助,使得在处理未标注数据时所获得的簇更精确,从而提升聚类方法的性能。
主要有:基于距离的方法和大间隔方法。
半监督降维**(Semi-Supervised Dimensionality Reduction):基于带类标签的样本信息,通过指导学习的方式,实现高维输入数据的低维结构提取。该方法旨在保持原始高维数据及其成对约束的结构特性不变,即在高维空间中满足正约束(Must-Link Constraints)的样例在低维空间中具有较近的距离,在高维空间中满足负约束(Cannot-Link Constraints)**的样例在低维空间中具有较远的距离。
主要方法有:基于类标签的方法、基于成对约束的方法及其它方法等。
