Advertisement

机器学习-算法-半监督学习:半监督学习(Semi-supervised Learning)算法

阅读量:

半监督学习(Semi-supervised Learning)是一种算法

  • 一、半监督学习算法的发展背景

    • 1、有监督学习方法
      • 2、无 supervision 学习方法
      • 3、基于有 supervision 的 学习 特征选择 技术
      • 4、基于无 supervision 的 学习 特征选择 技术
      • 5、问题提出阶段
  • 第二章 学术名词区分

  • 第一节 主动型参与者(active participation)

  • 第二节 归纳法(inference method)

  • 第三节 直接推理法(direct reasoning)

  • 第四节 监督模式与半监控模式的区别在于...

    • 监督模式是指...
    • 半监控模式则侧重于...
  • 第五节 基于归纳的半监控(induction-based semi-supervised)

  • 第六节 基于直推式的(semisupervised transductive)

  • 三、半监督学习的核心依据

    • 1、数据分布的平滑性(smoothness property)
    • 2、数据集内在聚类趋势(clustering tendency)
    • 3、流型学习框架(manifold learning framework)
  • 四、半监督学习算法的主要分类方法

      • 第一部分:生成型模型(Generative Model)/Expectation Maximization Algorithm(EM算法)
        • 4.1 生成型模型与判别型模型
        • 4.2 基于高斯混合分布的概率密度函数
        • 4.3 参数求解过程
  • 2、基于低密度分割的方法(Low-density Separation):self-supervised learning

    • 2.1 self-supervised学习过程
    • 2.2 self-supervised学习中的损失函数
  • 3、Transductive Support Vector Machines - 聚类假设

    • 4、先进行聚类然后进行标注算法
      • 4.1 平滑性假设
    • 4.2 先进行聚类然后进行标注算法
  • 5、基于图形的方法(Graph-Based Method)

    • 5.1 构建图形结构(Graph Construction)

    • 5.2 确保标签在图中的平滑性(Smoothness of the labels on the graph)

      • 6、协同训练(Co-training)
  • 第五节 半监督学习算法的应用实例

    • 第一节 ①语音识别技术(Speech Recognition Technology)
      • 第二节 ②文本分类问题(Text Categorization Issues)
        • 第三节 ③语义解析任务(Parsing Tasks)
          • 第四节 ④视频监控系统(Video Surveillance Systems)
            • 第五节 ⑤蛋白质结构预测任务(Protein Structure Prediction Tasks)
  • 六、半监督学习中待研究的问题

    • 1、在无标签数据的有效利用方面存在诸多挑战。
    • 2、针对海量未标注数据的高效率处理问题进行深入研究。
    • 3、在特征选择的有效性评估方面仍需进一步探讨。

一、半监督学习算法提出的背景

1、监督学习算法

  • 监督学习:数据集不仅包含输入样本还包含对应的目标值。
    监督学习的主要目的是通过分析现有数据建立模型以实现对新输入的数据进行分类或回归的任务。
    其核心在于通过已有数据建立模型来实现对新输入的数据进行分类或回归的任务。
    因此,在机器学习领域中,监督学习是最为成熟和广泛应用的学习范式之一。
在这里插入图片描述

2、无监督学习算法

  • 无监督学习 *:主要依赖于训练数据的内在数据特征以及样本间的相互关系来进行分类或降维处理。- 因此,在实际应用中,无监督学习通常被用来实现数据的聚类分析以及降维处理。其中一些经典的算法主要包括均值漂移聚类方法和主成分分析技术等。
在这里插入图片描述

3、监督学习的特征选择方法

  • 监督学习中的主要依赖于基于样本特性和标签之间相关性的评估来排列顺序。
  • 尽管基于监督学习的方法能够筛选出能够区分不同类别标记样本的关键特征子集[1] ,但这类方法的表现往往依赖于是否拥有充足且高质量的有标记训练数据。

4、无监督学习的特征选择方法

  • 基于训练样本的数据分布特性(包括了数据分布的主要方面)来评估特征之间的关联程度,并且主要依赖于统计信息。
    • 在缺乏样本标签的情况下,在进行无监督学习时难以有效提取出具有代表性的特征。这会导致模型在进行判别时完全依赖于数据自身的特性,并且会显得相对不够智能。

5、问题的提出

在许多实际应用中,标注样本与未标注样本往往共存,并且未标注样本数量较多,在这种情况下相对而言标注样本数量则较少。
标记数据工作量较大。假设我们拥有100万张狗的照片,并希望将这些图像输入分类算法以识别是否包含波士顿犬,则必须有人工干预逐张图像进行标注。
标记工作成本高昂。原因之一在于:为了人工从一百万张狗的照片中寻找波士顿犬的例子,可能需要花费大量资金。
虽然充足的标注数据能够显著提升模型性能,但标注过程往往十分困难:因为获取准确标注可能需要依赖专业人员的知识、先进设备以及大量时间投入。
相比之下,在数据收集方面对于大量未标注数据的获取较为容易,并且这些未标注数据无需人工干预即可广泛采集。然而,在现有条件下现有监督学习算法无法有效利用这些未标注数据。
现有的无监督学习算法虽然能够处理大量未标注数据集,但在现有条件下其泛化能力却较差。
当面对少量的有标定训练样本时如何最大化利用这些未标定训练样本来提升模型性能已成为机器学习及其应用领域中的一个重要研究方向。
针对上述问题众多研究者进行了深入探讨:他们提出了一种可以在训练过程中同时利用有标定和无标定训练样本来提高模型性能的方法论——半监督学习方法。

在这里插入图片描述

二、学术名词区分

  • 主动的学习方法(active learning)
    • 归纳式的学习方式(inductive learning)
    • 监督的学习方法(supervised learning)
    • 半监督的学习方法(semi-supervised learning)
    • 无监督的学习方法(unsupervised learning)
    • 直推式的推理模式(transductive learning)

1、主动学习(active learning)

  • 主动学习是一种:在同类标数据较为稀缺的情况下,则相对容易获得未标记数据;然而由于人工标注往往成本高昂,在这种背景下,
    学习算法则可选择性地提出样本选取请求,
    算法则可选择性地提出样本选取请求,
    以便让专家能够对这些被选中的样本进行详细标注。
    因此必须依赖于外界专业人员来完成这一任务,
    即我们可以认为该过程本质上是一种交互式的机制。
    这一采样过程正是主动学习的主要研究方向。

2、归纳式学习(inductive learning)

Induction represents the process of inferring general principles from training examples, which are then used for testing new instances.

*从...来看, 归纳式学习是指从训练样本中提取规律并将其应用于测试样本. 监督学习是一种基于规则的学习模式.

3、直推式学习(transductive learning)

Transduction is a form of inference derived from observable training examples, specifically applied to test instances.

直推式学习采用的是直接利用训练样本与测试样本进行模型训练,并在随后的过程中通过多组测试样本对模型性能进行全面评估

4、监督学习、半监督归纳式学习、半监督直推式学习区别

在这里插入图片描述
  • 假设:整个数据集包含两个样本类别,在这里我们将其划分为有标签的数据集 D_{Labeled} 和无标签的数据集 D_{Unlabeled} ,其中无标签数据集的大小远大于有标签数据集(即 C_{D_{Unlabeled}}≫C_{D_{Labeled}} ):D_{Labeled}=\{\textbf{X}_{train},\textbf{y}_{train}\}D_{Unlabeled}=\{\textbf{X}_{unknown},\textbf{X}_{test}\}
  • 监督学习 :当测试集中的样本 \textbf{X}_{test} 未出现在训练数据集中时(即 \textbf{X}_{test} \notin D_{train}),这种情形属于 监督学习(亦称归纳式学习)。
  • 半监督归纳式 (Inductive) 学习 :如果训练集合不仅包含有标签的数据 \{\textbf{X}_{train},\textbf{y}_{train}\} ,还包括一些无标签的数据 \textbf{X}_{unknown} ,并且满足条件 \textbf{X}_{unknown}≠\textbf{X}_{test}(即无标签测试集与无标签训练集不完全相同),则这种情形属于 半监督归纳式 (Inductive) 学习
  • 半监督直推式 (Transductive) 学习 :如果训练集合包含有标签数据 \{\textbf{X}_{train},\textbf{y}_{train}\} 和无标签数据 \{\textbf{X}_{unknown}\} ,其中 \textbf{X}_{unknown} = \{\textbf{X}_{test}\} ,并且模型的学习目标仅限于利用这些无标签数据进行分类任务,则这种情形被称为 半监督直推式 (Transductive) 学习

5、半监督归纳式(induction)学习

  • 归纳式半监督算法不仅利用了有标注数据集 D=\{\textbf{X}_{train},\textbf{y}_{train}\} 以及无标注数据集 \textbf{X}_{unknown} ,还采用了独立测试集 \textbf{X}_{test} 作为验证指标。
  • 归纳式半监督算法具备处理整个样本空间的能力。
  • 在归纳式半监督框架下 ,学习器能够在有标注数据以及未标注数据上进行联合学习以提升性能。
  • 该模型不仅能够推断出训练集未标记实例的类别信息 ,还可以直接推断新测试实例的真实类别信息 。
  • 归纳学习旨在通过分析一组已标注的数据点 ,构建一个能在未知区域进行预测的通用模型 。在此过程中 ,您还可以利用该模型对未标记区域中的所有未知点进行分类推断 。
  • 半监督归纳式学习的具体流程如下:
在这里插入图片描述

6、半监督直推式(transductive)学习

  • 直推式半监督学习仅包含有标记样本集合 D=\{\textbf{X}_{train},\textbf{y}_{train}\} 和未标记样本集合 \textbf{X}_{unknown}
    • 直推式半监督算法将未标记样本 \textbf{X}_{unknown} 作为测试集使用,并在此基础上结合有标记数据 \textbf{X}_{train} 和未标记数据 \textbf{X}_{unknown} 进行模型训练。
    • 因此该方法仅适用于现有未标记数据(测试集),无法直接扩展至外部样本。
    • 直推式学习不具备建立预测模型的能力。针对新的测试样本,在直推式半监督框架下需重新训练模型才能进行预测。
    • 直推式学习通过构建一个适合训练与测试数据的知识模型来预测未标记数据的标签信息。
在这里插入图片描述

三、半监督学习的基本假设

因为标注数据有限,在机器学习中难以有效利用大量未标注的数据资源。为此半监督学习方法需要引入合理的半监督假设以建立学习模型与未标注数据之间的关联关系。研究表明:半监督学习方法的效果显著依赖于所采用的半监督假设!当前大多数机器学习技术均基于独立同分布(Independent and Identically Distributed, i.i.d.)假设的前提条件即认为数据样本是从同一分布中独立采样的。在监督学习框架下为了使算法具有良好的泛化能力通常会采用平滑性(smoothness)假设这一核心理念即相似或相邻的样本点其对应的标记应当保持一致性。而在半监督学习场景下这种平滑性假设有两种典型的表现形式即聚类性(cluster)假说与流型性(manifold)假说。半监督算法的有效运行依赖于数据结构不变的前提条件如果这一前提条件不成立即使拥有有限数量的训练样例也难以实现对无限未知测试集的有效推广具体而言主要涉及以下三个关键假说:平滑性假说、聚类性假说以及流型性假说等三种基本概念在半监督学习领域具有重要的理论支撑作用

1、平滑假设(smoothness assumption)

  • 若两个样本 x_1,x_2 相似,则其对应的输出 y_1,y_2 也应当如此。
  • 这表明,在两个输入属于同一类并且位于同一簇的情况下,则它们相应的输出需要具有相近性。
  • 亦即,相似或相邻的样本点的标记应当一致。

2、聚类假设(cluster assumption)

  • 聚类假设被定义为 同一聚类内的样本点很可能具有相同的类别标记
    • 该假设可以通过另一种表达方式进行阐述:即 决策边界所穿过的空间应属于数据点较为稀疏的区域 ,因为如果决策边界穿过了数据点较为密集的区域,则可能会将同一聚类中的不同样本划分为不同的类别这一情形与聚类假设相悖。
    • 聚类假设注重于分析整个 样本空间 的特征特性,在这一过程中通过大量无标签样本来探测出分布稠密与稀疏的空间区域,并以此来更好地约束决策边界的位置。
    • 基于上述假设有之的半监督学习算法通常会规定决策边界必须位于样本分布稀疏的空间中,并且要求其尽可能地扩大不同聚类簇之间的类别间距。
    • 研究表明,在运用无标签样本来约束目标函数的过程中,基于所述假设有之的学习算法不仅可以优化有标签样例之间的间距分布而且也能实现对无标签样例的有效优化

3、流型假设(maniford assumption)

  • 流型假设体现存在于高维空间的数据呈现出某种低维度特征。
    • 另一种表述类似于:"在极小局部邻域内的示例具有相似属性"。
    • 在高维空间中的一些数据表现出某种低维度特征,在三维空间中卷曲的一个二维纸带模型显示了这种现象;另一方面,在全局计算距离度量时由于维度过高导致信息不足或区分能力差。
    • 核心观点是认为样本的空间结构主要由其局部性质所决定,并通过增加无标签样本的数量来提升对这些区域密集性的估计。
    • 基于流形假设的设计方法其基本原理是在将数据嵌入到低维度流形后确保决策边界在此区域内平滑过渡。

四、半监督学习算法的主要方法

  • 半监督学习:借助少量样本的标注信息,在有限 labeled 样本的基础上充分运用大量 unlabeled 样本提升模型性能,并从而避免了仅依赖少量 labeled 样本导致的传统监督方法泛化能力不足的问题以及完全依赖 unlabeled 样本可能导致的传统无监督方法因缺乏指导而难以获得准确结果的风险。

  • 鉴于其能够有效结合 labeled 和 unlabeled 数据的优势,在过去几年里半监督学习已经成为机器学习领域的重要研究方向,并广泛应用于图像识别、自然语言处理以及生物数据分析等多个领域。

  • 按照不同的应用场景与研究重点, 现有的半监督学习算法主要包含以下几类:

    1. 半监督分类
    2. 半 supervision 回归
    3. 半 supervision 聚类
    4. 半 supervision 维度约减
  • 其中,半监督分类 是半监督学习中研究最多关注的重点问题。

    • 半监督学习的主要目标在于利用大量无标签样本的数据分布信息来提高仅使用少量有标签样本的学习效果。

1、生成式模型(Generative Model)/最大期望法(EM算法)

  • Expectation-Maximization (EM)算法与Naive Bayes Algorithm share a common mathematical theory foundation.
    • The Expectation-Maximization algorithm is an iterative optimization method based on the Maximum Likelihood Principle, specifically designed to address parameter estimation problems in datasets with missing values. It represents an early approach in the category of semi-supervised learning methods.
在这里插入图片描述

1.1 生成模型与判别模型

  • 判别式学习对条件概率建模
在这里插入图片描述
  • 生成式学习对联合概率建模
在这里插入图片描述

基于生成式的假定, 样本数据遵循某一潜在的概率分布(模型具有较强的泛化能力), 需具备充分可靠的知识基础.

1.2 高斯混合模型的似然函数

  • 高斯混合模型的概率密度函数
在这里插入图片描述
  • 采用最大后验概率预测 \pmb{x} 的标记, \mathcal Y=\{1, 2, \cdots, K\},则
在这里插入图片描述

式中

  • 若类簇与真实类别一一对应,标记样本 \pmb{x} ∈ D_l ,仅属于特定簇,则
在这里插入图片描述

在上式中,在 i = k 的情况下,在概率 p(y=k | θ_i, \pmb{x}) 等于1;其他情况下则等于0. 对于无标记样本 \pmb{x} ∈ D_u ,它们可能属于任一类簇,则

在这里插入图片描述
  • 对数似然函数
在这里插入图片描述

1.3 参数估计

  • GMM的参数估计使用EM算法,即
在这里插入图片描述
  • 其中隐变量期望,或者样本 \pmb{x}_j 属于第 k 个分布的概率,即E步
在这里插入图片描述
  • N_k 表示第 k 类有标记的样本数,M步
在这里插入图片描述

2、低密度分割算法(Low-density Separation):自训练(Self-training)

在这里插入图片描述

2.1 Self-training步骤

在概念层面上,自训练的工作原理如下:

步骤1:将标记的数据实例划分为训练集与测试集,并基于标记的训练数据学习一个分类算法。
步骤2:利用经过学习的分类器对所有未标记数据实例进行类标签预测,在这些预测得到的标签中表现最佳者可被视为"伪标签"。
(第二步的变化:a)所有预测得到的标签均可同时作为"伪标签"加以使用而不必考虑其概率值;或者b)"伪标签"数据可通过预测结果的信任度进行加权处理。)

  1. 步骤3:将假标签数据与真实标注的训练数据结合起来,在整合后的假标签和真实标注训练数据上再进行一次训练。
  2. 步骤4:利用已经培训好的分类器对已标注测试数据实例进行类别标签预测,并根据所选度量评估其性能表现如何。
    (可以重复以上两步直到第二步中预测出的类别标签不再满足特定的概率阈值要求;或者当剩余未标注的数据样本耗尽时停止操作。)
在这里插入图片描述
在这里插入图片描述

2.2 Self-training损失函数

在这里插入图片描述
在这里插入图片描述

3、转导支持向量机(Transductive Support Vector Machines)-聚类假设

  • 遵循最大间隔标准的半监督支持向量机算法
  • 半监督支持向量机通过调整有标签与无标签样本至决策边界最近的位置,并跨越能够有效区分有标签样本的区域。

4、先聚类后标注算法(Cluster and then Label)

4.1 Smoothness Assumption

  • Assumption: “similar” x has the same \hat{y}.
  • More precisely:
    • The distribution of x is non-uniform.
    • Within a high-density region, if two points x^1 and x^2 are close, their corresponding estimates \hat{y}^1 and \hat{y}^2 will be identical.
在这里插入图片描述

4.2 Cluster and then Label

在这里插入图片描述

5、基于图的方法(Graph-Based Approach)

  • 流行假设-直推式
    • 基于manifold假设的一类半监督学习方法要求决策边界在数据嵌入其中的low-dimensional manifold上保持稳定的变化趋势。
    • 在真实训练样本所呈现的数据分布特性未知的情况下,研究者通过构建基于训练样本的数据图来反映其潜在的空间分布特征,从而发展出基于图的空间分布特性的semi-supervised学习算法。

5.1 Graph Construction

在这里插入图片描述

5.2 Smoothness of the labels on the graph

在这里插入图片描述

6、协同训练(Co-training)

五、半监督学习算法应用实例

1、语音识别(Speech Recognition)

2、文本分类(Text categorization)

3、语义解析(Parsing)

4、视频监控(Video surveillance)

5、蛋白质结构预测(Protein structure prediction)

六、半监督学习中待研究的问题

1、无标签样本的有效利用问题

  • 常用的半监督学习算法在训练阶段仅依赖于全部无标签样本而未考虑其质量差异。
    • 例如,在这种情况下, 半监督支持向量机方法将所有这些未标注数据用于限制目标函数, 而基于图型半监督学习方法则通过构建近邻关系网络来整合这些未标注数据。
    • 实际应用中, 我们会发现, 在大量未标注数据中通常存在一些低质量且与现有标注类别无关的对象。
    • 因此, 在实际应用中如何有效利用这些未标注对象并减少其对模型性能的影响成为一个亟待探索的关键问题。

2、大量无标签样本的高效使用问题

在算法训练过程中,在直接采用所有无标签样本的情况下不仅会对算法性能造成负面影响,并且会导致显著降低算法计算效率的问题。
常用的半监督学习方法由于其较高的计算复杂度限制了其在处理小规模数据方面的应用效果,并且在面对大规模数据时也存在扩展性不足的问题。
基于此,在充分利用无标签样本的前提下如何能够高效地利用大量无标签样本来提升算法的整体性能以及扩展能力,则是采用半监督学习技术处理大规模数据时需要重点解决的关键问题。
——如何评估不同无标签样本对整体性能的具体贡献。

3、特征选择中的有效性问题

在特征选择领域中,在现有的半监督学习框架下开发出的各种基于统计的方法均未对具有较少标记信息的小样本与拥有丰富潜在信息的大规模未标记样本进行区分处理,在构建评价标准或目标函数时将两者一并作为依据展开工作;此外,在实际应用中发现这些方法难以实现从候选属性中自动识别最优相关属性子集的过程;这些问题严重制约了该方法的有效性;因此需要深入研究如何有效地区分不同类别的无标记样本的质量差异,并在此基础上提升模型对异常或噪声数据(即无标记噪声样本)的鲁棒性能;同时还需要探索能够自适应地识别最优相关属性子集的关键技术路径;




参考资料:
理解直推式学习和归纳式学习
半监督学习综述
半监督学习研究综述
百度文库:半监督学习综述.ppt
百度文库:半监督学习概论
半监督生成式学习(Semi-Supervised Generative Learning)
自训练和半监督学习介绍
期望最大算法和高斯混合模型(EM、GMM)

全部评论 (0)

还没有任何评论哟~