【机器学习】机器学习的基本分类-半监督学习（Semi-supervised Learning）

阅读量：

半监督学习 是一种介于监督学习 和无监督学习 之间的机器学习方法。它利用少量的标注数据（有监督数据）和大量的未标注数据（无监督数据）来进行模型训练，从而在标注数据不足的情况下，提升模型的性能。

半监督学习的特点

数据特性 ：
- 标注数据成本高（如需要人工标注）。
- 未标注数据易得且数量庞大。
目标：
- 使用未标注数据改进监督学习模型的性能。
假设：
- 相似性假设（Cluster Assumption） ：相似的数据点有相同的类别。
- 平滑性假设（Smoothness Assumption） ：靠近的样本具有相似的输出。
- 流形假设（Manifold Assumption） ：数据点在低维流形上分布。

半监督学习的算法分类

1. 基于生成模型

使用生成模型捕捉数据分布，从而利用未标注数据。
典型方法：

高斯混合模型（GMM）
变分自编码器（VAE）

2. 自训练（Self-training）

思路：
- 使用初始标注数据训练一个模型；
- 让模型对未标注数据进行预测，将置信度高的预测结果作为伪标签；
- 使用新增的伪标签更新模型。
优点：简单易实现。
缺点：伪标签错误会导致模型退化。

3. 协同训练（Co-training）

思路：
- 使用两种互补的特征视角分别训练两个模型；
- 每个模型生成伪标签并互相标注数据。
典型应用 ：网页分类、信息检索。

4. 图半监督学习

思路：
- 将数据建模为图结构，节点表示样本，边权重表示样本相似度；
- 使用标签传播算法（Label Propagation）在图上传播标签。
典型方法 ：
- 标签传播（Label Propagation）
- 谱图方法（Graph Laplacian）

5. 对比学习

思路：
- 在无监督情况下学习样本的特征表示，使相似样本在表示空间中更接近。
- 然后结合标注数据进行分类或回归。

6. 一致性正则化（Consistency Regularization）

思路：
- 假设模型在未标注数据上的预测应对输入的轻微扰动保持一致；
- 对输入添加噪声或数据增强，约束模型输出的稳定性。
典型方法 ：Pseudo-labeling，Mean Teacher。

常见半监督学习模型

1.[Semi-supervised SVM（S^3VM）]( "Semi-supervised SVM（S^3VM）")

通过引入未标注数据的目标函数，增强决策边界的平滑性。

2.[半监督生成对抗网络（Semi-supervised GANs）]( "半监督生成对抗网络（Semi-supervised GANs）")

使用生成对抗网络（GAN）生成数据并改进分类器性能。

3. Ladder Networks

在网络中加入无监督分支，通过重构未标注数据，辅助训练。

半监督学习的损失函数

监督部分损失 （有标注数据）：
$L_{ext{sup}} = rac{1}{N} um_{i=1}^N athcal{L}, y_i$

无监督部分损失 （未标注数据）：

复制代码

 * **伪标签损失** ：

L_{ext{unsup}} = rac{1}{M} um_{j=1}^M athcal{L}, at{y}_j

复制代码

 * **一致性正则化损失** ：

$L_{ext{consistency}} = rac{1}{M} um_{j=1}^M ||f - f||^2$
x_j' 为添加扰动后的样本。

总损失 ：
$L_{ext{total}} = L_{ext{sup}} + ambda L_{ext{unsup}}$

应用场景

自然语言处理（NLP） ：
- 情感分析、文本分类。
计算机视觉 ：
- 图像分类、目标检测。
医学影像分析 ：
- 标注数据稀缺场景下的疾病诊断。
推荐系统 ：
- 利用未标注用户行为改进推荐质量。

Python 示例：自训练方法

以下是一个简单的自训练实现伪代码：

复制代码

 from sklearn.datasets import make_classification

    
 from sklearn.model_selection import train_test_split
    
 from sklearn.ensemble import RandomForestClassifier
    
 import numpy as np
    
  
    
 # 生成数据集
    
 X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
    
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
  
    
 # 模拟未标注数据
    
 X_train_labeled, X_train_unlabeled, y_train_labeled, _ = train_test_split(X_train, y_train, test_size=0.7, random_state=42)
    
  
    
 # 初始化模型
    
 model = RandomForestClassifier()
    
  
    
 # 训练初始模型
    
 model.fit(X_train_labeled, y_train_labeled)
    
  
    
 # 自训练过程
    
 for _ in range(5):  # 多次迭代
    
     # 对未标注数据预测
    
     pseudo_labels = model.predict(X_train_unlabeled)
    
     pseudo_probs = model.predict_proba(X_train_unlabeled).max(axis=1)
    
     
    
     # 筛选高置信度样本
    
     high_confidence_idx = pseudo_probs > 0.9
    
     X_high_confidence = X_train_unlabeled[high_confidence_idx]
    
     y_high_confidence = pseudo_labels[high_confidence_idx]
    
     
    
     # 合并伪标签数据
    
     X_train_labeled = np.vstack((X_train_labeled, X_high_confidence))
    
     y_train_labeled = np.hstack((y_train_labeled, y_high_confidence))
    
     
    
     # 移除已标注的未标注数据
    
     X_train_unlabeled = X_train_unlabeled[~high_confidence_idx]
    
     
    
     # 重新训练模型
    
     model.fit(X_train_labeled, y_train_labeled)
    
  
    
 # 测试模型
    
 accuracy = model.score(X_test, y_test)
    
 print(f"Accuracy: {accuracy:.2f}")

输出结果

复制代码

    Accuracy: 0.84

总结

半监督学习通过利用未标注数据的潜在信息，在标注数据有限的场景下显著提高了模型的性能。根据具体任务和数据特点，可以选择不同的半监督方法来优化模型效果。

全部评论 (0)

还没有任何评论哟~

【机器学习】机器学习的基本分类-半监督学习（Semi-supervised Learning）

半监督学习是一种介于监督学习和无监督学习之间的机器学习方法。它利用少量的标注数据（有监督数据）和大量的未标注数据（无监督数据）来进行模型训练，从而在标注数据不足的情况下，提升模型的性能。半监督学习的...

机器学习的分类——半监督学习（Semi-supervised Learning）

半监督学习（SemisupervisedLearning）是介于监督学习和无监督学习之间的一种机器学习方法。它主要用于那些有大量未标记数据和少量标记数据的场景。半监督学习试图通过这两种类型的数据来改进...

机器学习10 -- 半监督学习 Semi-supervised Learning

1为什么要做半监督学习有监督机器学习已经在很多领域证明了它的有效性，比如ImageNet图像分类任务，深度学习模型早在2017年，准确率就已经超过了人类。机器学习被认为是一门数据驱动的学科，数据分为...

【机器学习】机器学习的基本分类-半监督学习ーSemi-supervised SVM

SemisupervisedSVM（S³VM） SemisupervisedSVMS³VM是一种半监督支持向量机方法，旨在结合标注数据和未标注数据训练模型。相比传统的监督学习SVM，它在优化过程中利用...

机器学习-算法-半监督学习：半监督学习（Semi-supervised Learning）算法

人工智能机器学习算法半监督学习：半监督学习（SemisupervisedLearning）算法一、半监督学习算法提出的背景 1、监督学习算法 2、无监督学习算法 3、监督学习的特征选择方法 4、无监...

机器学习16：半监督学习semi-supervised

一、whysemisupervised dataset中只有部分数据进行了lable标注，即，有的数据成对出现｛输入，输出｝，有的数据只有输入｛输入｝； Transductivelearning（直推...

【机器学习】机器学习的基本分类-半监督学习-半监督生成对抗网络（Semi-supervised GANs）

半监督生成对抗网络（SemisupervisedGANs，简称SGAN）是一种结合生成对抗网络（GAN）和半监督学习的模型，能够在有限标注数据和大量未标注数据的情况下训练分类器。它扩展了传统GAN的结...

半监督学习(Semi-Supervised Learning)

半监督学习SemiSupervisedLearning SemiSupervisedLearning. 半监督学习SemiSupervisedLearning是指同时从有标签数据和无标签数据中进行学习...

12、【李宏毅机器学习（2017）】Semi-supervised Learning（半监督学习）

在前面的博客中主要介绍的算法全部都是监督学习的算法，接下来的博客将开始介绍半监督学习算法。目录半监督学习介绍半监督学习与监督学习半监督学习的用处 SemisupervisedLearningf...

[机器学习-李宏毅] 半监督学习笔记 (Semi-supervised Learning)

SemisupervisedLearning SemisupervisedLearning是半监督学习的意思。他是指用于训练的数据有一部分是有标签的，一部分数据是无标签的，同时使用这两部分数据进行学习...

是否确定退出登录?

【机器学习】机器学习的基本分类-半监督学习（Semi-supervised Learning）

半监督学习的特点

半监督学习的算法分类

1. 基于生成模型

2. 自训练（Self-training）

3. 协同训练（Co-training）

4. 图半监督学习

5. 对比学习

6. 一致性正则化（Consistency Regularization）

常见半监督学习模型

1.[Semi-supervised SVM（S^3VM）]( "Semi-supervised SVM（S^3VM）")

2.[半监督生成对抗网络（Semi-supervised GANs）]( "半监督生成对抗网络（Semi-supervised GANs）")

3. Ladder Networks

半监督学习的损失函数

应用场景

Python 示例：自训练方法

总结

全部评论 (0)

相关文章推荐

【机器学习】机器学习的基本分类-半监督学习（Semi-supervised Learning）

机器学习的分类——半监督学习（Semi-supervised Learning）

机器学习10 -- 半监督学习 Semi-supervised Learning

【机器学习】机器学习的基本分类-半监督学习ーSemi-supervised SVM

机器学习-算法-半监督学习：半监督学习（Semi-supervised Learning）算法

机器学习16：半监督学习semi-supervised

【机器学习】机器学习的基本分类-半监督学习-半监督生成对抗网络（Semi-supervised GANs）

半监督学习(Semi-Supervised Learning)

12、【李宏毅机器学习（2017）】Semi-supervised Learning（半监督学习）

[机器学习-李宏毅] 半监督学习笔记 (Semi-supervised Learning)