机器学习中的半监督与无监督学习

阅读量：

机器学习中的半监督与无监督学习

引言

在机器学习的广阔领域中，半监督学习与无监督学习是两种重要的学习范式。半监督学习结合了少量有标签数据和大量无标签数据进行模型训练，而无监督学习则完全依赖于无标签数据来发现数据中的内在结构和模式。本文将深入探讨这两种学习范式的原理、应用场景，并结合上的相关资料，提供实用的解决技巧和代码示例。

一、半监督学习

1. 半监督学习概述

半监督学习（Semi-Supervised Learning, SSL）是一种利用少量有标签数据和大量无标签数据进行模型训练的方法。在实际应用中，获取大量有标签数据往往成本高昂且耗时，而无标签数据则相对容易获取。半监督学习旨在通过利用无标签数据中的信息，提高模型的泛化能力和准确性。

2. 半监督学习算法

自训练（Self-Training） ：使用有标签数据训练一个初始模型，然后用该模型对无标签数据进行预测，将高置信度的预测结果作为新的有标签数据加入训练集，重复此过程。
协同训练（Co-Training） ：假设数据有两个充分冗余且条件独立的视图，分别在这两个视图上训练两个模型，然后相互提供伪标签进行迭代训练。
图半监督学习（Graph-Based SSL） ：构建数据点之间的图结构，利用图上的平滑性假设（即相邻数据点应具有相似的标签）进行标签传播。

3. 半监督学习代码示例（使用Python和scikit-learn-contrib的label-propagation库）

复制代码

    from sklearn import datasets
    from sklearn.model_selection import train_test_split
    from sklearn.semi_supervised import LabelPropagation
    import numpy as np
    
    # 加载数据集
    digits = datasets.load_digits()
    X = digits.data
    y = digits.target
    
    # 将部分标签设置为-1（表示无标签）
    n_labeled_points = 50  # 假设只有50个有标签数据点
    indices = np.arange(len(y))
    unlabeled_set = indices[n_labeled_points:]
    
    y[unlabeled_set] = -1  # -1表示无标签
    
    # 划分训练集和测试集（这里仅用于展示，实际半监督学习中可能不使用测试集）
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 使用标签传播算法进行半监督学习
    lp_model = LabelPropagation()
    lp_model.fit(X_train, y_train)
    
    # 预测测试集（或实际的无标签数据）
    y_pred = lp_model.predict(X_test)
    
    # 由于我们人为设置了无标签数据，这里不直接计算准确率，但可以查看预测结果
    print("预测结果（部分展示）:", y_pred[:10])
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-19/FyO9qiJpSZI02mkuNKwe8Pl36vtH.png)

表格示例 ：半监督学习与传统监督学习性能对比（假设数据）

学习范式	准确率（有标签数据较少时）	数据需求
监督学习	较低	大量有标签数据
半监督学习	较高	少量有标签数据 + 大量无标签数据

4. 半监督学习应用场景

图像分类 ：在图像分类任务中，获取大量有标签图像往往成本高昂，而半监督学习可以利用大量无标签图像提高模型性能。
文本分类 ：在文本分类任务中，同样可以利用半监督学习处理大量无标签文本数据。

二、无监督学习

1. 无监督学习概述

无监督学习（Unsupervised Learning）是一种完全依赖于无标签数据进行模型训练的方法。无监督学习的目标是发现数据中的内在结构和模式，如聚类、降维等。

2. 无监督学习算法

聚类（Clustering） ：将数据点划分为多个组（或簇），使得同一组内的数据点相似度较高，不同组之间的数据点相似度较低。
降维（Dimensionality Reduction） ：将高维数据映射到低维空间，同时保留数据的主要特征。
异常检测（Anomaly Detection） ：识别数据中的异常点或离群点。

3. 无监督学习代码示例（使用Python和scikit-learn进行K-Means聚类）

复制代码

    from sklearn.cluster import KMeans
    import matplotlib.pyplot as plt
    from sklearn.datasets import make_blobs
    
    # 生成模拟数据
    X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
    
    # 使用K-Means进行聚类
    kmeans = KMeans(n_clusters=4)
    kmeans.fit(X)
    y_kmeans = kmeans.predict(X)
    
    # 可视化聚类结果
    plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
    
    centers = kmeans.cluster_centers_
    plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)  # 绘制聚类中心
    plt.title("K-Means Clustering")
    plt.xlabel("Feature 1")
    plt.ylabel("Feature 2")
    plt.show()
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-19/vfxRPz1k6jtN73mW0LwAoQrBVKg5.png)

表格示例 ：不同聚类算法性能对比（假设数据）

聚类算法	准确率（根据具体任务定义）	计算复杂度	适用场景
K-Means	较高	较低	球形簇，数据规模适中
DBSCAN	较高（对噪声鲁棒）	较高	任意形状簇，含噪声数据
层次聚类	较高（但可能过拟合）	较高	小规模数据，需要层次结构

4. 无监督学习应用场景

客户细分 ：在市场营销中，可以使用聚类算法将客户划分为不同的细分市场，以便制定更精准的营销策略。
图像分割 ：在图像处理中，可以使用聚类算法将图像划分为不同的区域或对象。
推荐系统 ：在推荐系统中，可以使用降维算法处理用户-物品评分矩阵，发现潜在的用户偏好和物品特征。

三、半监督与无监督学习的结合

在实际应用中，半监督学习与无监督学习往往可以结合使用。例如，可以先使用无监督学习算法对数据进行预处理（如聚类、降维），然后使用半监督学习算法进行模型训练。这种结合可以充分利用无标签数据中的信息，提高模型的泛化能力和准确性。

四、结语

半监督学习与无监督学习是机器学习中两种重要的学习范式。它们各自具有独特的优势和应用场景，通过结合使用可以进一步提高模型的性能。本文提供了实用的解决技巧和代码示例，希望对你的机器学习工作有所帮助。在实际应用中，应根据具体任务和数据特点选择合适的学习范式和算法。

全部评论 (0)

还没有任何评论哟~

机器学习中的半监督与无监督学习

机器学习中的半监督与无监督学习引言在机器学习的广阔领域中，半监督学习与无监督学习是两种重要的学习范式。半监督学习结合了少量有标签数据和大量无标签数据进行模型训练，而无监督学习则完全依赖于无标签数据...

机器学习笔记——监督学习，无监督学习，半监督学习

这个问题可以回答得很简单：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。什么是学习（learning）？学习：一个...

监督学习、无监督学习、半监督学习

监督学习、无监督学习、半监督学习监督学习、无监督学习、半监督学习监督学习无监督学习半监督学习监督学习、无监督学习、半监督学习监督学习特点：训练过程中样本都是有标签的。

【机器学习】什么是监督学习、半监督学习、无监督学习、自监督学习以及弱监督学习

监督学习（SupervisedLearning）：利用大量的标注数据来训练模型，模型最终学习到输入与输出标签之间的相关性。半监督学习（SemisupervisedLearning）：利用少量有标签数...

机器学习中的相关概念【监督，半监督，无监督，弱监督，自监督】

文章目录监督和无监督自监督学习弱监督学习强化学习机器学习中大体可以把任务分为监督学习，无监督学习。在我们的学习和资料查阅中会出现，半监督，自监督，弱监督这样的词汇，让人心生疑惑，在此进行一个...

【机器学习】有监督、无监督、自监督、半监督、弱监督的区别

1.有监督：用有标签的数据训练； 2.无监督：用无标签的数据训练； Kmeans等 3.半监督：利用数据分布上的模型假设建立学习器对未标签样例进行标签。通常是两阶段的训练，先用（较小规模的）有标签数据...

机器学习的分类（监督学习、非监督学习、半监督学习）

机器学习大致可分为三类：监督学习、非监督学习、半监督学习，下面我们就来分别介绍。监督学习用数据挖掘领域著名学者韩家炜教授的话来说，所有的监督学习（SupervisedLearning），基本上都是...

机器学习之------监督、非监督、半监督

Unsupervisedlearning,SupervisedlearningandSemisupervisedlearning Inthecontextofmachinelearning,whati...

机器学习丨监督学习与无监督学习

较为通俗易懂的参考：2监督学习与无监督学习表述比较清晰的参考：监督学习和无监督学习的区别前言机器学习算法最主要两个分类就是监督学习、无监督学习。（此外强化学习和推荐系统也都是机器学习算法的一员）...

监督、自监督、半监督、无监督学习的区别

目录一、简易版区别二、详细版区别一、简易版区别 ASurveyonSemi,SelfandUnsupervisedLearningforImageClassification文中的解释：监督学...

是否确定退出登录?

机器学习中的半监督与无监督学习