Advertisement

无监督学习Unsupervised learning

阅读量:

文章目录

  • 机器学习主要领域包括:有监督学习、无监督学习以及强化学习

    • 无监督学习通过分析输入数据集的概率分布情况P_X(x)
    • 有监督学习则旨在估计出条件概率密度函数P_X(x|y)
  • 在无监督学习中占据主导地位的主要方法包括主成分分析法(PCA)与聚类分析法。

    • PCA(Principal Component Analysis, PCA)

      • 自编码器 是一种基于无监督学习机制构建的数据压缩与重构模型,在深度学习领域中被视为一种高效的特征提取工具。它通过训练神经网络来识别数据中的低维表示,并被广泛认为是非线性主成分分析的一种实现方式。

      • 聚类分析

    • 无监督学习的中心应用:统计学中的密度估计

机器学习三大分支:有监督学习,无监督学习,强化学习

机器学习主要有三种主要类型:基于标签的学习、基于数据特征的学习以及通过奖励机制改进的行为。(并非只有传统意义上的有标签学习(supervised learning)、混合型半标签学习(semi-supervised learning)以及纯粹的数据驱动型无标签学习(unsupervised learning)!混合型半标签学习实际上是综合运用了这两种方法的技术结晶,在本质上属于一种结合应用形式。)

Unsupervised learning represents a specialized approach within the broader field of machine learning, characterized by its ability to identify hidden patterns within datasets lacking predefined labels. This contrasts with supervised counterparts, which rely on human-labeled data for training. Unsupervised methods, also referred to as autonomous organization, focus on probabilistic density modeling over input data.[1] Comprising one key category among the primary three classifications—supervised, unsupervised, and reinforcement—this technique plays a foundational role in modern machine learning paradigms. Additionally, partially supervised approaches integrate elements from both unsupervised and fully supervised strategies.

无监督学习对输入的无标签数据的先验概率密度进行建模

unsupervised learning is also referred to as self-organizing, self-organization, and the modeling of probability density distributions. This probability density is more precisely speaking the prior probability.

有监督学习试图推断出条件概率密度P_X(x|y)

即以输入数据的标签y为条件,输入数据x的概率密度。

用最简单的二分类举例说明时,假设变量y取值为01;假设数据也只有三种可能的离散状态x_0,x_1,x_2;在有监督学习中,则需要对数据集中的每一个样本点计算其条件概率分布:即对于每个i=0,1,2都需要分别计算出在类别y=0下样本出现的概率P(x_i|y=0)以及类别y=1下样本出现的概率P(x_i|y=1);例如给定的数据集\{(x_0, 1), (x_1, 1), (x_0, 0), (x_2, 0), (x_0, 1), (x_1, 0), (x_2, 1), (x_0, 1), (x_2, 0), (x_1, 1)\};那么根据这一数据集可以得出以下条件概率结果:其中对于变量x₀而言,在类别为y=0的情况下出现的概率为 P(x₀|y=₀) = ¼, 在类别为 y₁ =₁ 的情况下出现的概率为 P(x₀|y₁) =½ ;同样地,在变量x₁ 的情况下,在类别为 y₀ =₀ 的情况下出现的概率为 P(x₁ | y₀ ) =¼, 在类别为 y₁ =₁ 的情况下出现的概率约为 P(x₁ | y₁ ) ≈⅓ ;对于变量x₂, 在类别为 y₀ =₀ 的情况下出现的概率是 P(x₂ | y₀ ) =½, 而在类别为 y₁ =¹ \) 的情况下出现的概率约为 \ P(x₂ | y₁ ) ≈¹⁄₆ )

该值基于当前数据集精确计算得出。然而,在这种情况下属于最简单的情形:即输入变量离散化且可能取值有限,并且标签类别也有限。同时还需要解决以下两个问题:

一、这个用于研究的数据规模过小(完全是随手捏造的),这样的小型数据集很可能无法准确刻画源域的真实概率分布情况, 导致由之训练出的模型预测效果欠佳. 为了改善这一问题, 可以通过适当增大数据量并优化数据质量来有效缓解该现象. 这也是为什么有监督学习领域数据集的制作 既是一项精细的工作又是一项必要的技能;

二、这里所做的假设较为简单,在输入空间中仅包含三种离散可能性。然而,在实际应用中,则可能出现以下两种情形:其一是虽然输入数据本身属于离散型变量但在实际情况中却具有更多的可能性;其二是另一种情况下则表现为输入变量呈现连续型取值特征,在这种情况下,在监督学习框架下使用的分类器需要学习的是条件概率分布函数ccdf(即条件累积分布函数),而不是仅仅局限于计算条件概率的具体数值。值得注意的是这种情况更为普遍和常见。

无监督学习试图推断输入数据的先验概率分布P_X(x)

By contrast, it contrasts with supervised learning in its objective: whereas supervised learning aims to estimate the conditional probability distribution P_X(x|y), based on the label y assigned to input data, unsupervised learning estimates an a priori probability distribution P_X(x).

比如数据集是\{x_0, x_1, x_0, x_2, x_0, x_1, x_2, x_0, x_2, x_1\}

P_X(x_0) = 0.4, P_X(x_1) = 0.3, P_X(x_2) = 0.3

无监督学习的两种主要方法:PCA和聚类

PCA(主成分分析)

通过关键因素提取来缩减空间维度是一种严格线性关系的方法,在这种情况下每一个关键因素都是独立存在的并各自对应一个特征值;由此可知这些关键因素分布在相互正交的方向上彼此之间完全正交从而实现了相互独立

通过计算数据协方差矩阵的所有特征值来实现降维目标,在选择前n个具有较高累积贡献率(达到80%以上)的特征值后,在这些选择的基础上构建一个新的n维空间,在这一过程中主成分分析实际上相当于将原始数据映射到这个新的高维空间中进行分析,并且每个主成分都占据了一个独特的方向,在这个新构建的空间中独立地进行分析

自编码器:以无监督方式学习数据编码的神经网络,被称为非线性PCA

Autoencoder旨在为数据提取一组潜在的特征表达(representation或encodings),这不仅有助于降维处理还能显著提升后续分析的效果。
包括稀疏 autoencoder、denoising autoencoder 和 contractive autoencoder等正则化 variant;这些 variant 不仅能够有效地提取高质量的特征表示还能帮助监督分类任务取得更好的效果。
此外还有变分 autoencoder这类生成模型;这类模型在数据分布建模方面表现尤为出色。

An autoencoder can be considered a specific kind of artificial neural network designed for learning efficient data encodings through unsupervised learning.[1] The primary objective of an autoencoder lies in acquiring a compact representation (encoding) for a given set of data, often achieved through dimensionality reduction by training the network to disregard irrelevant information or "noise". Alongside this compression capability, an autoencoder simultaneously learns a reconstruction pathway, enabling it to recreate an approximation of its original input from its compressed encoding. This dual functionality gives rise to its name. Variants of this basic model have been developed with specific goals in mind. For instance:

  • Sparse Autoencoders aim to create representations that utilize only a subset of available features.
  • Denoising Autoencoders focus on reconstructing clean inputs from corrupted versions.
  • Contractive Autoencoders encourage robustness against input perturbations.
    These specialized variants have demonstrated efficacy in enhancing representations beneficial for subsequent tasks such as classification,[2] while Variational Autoencoders have emerged as powerful generative models with wide-ranging applications.[3] In practical applications, autoencoders have proven instrumental in solving diverse challenges including facial recognition[4] and deriving semantic meanings from words.[5]

在上世纪80年代末期就已经引起了广泛关注,在深度学习领域中仍然是应用最广泛的几种算法之一。然而近年来开始转向利用这种方法来生成数据。例如将文本描述转化为图像的过程通常采用变分自编码器作为基础模型。

一种自编码器是一种神经网络,它通过将输入复制到输出来学习。它包含一个内部(隐藏)层,用于描述表示输入的代码,并由编码器部分和解码器部分组成:编码器部分将输入映射到代码中;解码器部分则将代码还原为输入的重建。
精确地完成这项任务会简单地重新生成信号;因此,在实践中通常会对自编码器施加限制条件使其无法完全复制信号而是近似重建;这种做法是为了保留数据中最关键的信息。
自编码器的概念自二十世纪八十年代以来一直受到神经网络领域的关注;最初的用途主要用于降维或特征学习;然而近年来自编码器的概念得到了更广泛的应用以学习数据的生成模型。2010年代一些最强大的人工智能技术涉及深度神经网络中的稀疏自编码器。

聚类分析

聚类是机器学习的一个重要领域,在这一领域中,我们通过将未标记的数据进行分组来实现数据挖掘的任务。与监督学习或分类任务不同的是,并非基于对特定反馈的响应(即无监督学习或聚类任务),而是通过识别数据中的共同特征来实现对数据的分析与分类。这种技术能够有效地识别那些不具备典型特征的数据点,并将其作为异常值进行处理和标注

Among the key techniques employed in unsupervised learning are principal component analysis and cluster analysis. Within unsupervised learning frameworks, cluster analysis functions by grouping datasets characterized by shared attributes to uncover underlying algorithmic relationships.[2] As a subset of machine learning, cluster analysis focuses on organizing unlabelled datasets without predefined categories. Rather than reacting to external input like feedback, cluster analysis autonomously identifies inherent patterns within datasets. This method effectively isolates outliers that deviate from established clusters.

无监督学习的中心应用:统计学中的密度估计

无监督学习的中心应用是是统计学的密度估计领域。

A primary application of unsupervised learning lies within the domain of density estimation within statistics.

全部评论 (0)

还没有任何评论哟~