Advertisement

无监督学习算法_无监督学习

阅读量:

无监督学习算法

虽然有监督机器学习与深度学习已经取得了显著成功(...),但也有人认为无监督学习具有更大的潜力(...)。 监督学习系统的局限在于其只能被训练来处理经过特定领域或数据集训练的任务(...)。 相反的是,在理论层面(...),无监督系统有望实现"通用人工智能"的概念(...),即能够掌握人类可参与的所有认知与任务能力(...)。 然而目前这一技术尚未真正实现(...)。

然而,在监督学习中存在一个主要缺点即标注训练数据所需的计算成本较高;相比之下,在未标注的数据环境下运行无监督学习算法可能会遇到更大的挑战。尽管如此,在某些情况下应用无 supervised learning确实具有实际意义:例如,在降维处理方面效果显著;此外,在识别潜在模式、发现数据内部结构以及识别相似对象群体的同时还能有效捕捉异常值和其他潜在噪声。

掌握机器学习的核心要义在于深入理解人工智能、机器学习以及深度 learning 的基本概念与应用领域。(文章提供详细的解析)

阅读 解析 machine learning 的概念 的文章内容。(获取全面的知识)

了解各种 machine learning 算法的具体实现细节。(探索不同算法的特点)

深入解析 deep learning 原理与实现技术。(掌握其核心机制)

通过订阅 InfoWorld 大数据及分析报告时事通讯 Newsletter(newsletter),深入探索数据驱动的洞察与趋势。

在探索性数据分析中采用无监督学习方法识别模式与聚类具有重要意义。这些操作包括降低数据维度的同时, 揭示潜在特征并去除异常值, 从而帮助我们更好地理解数据的本质结构与内在规律。随后, 您选择继续进行监督学习还是利用预训练模型来进行预测将基于您的目标导向与可用的数据情况决定。

什么是无监督学习?

想一想人类儿童如何学习呢? 作为父母或老师,请不要向幼儿展示各种猫咪和狗狗的照片或模型;只需教导他们区别猫狗即可。 通过观察一些例子(如不同品种的宠物),孩子们能够自主归纳并记住它们的不同特征;并且在实践中不断验证自己的认知是否正确。 值得注意的是,在首次接触吉娃娃时(Kitty),孩子们可能会误称为‘Kitty’;但请不要担心,请您及时纠正这种误解会更加高效有效!

孩子们能够自然地将所见事物分类。 无监督学习的目标之一是为了使计算机具备类似的能力。 如同Alex Graves与Kelly Clancy在其博客文章《无监督学习:好奇的学生》中所阐述的那样

无监督学习是一种通过引导者(即计算机程序)来指导其分析观察到的数据而不需要设定具体目标的情况下的自适应系统实例。 另一种表述是说主体的目标在于实现自主性与效率之间的平衡。

为了更好地理解知识体系,在知识获取过程中所体现的学习主体具有更大的影响力,在人工智能系统中单纯基于二进制分类(如区分狗与猫)的效果相对较低。美国劳伦斯伯克利国家实验室的研究团队通过运用Word2vec算法对数百万篇学术摘要进行文本分析,并识别了数据中的潜在模式来预测新型热电材料的存在

聚类方法

该题属于一种非监督的学习类型。该过程要求模型识别出一组相似的数据样本集合。目前广泛采用了许多聚类算法;这些算法表现出略微不同的特性;它们通常会评估数据点的特征向量之间的度量或距离函数;然后将那些彼此‘接近’的度量或距离函数进行分类;当类别之间不发生重叠时,则这些分类器能够表现得最为出色。

层次聚类

层级聚类研究(HCA)可划分为两种类型:一种是从单一数据点起步逐步生成聚类;另一种则由低到高逐步分解直至得到独立的数据点。偶尔运气好时,您能够观察到聚类过程中中间阶段呈现出有意义的分类。

聚类流程常以树状图的形式呈现(树形图)。 HCA算法消耗较多的时间与内存[ O (n³)]和[ O (n²)]资源。 这些因素限制了该算法主要适用于规模较小的数据集。

HCA算法可以采用多种指标与链接标准进行评估。对于数值型数据集而言,
常用的度量方法包括欧几里得距离及其平方形式;而对于非数值型数据,
则多采用汉明距离与莱文施泰因相似性度量方法作为基础。
在连接策略的选择上,
单链接法与完全链接法最为常见。
这两种连接策略均可简化聚类算法(分别为SLINK与CLINK),其中
SLINK算法因其能够保证找到最优解的特性而备受关注

K均值聚类

k均值聚类采用欧几里得距离度量将n个观测体划分为k个互不相交的聚类集合,并旨在最小化各聚类内样本之间的平方误差总和。这种技术属于向量量化方法的一种,在特征提取方面具有重要价值。

劳埃德(Lloyd)算法(基于带有质心更新迭代集群聚类的技术)是最常用的一种启发式方法,在解决该问题时表现出较高的效率。然而,在这种情况下无法保证全局收敛性。为此,在文献中常采用通过使用Forgy或Random Partition等方法生成随机初始簇中心的方式进行多次运行以提高收敛性

该算法基于可分离性假设,在这种情况下各簇均值会趋向于各自的中心位置,并假定了数据点之间的相对顺序对于结果影响微乎其微。 各簇之间规模大致相当,在这种情形下将样本分派至距离最近的那个簇中心是最合理的策略

该研究中所采用的启发式策略与高斯混合模型的期望最大化(EM)算法具有相似性。

混合模型

混合模型基于观察结果的不同子群体而建立假设性概率关系,在实际应用中对度量型数据通常采用正态分布来建模,在处理非度量数据时则采用离散型概率密度函数描述其统计特性。每个子群体都可以通过特定的概率参数集合来进行特征描述,并如高斯分布在描述这些特征时涉及均值和方差参数等

期望最大化算法(EM)是一种广泛应用于估计具有给定数量组分混合物参数的关键统计方法。 除了期望最大化算法之外,马尔可夫链蒙特卡洛方法、矩匹配技术和基于奇异值分解(SVD)的频谱分析方法等均可用于求解混合模型。

早期的混合模型应用是基于前额与体长的比例来区分两种岸蟹种群的。卡尔·皮尔森(Karl Pearson)于1894年开发了一种矩匹配的方法来解决这一问题。

混合模型的一个常见扩展是通过将定义混合成分身份的潜在变量连接至马尔可夫链中来实现扩展,并非假设这些变量为相互独立且均匀分布的随机变数。 扩展后得到的结果模式被称为隐马尔科夫模式,并是最普遍使用的序列层次构造之一。

DBSCAN算法

基于密度的空间数据聚类(DBSCAN)自1996年以来一直被广泛应用。该方法经过优化设计,在处理带有噪声的数据时表现出色,并特别适用于利用R*树或其他几何索引结构以加速几何区域查询的数据库系统。

其基本原理在于,在某一距离范围Epsilon内具备一定密度的核心对象形成聚类体,并将那些位于该范围内但不具备足够近邻的对象归为异常数据予以剔除;随后将属于同一聚类体内的所有对象纳入其中以完成数据分组任务。这一算法因其灵活性和高效性而广受数据科学家欢迎。

OPTICS算法

确定一种关键排序点(OPTICS)用于发现空间数据中的基于密度分布的聚类结构。该算法与DBSCAN相似,在处理数据密度变化方面具有优势。

基于DBSCAN和OPTICS的思想演变同样可用于简单异常数据点的噪声识别与去除。

潜在变量模型

该方法旨在将一组可观察指标与一组潜在(隐含)指标关联起来作为统计模型。该方法有助于深入探索复杂数据集及其内部模式。

主成分分析

主成分分析法是一种常用的统计方法;它通过正交转换法将观测数据转化为若干个相互独立的新变量。卡尔·皮尔森爵士于1901年首次提出主成分分析法;该方法可通过协方差矩阵的谱分解或奇异值分解方法实现;通常是在对原始数据进行标准化处理之后应用这一技术。

奇异值分解

奇异值分解(SVD)被称为实数或复数矩阵的一种因式分解方法。 在这一领域中被广泛采用的技术,在计算时通常采用基于Householder变换的方法来实现这一目标。 奇异值分解常被视为解决主成分问题的一种重要手段之一;尽管可以从基础原理重新构建这一算法,在大多数情况下利用现成的线性代数库可以显著提高开发效率和代码简洁性。

矩量法

矩量法利用观测数据样本的矩量(包括均值、方差、偏度和峰度)来估计总体参数。此方法相对简单,在手算方面也较为容易操作,并且在多数情况下都能实现全局收敛。然而,在统计量较小时,在某些情况下矩量法可能会产生超出参数空间范围的估计值。这种方法可被视作一种简便的方法用于解决混合模型的问题。

期望最大化算法

Expectation Maximization (EM) algorithm is an iterative method designed to estimate parameters in statistical models that depend on unobserved latent variables. The EM process alternates between performing an expectation step (E) and a maximization step (M), with the E-step constructing a conditional probability model based on current parameter estimates, and the M-step optimizing to maximize the likelihood of these estimates.

EM算法趋向于局部极大点或鞍点,并不必然达到全局极大点。
为了提高获得其全局极大点的可能性,
您可以在参数空间中的多个随机起始点上反复运行该算法,
或者在每次迭代中选择不同的起始猜测,
并结合动量法来辅助寻找更好的解。

应用于高斯混合模型(上文)的EM可用于聚类分析。

无监督神经网络

神经网络主要在标注过的数据上进行训练,并用于执行分类任务或回归分析;基于定义而言,则属于有监督机器学习范畴;此外还能够采用多种无监督方法对未标注数据进行学习与建模。

自动编码器

自动编码器是一种基于其输入进行训练的神经网络。核心来说, 自动编码器是一种前馈网络,采用编码-解码器结构,将输入从输入层逐步转化为输出层

在训练阶段,自动编码器通过反向传播算法缩小输入与输出之间的差距

深度信仰网络

深度信任网络 (DBN)是由自动编码器或受限制的Boltzmann机(RBM)组成的层次结构, 其主要功能是能够重建其输入数据. 进而这些层级结构将作为特征检测器发挥作用. 而RBM网络则普遍采用对比散度方法来进行训练.

DBN已用于生成和识别图像,视频序列和运动捕捉数据。

生成对抗网络

生成对抗网络(GAN)协同优化两个网络:其中一个是构建基于数据分布的生成模型(通常表示为G),另一个则是评估样本是否来源于原始训练数据集的概率(通常表示为D)。整个过程旨在优化生成器使其能够欺骗鉴别器的能力达到最佳状态。

GAN可用于生成虚构人物的照片并优化天文图像。 GAN也已被用来提升旧视频游戏的纹理以支持高分辨率游戏版本。 除了在无监督学习中,在增强游戏玩法方面GAN也取得了成功应用。

自组织图

自组织映射(SOM)形成了从一组给定的数据项到规则性的二维网格有序结构。每个网格节点与其相关联。它们会被分配到与其模型最接近的那个节点,在某种度量标准下与其他数据点的距离最低。

您需要实施一系列预防措施以确保映射保持有序且稳定运行,并非所有商业实施都会遵循全部的预防措施

该方法具有显著的效果。
该方法能够实现自足型无监督学习。
从理论层面来看,该技术具备创新性。
该系统架构设计合理。
该算法能在有限计算资源下运行良好。
从实验结果来看,该系统性能表现优异。
这种方法能够有效降低计算开销。
该算法具备良好的可扩展性特征。
从性能指标分析,该系统表现令人满意.
这种技术能在实际应用中获得广泛应用.

无监督学习算法

全部评论 (0)

还没有任何评论哟~