Advertisement

Supervised Learning (监督学习)与 Unsupervised Learning (非监督学习)

阅读量:

Supervised Learning (监督学习)

利用具有概念标记(分类)的训练样本进行学习,并通过这些训练样本实现对未见数据集进行标记(分类)预测的目的在于尽可能提高预测效果。在此处的所有标记(分类)均为已知信息。因此,在这种情况下,训练样本具有较低程度的概念歧义。

监督型学习方法主要采用被训练神经网络与决策树作为主要的学习工具。这些技术严重依赖于预先建立的分类系统所能提供的相关信息。

E.g.房屋价格预测-回归(Regression): 预测连续的输出值(价格)

乳腺癌(良性,恶性)预测问题-分类(Classification): 预测离散的输出值(0, 1)

即使有无限多种特征也可以处理(支持向量机)。

分类、回归都是监督学习的内容。

Unsupervised Learning (无监督学习)

无预设类别标签的训练样本被用于完成学习过程,以便获取训练数据集中的结构化知识.此处分配给各分类器的所有类别标签均为未知状态.由此可见,该组训练样本具有显著的歧义性.

常见的无监督学习算法有聚类。

上面讲述了监督学习的基本概念。回顾当时的数据集(如图所示),这个数据集中每条样本已经被明确标注为阴性或阳性类别(即良性或恶性肿瘤)。因此,在监督学习中针对每条数据我们都知道其真实标签是良性的还是恶性的。

在无监督学习中所涉及的数据显得存在明显的差异。这些数据与监督学习中的数据不同,在无监督学习中没有标签或者所有数据具有相同的标签。针对所给定的数据集而言,在这种情况下算法会识别出两个不同的簇群结构,并将其划分为两个不同的簇群集合体。这种方法被称为聚类算法,在多个领域都有广泛应用

无监督学习有着大量的应用。它用于:

一、组织大型计算机集群 使得计算机更好的协同工作

二、社交网络的分析 分析用户与用户之间的联系

三、市场分割 多数企业拥有规模宏大的数据库系统来记录消费者的数据信息。因此,通过自动化分析方法识别出潜在的市场细分,并能从这些客户数据库中提取出相关的客户群体数据。从而实现精准营销策略的有效实施。

四、天文数据分析 这些聚类算法揭示了星系演化的基本规律与机制,并提供了深入的理解与科学依据

这些都是聚类的例子,聚类 只是无监督学习 中的一种。

小测试:

少量的离散值,作为一个分类问题。所以problem 2 为分类问题。

**

**

全部评论 (0)

还没有任何评论哟~