Supervised learning/ Unsupervised learning监督学习/无监督学习
机器学习
机器学习
有监督学习与无监督学习之间的主要区别有哪些?基于标签的数据驱动的学习方法与不依赖标签的特征自动提取的学习过程之间存在哪些显著差异?
目录
Supervised learning 监督学习
Unsupervised learning 无监督学习
Supervised learning 监督学习 VS Unsupervised learning 无监督学习
有标签 vs 无标签
分类 vs 聚类
同维 vs 降维
分类同时定性 vs 先聚类后定性
独立 vs 非独立
不透明 vs 可解释性
DataVisor无监督独有的拓展性
如何选择有监督和无监督
Supervised learning 监督学习


- 通过分析训练样本集中的模式特征,能够推导出一个数学表达式(即模型权重系数);
- 当系统引入外部测试样本时,基于当前模型的数学表达式能够计算出相应的预期输出。
在监督学习中,训练数据集需要包含输入变量和输出变量。也可以被视为特征向量及其对应的目标值。其中的目标类别是由人工标注确定的。
监督学习就是最常见的分类 (注意和聚类区分)问题:
- 基于现有的训练样本 利用机器学习算法生成一个最优模型;
- 训练样本:即为已知数据及其对应的输出;
- 最优模型:属于某个函数集合中的一个成员,并且‘最优’指的是在特定评价标准下达到最佳水平;
- 利用该模型将所有输入映射到相应的输出,并通过对输出结果进行基本分析来实现分类任务。
该系统能够有效地处理未知数据分类的问题。
监督学习是训练神经网络和决策树的常见技术。
这两种技术严重依赖事先确定的分类系统的相关信息,在神经网络中,分类系统通过识别网络中的错误来判断并修正其参数设置。而对于Decision Tree来说,则是通过识别出那些能提供最多信息量的属性来进行分类决策。
这两种技术严重依赖事先确定的分类系统的相关信息,在神经网络中,分类系统通过识别网络中的错误来判断并修正其参数设置。而对于Decision Tree来说,则是通过识别出那些能提供最多信息量的属性来进行分类决策。
常见的有监督学习算法:回归分析和统计分类。最典型的算法是KNN和SVM。
Unsupervised learning 无监督学习

- 输入: 数据未被标注且缺乏明确的目标。
- 样本数据: 样本类别归属不明确,并需基于样本间相似性的程度将样本集合进行分类或聚类处理;通过缩小同类内部差异程度和扩大不同类别之间间距来实现目标。
就比较常见的是在实际应用中,
很多情况下不知道每个样本的具体类别,
换句话说,在训练数据里也没有明确的分类信息,
因此需要从原本未标注数据中逐步构建分类器的设计流程。
非监督学习的目标并不是直接指导计算机完成具体任务(如引导它如何操作),而是通过创造条件促使计算机能够自主学习相关任务。
无监督学习的方法分为两大类:
- 利用概率密度函数估计的方法:通过分析各类别在特征空间中的分布情况,并结合概率密度函数估计的结果,在此基础上实现对新数据的分类任务。
- 依赖于样本间相似性度量的简明扼要的聚类策略:设定不同类别的核心或初始代表元素,在此基础上计算并比较各新样本与这些核心元素之间的相似程度差异值;根据计算结果的不同程度将样本分组为不同的类别。
基于K-means聚类算法的结果提取潜在特征,并对新样本进行分门别类地分析与推断;在以下领域中应用:数据分析技术、模式识别技术和图像处理技术。
Supervised learning 监督学习 VS Unsupervised learning 无监督学习
有标签 vs 无标签
有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签。
有监督的学习过程通常首先利用一组已知输入及其对应输出的数据进行训练,并以获得最佳模型的目标。随后将此最佳模型应用于新的数据集以生成相应的预测结果。经过这一系列步骤后,该模型便具备了预测新数据的能力。
无监督机器学习被称为“没有老师的学习”。
- 相比有监督的学习方式,在无监督学习中并不存在训练阶段。相反,在这种模式下我们直接利用数据进行建模与分析,并从中提取有用的信息与知识。这意味着这些信息可以通过机器学习算法自主提取与总结。这种现象确实令人感到新奇与难以置信,在人类的认知过程中也能够观察到类似的场景:举个例子来说吧,在参观一场画展的时候即使你对中国艺术一无所知但也能根据作品的风格将其大致分为不同的类别比如说一些作品可能更加朦胧抽象而另一些则可能更加写实具象即使你无法确切定义出这两种风格的界限但至少你依然能够在其中找到一些共同点并形成自己的分类标准。
分类 vs 聚类
有监督机器学习的核心是分类 ,有监督的工作是选择分类器和确定权值,
无监督学习的核心目标即为将一组数据按相似度特征划分为若干类别。(该过程涉及对数据进行分组操作以识别其内在结构特征。)在无监督学习中,则依赖于密度估计技术来识别数据的统计特性.The implication is that unsupervised algorithms can commence their operations once a similarity metric has been established.
同维 vs 降维
有监督不具有降维的能力, 如果输入是n维,特征即被认定为n维**。**
无监督具备降维能力。该方法在深度学习框架中进行特征提取过程,并通过层次化学习模型完成数据的非线性表示;此外还可以直接对输入数据进行低维表示学习或直接采用层次化或分层次的分类方法。
分类同时定性 vs 先聚类后定性
有标签的输出结果也就是分类完成之后会自动带有相应的标签值 ,这究竟是好是坏 也即分类好了之后会自动带有标签值 。类似于像药店 shelves ,收集了一批药材样本 ,只需要把收集来的每一份样本按照类别放入相应的药匣中就可以了
无监督的学习结果仅仅呈现为几个几类的分布状态如同混杂在一起的各种药材对于外行而言处理这堆数据只能做的是将看似相似的数据样本归为若干小群体若想进一步识别这些小群体则需要一位资深专家(相当于导师)的帮助才行由此可见在无监督学习中主要遵循先分群再定性的流程类似于批量处理模式
独立 vs 非独立
人工为数据进行标注,并将其作为训练样本使用;随后将这些样本绘制到特征空间中后发现其线性特性非常强;然而,在分类边界上存在一些被误判的数据样本。
这种现象的一个解释是:
- 无论是有监督学习中的训练样本还是无监督学习中的待分类数据,并非所有的数据都呈现完全独立于彼此的概率分布。
- 数据与其自身的概率分布之间存在密切关联性。在有监督学习中,在这种情况下较大的偏离可能会导致分类器产生较大的噪声干扰;而在无监督学习中则不会出现这种情况。
可见,独立分布数据更适合有监督,非独立数据更适合无监督。
不透明 vs 可解释性
由于有监督算法最后输出的一个结果/标签,一定是会有一个倾向 。但是,
- 我们想要了解其背后的机制是什么?
- 在监督学习中告诉我们:我们将每个字段与一个参数向量[w_1, w_2, w_3,…w_n]相乘。
- 那么使用这个特定的参数列表的原因是什么?具体来说,在第一个字段中选择系数为0.01而非0.02的原因又是什么呢?
- 确实如此,在监督学习中告诉了我们:这是由模型自动计算得出的结果,并且一旦得出结论后就不会再进行进一步的回答或解释。
- 确实如此,在监督学习中告诉了我们:这些算法的设计缺乏可解释性或透明性是因为它们是由人类建模得出并手动设定规则所致。因此,在涉及如反洗钱等需要明确规则的应用场景时就难以应用。
无监督的聚类方式通常是有很好的解释性的,
- 为何将它们归为一类? * 通过无监督学习可以看出,在这些样本中存在多少共同的特征及其一致性程度。因此从而被聚类到同一组中。你恍然大悟:原来如此!于是进一步归纳出一些共同的规则。如此这般分析后可知其背后的原因也就一目了然了。
DataVisor无监督独有的拓展性
设想一个n维模型,在其输出结果表现出色的情况下再增加一个维度的数据后会变成一个n+1维空间。若这个新增维度的数据特征极为重要且会对原有的分类或聚类结构造成破坏,则这将导致不得不重新评估整个模型特别地,在有监督学习中权重值几乎会被完全重新计算。然而DataVisor开发出的一种无监督算法具有极强的扩展能力即使新增维度的数据权重再高也不会对原有输出产生影响原有的成果仍然可以保留只需对新增的数据进行一次处理即可。
如何选择有监督和无监督

最直接的办法是从基本定义出发进行分析研究;当存在训练数据时,则倾向于采用监督学习策略;若完全没有训练数据,则必须放弃监督学习。然而,在实际应用问题中,在没有原始标注数据的情况下,并非完全无法运用监督学习方法——可以通过人工标注一些样本,并将它们作为新的训练数据来改善分类条件。在不同的应用场景中,正负类样本之间的分布可能出现偏差(无论是较大偏差还是较小偏差),这可能导致仅依赖监督学习的方法其效果未必最佳。
附注:人工标注任务的成本具有较高的投入与风险,并存在较大的误差可能性。基于经验判断,在当前研究环境下无监督学习逐渐成为后期研究的重点方向;然而需要注意的是,在实际应用中需权衡其计算负担。
