Advertisement

【机器学习】1.基本概念:监督学习 非监督学习 半监督学习

阅读量:

【机器学习】1.基本概念:监督学习 非监督学习 半监督学习

  • 机器学习基本概念
    • 特征与标签
    • 监督学习
    • 回归与分类
    • 非监督学习
    • 半监督学习

机器学习基本概念

特征与标签

标签 是我么要预测的事物,即线性回归中的y变量。标签可以是小麦未来的价格,图片中人脸的性别,音频的含义等一切要预测的事物。

特征 是是输入变量,即线性回归中的 x 变量。特征是预测事物的证据,而标签就是预测的结果。
以周志华老师在《机器学习》中判断好瓜的问题为例——给你一个西瓜,如何判断出一个它是不是成熟的好瓜?根据以前的经验,我们首先会从西瓜这个具体的事物中抽取一些有用的信息,比如西瓜的颜色、瓜蒂的形状、敲击的声音等,然后根据一定的规则在这些信息的基础上进行判断————一般情况下我们认为颜色青绿、根蒂蜷缩、敲击浊响的西瓜是好瓜。
上述问题中,西瓜的颜色、瓜蒂的形状、敲击的声音就是特征,而“好瓜”和“坏瓜”这两个判断就是标签。
机器学习可以分为三类:监督学习、非监督学习、半监督学习也叫强化学习。

监督学习

监督式的机器学习 是指你拥有一个输入变量(x)和一个输出变量(Y),使用算法去学习从输入到输出的映射函数:Y=f(x)
我们的目标是得到足够接近映射函数的函数,当我们有新的的输入变量(x)时,能够准确的预测出它对应的输出变量Y。
这种方式被称为监督学习,算法在学习训练数据集从输入变量到输出变量的过程好像有一位老师在监督学习的过程。对于训练数据集,我们已经知道了它的输出Y,算法不断迭代对训练数据做出预测然后不断被一名教师修正。算法表现会越来越好,预测结果越来越准确,当算法准确性达到一个可接受的程度时学习过程停止。

回归与分类

监督式的机器学习进一步分为两类:回归问题和分类问题。
回归问题 :回归问题指输出变量Y是连续值 ,比如要预测图片中人脸的年龄,小麦未来的价格。
分类问题 :分类问题指输出变量Y是离散值 ,比如预测图片中人脸的性别,西瓜是好瓜还是坏瓜。

非监督学习

非监督式学习指我们只有输入变量(x),没有相关输出变量Y。非监督学习是我们事先没有任何训练样本,直接学习数据的结构和分布并将它们“分组”。就好像我们去参观一个画展,我们对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。非监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。

半监督学习

半监督学习介于监督学习和非监督学习之间。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量通常远远大于有标签数据数量(这也是符合现实情况的)。
隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到更好的分类结果。我们的目标是学习一个预测器来预测未来的测试数据,这个预测器比单独从有标记的训练数据中学习的预测器更好。
点赞,手持,加关注哦,一起学习!

全部评论 (0)

还没有任何评论哟~