机器学习实战-监督学习、无监督学习
目录
监督学习
无监督学习
两者的区别
两者的使用场景
下篇文章 机器学习实战-特征选择之递归特征消除
近两天里收到了同学多封私信,在算法相关的知识领域中存在不少疑问与不解之处。目前还不知道该如何开始深入学习这一系列的概念与技术路径,请本篇文章打算详细解析这些概念的基本内涵与实际应用。

本文章节
1、监督学习
2、无监督学习
3、两者的区别
4、两者的使用场景
监督学习
监督学习,小编有个简单的理解方式,按照这个顺序来理解
1、有两拨人,一拨人是好人,一拨是坏人
善良的人通常表现出乐于助人、拾金不昧等美德。例如:帮助老人安全过马路;拾到一元钱主动上交警察叔叔;担任志愿者协助工作等。
3、坏人的行为特征有:偷东西,抢劫,欺负好人等等
4、有个审判官,根据你的行为来进行判断是好人还是坏人
5、新来了一位小伙伴,在他经常帮助年迈的老人安全地过马路的同时参与志愿服务活动等其他善举后, 最终判决你是一个善良的人。
这五点,融入到机器学习里面,用机器学习的话来说
好人与坏人:标签
好人或者坏人的行为:特征值
审判官:训练好的模型
新来的小伙伴:未知类别,待打上标签的数据
这个概念是否容易被大家快速掌握呢?在机器学习领域中,在新数据出现时通过利用现有数据训练模型来生成一个预测函数或决策边界。在新数据出现时利用该模型对新输入的数据进行预测。
监督学习里面的训练集合包含了输入与输出,代表着特征值与标签值。
在一般情况下,在实际工作中用于训练的数据集中的标签是由业务部门提供的。在实际工作中,最常见的任务通常是数据分类。利用现有的训练样本构建模型,并采用K折交叉验证的方法进行参数调优以获得局部最优解。然后利用这个模型对数据进行预测工作。
在监督学些中,最常见的是回归与分类,常见的算法有KNN,SVM,随机森林等

无监督学习
相比于监督学习,无监督学习,其实就是少了这个监督,也就是没有标签。
依然是那两个群体。然而这两拨人未能实现对善恶的明确区分,在一起时突然间上帝的手出现了,并促使人们按照各自的本性去做无需犹豫。于是善良的人们主动帮助摔倒的老奶奶过马路而邪恶的人们则试图行窃犯罪行为上帝的手成功将这两个群体区分开来并给其中一部分标上'善良'的标签另一部分标上'邪恶'的标签
这个上帝之手,就是计算机。
无监督学习中,有两种方法
基于概率密度函数直接计算:其实也就是从每个类别中的特征在空间中的分布情况中得出相应的分布参数,并随后利用这些得到的分布参数进行分类判断。
通过衡量数据样本之间相似性的聚类方法:假设每个类别都存在一个中心(可类比于黑帮头目),其特征作为基准。随后将其他样本的特征与其中心进行对比,并在识别出这属于同一类别成员时将其纳入该类别。这样一来就能形成若干个不同的类别。
这就是聚类,算法中,K-Mean,PCA,很多深度学习的算法,都是无监督学习。

两者的区别
为了实现有效的监督学习过程, 必须具备完整的训练样本集合以及独立的测试样本集合. 通过系统性地分析与优化训练数据集, 可以总结出其内在的规律或特征. 然后将总结出的模式或规则应用于待测数据集, 从而实现准确的数据映射与预测. 那时无监督学习就不需要这样的步骤: 一组数据, 直接就可以交给计算机系统处理, 让它自行计算并分析.
在监督学习中需要标明数据类别,在无监督学习中不需要为数据标注类别,并让计算机自动识别并分组,在之后由专业人员根据具体业务需求对这些类别进行命名或标注

两者的使用场景
该方法看似elementary, 其实也很straightforward, 它取决于业务方提供的信息。如果业务方提供了一组数据并指定了类别, 那么就应该采用supervised learning; 反之, 则采用unsupervised learning.

--END--
作者:溪云阁
原创作品,抄袭必究。
部分图片来源网络,如侵权请联系删除,谢谢!
