统计学习、机器学习、监督学习、半监督学习、无监督学习、强化学习都是什么
问题一:什么是统计学习、机器学习、以及它们的区别?
机器学习的几种定义:
- 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
- 机器学习是对能通过经验自动改进的计算机算法的研究。
- 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
统计学习理论:
统计学习理论是一种研究训练样本有限情况下的机器学习规律的学科。它可以看作是基于数据的机器学习问题的一个特例,即有限样本情况下的特例。
学习的统计性能:
- 通过有限样本能否学习得到其中的一些规律?
- 学习算法的收敛性:学习过程是否收敛?收敛的速度如何?
- 学习过程的复杂性:学习器的复杂性、样本的复杂性、计算的复杂性。
二者的区分:
机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
问题二:解释监督学习、无监督学习、强化学习,每个举个例子?
监督学习 (英语:Supervised learning),又叫有监督学习,监督式学习,是机器学习的一种方法,可以由训练资料中学到或创建一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
一个监督式学习者的任务在观察完一些事先标记过的训练示例(输入和预期输出)后,去预测这个函数对任何可能出现的输入的输出。要达到此目的,学习者必须以"合理"(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。
外部链接:维基百科
举例:通过房地产市场的数据,预测一个给定面积的房屋的价格就是一个回归问题。这里我们可以把价格看成是面积的函数,它是一个连续的输出值。 但是,当把上面的问题改为“预测一个给定面积的房屋的价格是否比一个特定的价格高或者低”的时候,这就变成了一个分类问题, 因为此时的输出是‘高’或者‘低’两个离散的值。

链接:https://www.jianshu.com/p/7bae1ead174e
无监督学习 (英语:unsupervised learning)是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群。无监督学习的主要运用包含:聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)。它是监督式学习和强化学习等策略之外的一种选择。
一个常见的无监督学习是数据聚类。在人工神經网络中,生成对抗网络(GAN)、自组织映射(SOM)和适应性共振理论(ART)则是最常用的非监督式学习。
ART模型允许集群的个数可随着问题的大小而变动,并让用户控制成员和同一个集群之间的相似度分数,其方式为透过一个由用户自定而被称为警觉参数的常量。ART也用于模式识别,如自动目标识别和数字信号处理。第一个版本为"ART1",是由卡本特和葛罗斯柏格所发展的。
外部链接:维基百科
举例:根据给定基因将人群分类
如图是DNA数据,对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度。然后根据测量结果可以用聚类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据,而并不知道哪些是第一种类型的人,哪些是第二种类型的人等等。 链接:https://www.jianshu.com/p/7bae1ead174e

强化学习 (英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡,强化学习中的“探索-利用”的交换,在多臂老虎机问题和有限MDP中研究得最多。
在机器学习问题中,环境通常被抽象为马尔可夫决策过程,因为很多强化学习算法在这种假设下才能使用动态规划的方法。
基本的强化学习被建模为马尔可夫决策过程:
- 环境状态的集合S;
- 动作的集合A;
- 在状态之间转换的规则(转移概率矩阵)P;
- 规定转换后“即时奖励”的规则(奖励函数)R;
- 描述主体能够观察到什么的规则。
外部链接 :维基百科
举例:Using Keras and Deep Q-Network to Play FlappyBird

This project demonstrates how to use the Deep-Q Learning algorithm with Keras together to play FlappyBird.
该项目展示了如何将Deep-Q学习算法与Keras一起使用,以通关FlappyBird。
What is Deep Q-Network?
什么是深度Q-network?
Deep Q-Network is a learning algorithm developed by Google DeepMind to play Atari games. They demonstrated how a computer learned to play Atari 2600 video games by observing just the screen pixels and receiving a reward when the game score increased. The result was remarkable because it demonstrates the algorithm is generic enough to play various games.
Deep Q-Network****是由Google Deepmind开发的学习算法,以通关Atari Games。
他们证明了一台计算机如何通过观察屏幕像素来播放ATari 2600视频游戏,并在游戏得分增加时接收奖励。结果是显而易见的,它验证了算法对各种游戏具有普适性。
https://yanpanlau.github.io/2016/07/10/FlappyBird-Keras.html
半监督学习 ,也就是训练中使用的数据,只有小部分是标记过的,而大部分是没有标记的。因此和监督学习相比,半监督学习的成本较低,但是又能达到较高的准确度。相当于我们从少量的有答案的数据里训练,然后根据学习经验对剩下的数据进行标记分类等。
在实际中,半监督学习使用的频率也是挺高的。毕竟,很多时候我们缺的不是数据,缺的是带标签的数据,而人为的给数据打标签也是很费时费力的。半监督学习出现的背景:实际问题中,通常只有少量的有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。
