统计学习方法知识总结
1、统计学习
1.1.统计学习的主要特点:
(1) 统计学习基于计算机及其网络平台;
(2) 统计学习主要围绕着数据展开研究;
(3) 统计学习的主要目标在于对数据进行预测与分析;
(4) 统计学习以方法为核心,在构建模型的同时并将其应用来进行预测与分析;
(5) 统计学习综合运用概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的知识,并在其发展过程中逐渐形成了独立的理论体系与方法论。
1.2.统计学习的目的:
统计学习被广泛应用于数据分析的过程中;尤其是针对未知新数据样本特征的数据建模;通过对历史数据的学习和总结来推断未知事件的可能性;从而提升了算法性能;而通过对已有数据特征提取进而深入挖掘潜在的知识分布状态;有助于洞悉事物发展规律;同时该过程还涉及构建概率统计模型这一核心环节;其最终目标即在于探索最优的数据驱动方法;使得系统能够准确预测未来事件并实现精准分类任务;与此同时研究者们也致力于优化算法运行效率以降低计算资源消耗程度
1.3.统计学习的方法:
统计学手段是以数据为基础建立统计模型以实现对数据的预测与分析。该领域主要包括以下几种主要类型:
- 监督式学(supervised learning):基于带标签的数据集进行模式识别。
 - 非监督式学(unsupervised learning):适用于无标签数据集并执行聚类分析。
 - 半监督式学(semi-supervised learning):结合有标签和无标签样本的学习方法。
 - 强化式学(reinforcement learning):通过定义明确的好行为与坏行为并结合自我导向的学习算法实现程序决策优化。
 

1.4. 统计学习方法的步骤:
(1) 获取一个限定数量下的训练数据集;
(2) 界定所有可能涉及的模型所构成之假设空间;
(3) 设定用于评估和比较候选模型的标准体系;
(4) 设计一种系统化的流程以寻觅最佳解决方案;
(5) 基于现有的学习机制确定最佳方案;
(6) 利用优化后的策略对新数据进行预测或分析。
1.5.统计学习的研究
系统地探讨统计学习研究的整体框架与内涵,在现有研究的基础上对现有成果进行总结与创新
2. 监督学习(supervised learning)
2.1监督学习的任务
监督学习的目标是构建一个模型,在面对任意给定的输入时(特别是针对某个系统运行时的具体输入),使该模型能够针对任意给定的输入提供出准确且有质量的预测结果)。值得注意的是,在本领域中所讨论的'输入'和'输出'指的是某个系统运行时的具体状态变化情况(而非一般性的数据处理)。由于计算机执行操作的核心机制是接受特定输入并生成相应的输出结果(即完成数据转换功能),因此监督学习作为统计学中的重要分支,在数据处理与模式识别领域具有广泛的应用价值
2.2监督学习中的基本概念
2.2.1 输入空间、特征空间与输出空间
在监督学习中,在所有可能取值构成的集合中分别称作输入集和输出集(input set and output set)。这些集合既可以是有限元素集合也可以是欧氏全集(Euclidean full set)。这些集合之间可能存在相同的维度或者不同的维度;但通常情况下输出维度远低于输入维度(一般而言)。
每一个具体实例即为一个样本(sample),通常可用一个特征向量(feature vector)来描述(describe)。这样其形成的域即为特征域(feature domain),其中每个维度代表某种属性(attribute)。为了简化问题分析,在某些情况下我们假定这两个域是一样的;而在其他情况下则认为它们是有区别的,并且通过某种映射关系将实例从一域转换到另一域。所有的模型本质上都是建立在这一特定的领域之上的。
2.2.2联合概率分布
监督学习基于这一假设:输入变量X和输出变量Y遵循联合概率分布函数P(X,Y)。需要注意的是,在学习过程中,默认假定这一联合概率分布在理论上是存在的。将训练数据集和测试数据集视为根据联合概率分布P(X,Y)独立同分布生成的结果。统计学方法则依赖于这一假设:认为数据中包含着一定的统计规律性
2.2.3假设空间
监督学习的目标在于掌握输入与输出之间的对应关系。这一对应关系由特定的学习算法所构建。进一步说明的是,在监督学习中我们的核心目标就是寻找到最优的学习方案以实现最佳预测效果。这些对应关系构成了自输入空间到输出空间的所有可能映射的集合即所谓假设空间 ( hypothesis space) 。确定假设空间就等同于明确了可由该方法所处理的学习问题范围。而监督学习中的具体实现则可分为概率型模型与非概率型模型两类分别由不同的数学表达进行描述
4. 统计学习三要素:(模型+策略+算法)
体系:在监督学习过程中... 其实质即为条件概率分布P(Y|X)或决策函数y=f(X),构成一个假设空间。
策略:从假设空间中选择最佳方案的方式... 是最小化损失函数(期望风险、经验风险)的过程。
方式:实现模型的具体计算过程... 是求解最优化问题的方法。
当明确了体系、策略与方式三个要素后... 统计学习的方法也随之确定。

4.1 模型
在统计学习的过程中, 首先需要考虑选择哪些类型的学习器. 在监督学习场景下, 学习器实际上就是用来建模所涉及的概率分布关系或函数形式. 基于决策函数构建的模型属于非概率型, 而基于条件概率分布构建的则是典型的概率型

4.2 策略
有了模型的假设空间后, 统计学习接下来要考虑的是采用哪种标准来学习或选择最优的模型. 其目标是通过在假设空间中选择最佳化的模型来完成任务. 损失函数用于衡量单次预测的效果如何; 而风险函数则用于评估整体上预测效果如何.
4.2.1损失函数和风险函数
监督学习问题主要涉及从假设空间F中选择合适的模型f作为决策机制,在给定输入数据X的情况下,在经过模型处理后得到的结果是Y。其预测结果与实际结果可能存在差异,并可通过设定合适的损失函数来评估预测误差的程度。


目标在于选择风险最低的学习模型。由于联合概率分布在实际应用中通常是未知的,在这种情况下我们无法直接计算损失函数的真实期望值。然而如果已知联合概率分布,则可以直接从该分布中推导出相应的条件概率从而可以省去必要的学习过程。然而由于我们并不掌握联合概率分布在真实场景中的表现因此必须采取其他方法来解决这一问题进而导致监督学习问题因而成为一个不适定问题(ill-posed problem)。

预期损失是由模型基于联合概率分布所计算出的风险指标;而经验风险则代表了模型在训练集上的平均损失。由大数定律可知,在样本容量N趋近于无限大的情况下,经验风险会趋近于其对应的期望值。由此导出一个自然的想法就是利用经验的风险来作为其对应期望值的估计。然而由于在实际应用中训练数据量通常有限且规模较小因此需要对经验 risk 进行适当的修正以提高其准确性
4.2.2 经验风险最小化与结构风险最小化

4.3 算法
该过程是构建机器学习系统的基本路径。具体而言,在这一步骤中:
- 首先需明确构建基于训练数据集的学习器;
 - 然后依据设定的学习策略选择合适的学习器;
 - 最后需确定采用何种计算方式来获得最优模型;
 - 最终还需解决如何高效地从大量数据中提取有用信息的问题。
在实际应用中: - 如果能够找到解析解,则该类优化问题较为简单;
 - 但在大多数情况下无法获得解析解,则需借助数值方法来解决。
为了实现全局最优目标: - 必须设计高效的求优过程;
 - 同时还要确保整个系统的可扩展性。
在此基础上: - 可以借鉴现有的机器学习框架;
 - 同时也需要开发新的机器学习算法以满足特定需求。
机器学习体系的设计方案本质上由三部分组成: - 模型结构
 - 学习策略
 - 求优方式
这正是为什么将其统称为机器学习三要素的原因 
5.模型的评估和选择:
(选择输入变量个数以及与输出变量可能的关系模型集合)
5.1模型的评估
统计学习旨在使学到的模型在面对已知数据以及未知数据时都能表现出良好的预测能力。采用不同的学习方法会得到不同的模型结构。设定好损失函数后,在选定该损失函数的前提下计算出训练误差和测试误差自然构成了评价学习方法的标准。需要注意的是,在统计学习过程中所选择的具体损失函数可能与实际评估时使用的并不完全一致。当然希望两者能够达到一致的效果。

训练误差的具体数值对于评估模型的学习难度而言具有一定的参考价值,但这一数值本身并不构成核心判断依据.测试误差则直接反映了机器学习算法在面对未知测试数据集时的表现,在机器学习中被视为一个关键指标.可以看出,在比较两个不同的学习方案时,测试误差较小的那个方案不仅能够更好地拟合现有数据,更能保证对新数据的预测准确性,从而体现出更高的实用价值.值得注意的是,模型在面对新数据时的表现即为其泛化能力.
5.2模型的选择
5.2.1过拟合和模型复杂度:
过拟合:一般来说,越复杂的模型,对训练数据的拟合效果越好,但是由于训练数据本身存在噪声。因此对训练数据高度拟合的模型,应用到新的数据集上不一定能达到很好的预测效果。这就是过拟合问题。为了防止过拟合,模型选择时,不仅要考虑对已知数据的预测能力,还要考虑对未知数据的预测能力(泛化能力)。模型选择旨在避免过拟合并提高模型的预测能力。
模型复杂度:当模型的复杂度增大时,训练误差会逐渐减小并趋向于0,而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。防止过拟合常用的方法有:正则化和交叉验证。

5.2.2模型选择的方法
(1)正则化
模型选择的主要手段是正则化解算器(regularization),它体现了一种结构风险最小化的策略,在经验风险的基础上附加一个正则化解算器(即regularizer或penalty term)。这些额外加入的解算器通常是与模型复杂度相关的,并且随着复杂性的增加而增大。因此,在优化过程中如果模型过于复杂,则会使得泛化能力下降。例如,在深度学习中常见的做法是使用L1或L2范数作为解算器。


正则化遵循奥卡姆剃刀(Occam’s razor)原理。当应用于model选择时,则形成了以下观点:在可选的所有model中找到一个既能很好地explanation已知data又足够simple,则该model即为最优解。从贝叶斯估计的角度来看,则认为regularization term相当于该model的prior probability分布。我们可以假定,在complex程度上与该model相关联的情况下, simple model拥有较小prior probability,而complex model拥有较大prior probability。
(2)交叉验证
常见使用的交叉验证方法:
- 简单交叉验证 :数据集分成测试集和训练集,然后训练集在各种条件下训练模型,从而得到不同模型。在测试集评测各种误差,选出测试误差最小的一个模型。
 - S折交叉验证 :将数据集随机划分为S个不同的子集,S-1个用于训练,剩下的用于测试;重复这一过程。
 - 留一交叉验证 :N个样本的数据集,且N比较小时,直接令S = N,那么每次只会留一个样本用于测试。
 - 自助法 :对数据集D进行N次有放回的采样得到D’,把没出现在D’的样本用于测试,出现过的样本用于训练。
 
(3)模型选择的其他方法:
- 前向选择法(Forward Search) :
 
- 将特征集合初始化为空集Φ。
 - 对每一个不在当前特征集合中的变量(即不属于Φ的变量),评估加入该变量对模型性能的影响程度。
 - 选择具有最高提升度的变量加入当前集合。
 - 依次执行第二步和第三步的操作序列,直到模型性能无法进一步提升为止。
 
- 后向选择法(Backward Search) :类似于前向逐步回归方法,在每一次迭代过程中都会移除那些对模型准确性影响最小的变量。
 
特征过滤:
上述方法虽然能达到较好的特征选择效果, 但该方法需要频繁调用模型训练算法, 导致计算量较大, 尤其在面对较大的训练数据集时表现更为明显。为了使特征选择更加简便, 可采用一种更为简单的过滤方法实现目标。
Filter Feature Selection: 通过应用启发式规则对数据进行筛选, 最终获得较为优质的特征集。
- 互信息(mutual information,MI)
可以作为一种评价指标。互信息能够衡量特征 xi与类别标签 y 之间的关联程度,并以此筛选出与类别标签 y 最为相关的特征 xi。当 xi为离散型变量时,互信息 MI 的计算公式如下: 

应用互信息(MI)作为评估指标之后
5.2.3泛化能力
泛化性能:机器学习算法的学习能力是指其在面对未知数据时所具有的预测能力这一本质特征属性。在实际应用中最为常用的方法是以模型在测试集上的平均损失作为其泛化性能评估指标;然而这一评估方式存在明显缺陷:由于所选取的数据集规模有限,在实际应用中所获得的结果可能存在较大偏差;因此统计学习理论研究者们转而寻求一种更为严谨的方法来进行理论分析探讨这一本质规律。
其定义为在所有可能的数据分布下模型期望损失的最大值;对于二分类问题而言当假设空间由有限个函数构成时(即Ω={f₁,f₂,…,f_d}),对于任意给定的函数f∈Ω,在概率至少为1−δ的情况下满足以下不等式:
P(l(f(x),y)>ε)≤exp(-2Nε²)+\frac{d}{N}
其中N表示训练样本的数量ε代表期望误差d代表假设空间中的函数个数。

泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效.事实上,泛化误差就是所学习到的模型的期望风险。
泛化误差上界 :定义为测试数据集的期望(风险)损失(也就是泛化误差)的最大值。
对于二分类问题,当假设空间是有限个函数的集合 Ω={f1,f2,…,fd}时,对任意一个函数 fϵΩ ,至少以 1−δ 的概率,使得不等式成立:


可以看出,在泛化误差的构成中存在两项关键要素:其一为训练数据带来的经验风险(Empirical Risk),该风险指标能够直接反映模型对训练集的表现;其二则与模型复杂度相关联,在具体应用中需权衡二者之间的平衡关系以达到最佳预测效果。具体而言,在经验风险这一项中,当模型参数估计越准确时(即参数θj值越趋近于零),经验风险会相应降低;而在经验风险上界这一部分,则主要受两个因素的影响:一方面与样本数量N成反比关系;另一方面则与假设空间的数量d呈正相关关系。因此,在实际应用中应当综合考虑这两者的关系以实现最优模型性能
6.1监督学习的分类:
(监督学习有两种划分方法, 一种将监督学习划分为生成模型与判别模型; 另一种则将监督学习划分为分类问题, 标注问题及回归问题。)
(1)判别模型: 由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型
常见的判别式模型有:
         Logisticregression
         Lineardiscriminant analysis
         Supportvector machines
         Boosting
         Conditionalrandom fields
         Linearregression
         Neuralnetworks
        (2) 生成模型:基于数据学习联合概率分布P(X,Y)之后,并由此获得条件概率分布P(Y|X)用于预测;该过程定义为生成模型。
常见的生成式模型有:
         Gaussian mixture model and othertypes of mixture model
         HiddenMarkov model
         NaiveBayes
         AODE
         LatentDirichlet allocation
         RestrictedBoltzmann Machine
        (3)生成模型 vs 判别模型:
- 与判别式方法相比,在实现上可以通过某种途径恢复出联合概率分布P(X,Y);在效率上更为高效;当存在潜在变量时同样适用。
 - 与生成式方法相比,在实现上可以直接学习条件概率或决策函数来处理预测任务,并且通常可以获得更高的分类精度;同时具备对数据进行多角度抽象的能力以及特征提取能力。
 - 在关注点上具有显著区别:生成式网络主要关注如何从输入X到输出Y建立映射关系。
 - 而判别式网络则侧重于如何基于输入X确定相应的输出Y。
 - 在训练目标上存在本质差异:判别式网络旨在优化条件概率分布p(y|x), 使得样本特征与其类别标签之间更加清晰;而生成式网络则致力于优化训练数据的联合分布p(x,y), 并在此基础上构建完整的统计推断框架。值得注意的是, 通过贝叶斯定理可以从一个网络结构中反推出另一个网络结构, 但在实际应用中两者并不能相互替代。
 
6.2监督学习解决的三类代表性问题
(1)分类问题(classify)
定义:当输出变量Y是有限个离散值时,预测问题便成为分类问题,此时的输入变量X可以时离散也可以是连续的。
过程:学习-根据已知的训练数据集,利用有效的学习方法学习一个分类器(分类模型、分类决策函数)
分类-利用学习的分类器对新的输入实例进行分类
许多统计方法可以用于分类包括:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
(2)标注问题(tagging)
定义:使该系统具备对观察序列生成标记序列的能力。
过程:通过根据训练数据集建立一个条件概率分布来完成建模。
标注:基于从数据中学习得到的概率模型推导出相应的标记序列。
标注常用的统计学习方法包括隐马尔科夫模型和条件随机场等技术
(3)回归问题(regression)
定义:主要用来分析输入与输出之间的相互关联情况;尤其关注当输入变化时对输出的影响程度。
过程:通过训练数据建立映射关系Y=f(X),其中X表示输入特征。
预测:针对新的输入样本x值进行推断分析以获得相应的预测结果。
回归问题:按变量数量划分可分为一元回归与多元回归;根据输入与输出间的关联性及模型类型可分为线性与非线性两种类型。
在这些应用中,通常采用平方损失函数作为衡量标准;这种设定下可通过最小化误差平方和来求解最优参数。
