Advertisement

统计学习笔记——统计学习三要素

阅读量:

参考书:《统计学习方法》——李航

统计学习的三要素为:模型、策略、算法。

写在前面的话:

以下以监督学习为基础来进行论述。

监督学习的[

基于假设,在监督学习框架下P(X,Y)表示输入变量X和输出变量Y的概率分布

](http://private.codecogs.com/eqnedit.php?latex=X)和[

](http://private.codecogs.com/eqnedit.php?latex=Y)服从联合概率分布[

P(X,Y),被视为遵循训练集与测试集的联合概率分布

](http://private.codecogs.com/eqnedit.php?latex=P(X,Y))独立同分布产生的。

一、模型

在监督学习中, 我们的目的是从输入到输出建立一个对应关系, 也就是我们所说的模型. 通常情况下, 模型主要形式有两种, 其中一种是概率模型[

该代码块展示了条件概率分布P(Y|rel),其另一种形式是非基于概率的方法

在实际应用中,
Y = f(X)
(决策函数)。
依据具体情况以及具体的训练方法,
我们选择使用概率型还是非概率型的模型。

二、策略

L(y, f(x)) = \text{某种形式的距离度量}

](http://private.codecogs.com/eqnedit.php?latex=L(Y,f(X))),这里只举例0-1损失函数来帮助理解:

[

![](http://latex.codecogs.com/gif.latex?L(Y,f(X))=\begin{cases}&space;&1&space;,\quad&space;\text{&space;if&space;}&space;Y\neq&space;f(X)&space;\\ &space;&0&space;,\quad&space;\text%7b&space;if&space;%7d&space;Y=f%28X%29&space;\end%7bcases%7d)

风险函数(期望损失)是用来衡量模型在平均意义下表现好坏的重要指标。换句话说,在整个输入输出空间中对损失函数进行求均值的过程就是风险函数的表现形式。

](http://private.codecogs.com/eqnedit.php?latex=R_{exp}(f)=E_{p}\[L(Y,f(X))\]=\int&space;L(y,f(x))P(x,y)dxdy)

这里的[

](http://private.codecogs.com/eqnedit.php?latex=P(X,Y))需要特别说明一下。在监督学习当中,我们假设输入和输出的随机变量[

](http://private.codecogs.com/eqnedit.php?latex=X)和[

](http://private.codecogs.com/eqnedit.php?latex=Y)服从联合概率分布[

](http://private.codecogs.com/eqnedit.php?latex=P(X,Y))。但是这个分布对于我们来说,是不可知的,如果可知,我们就可以直接通过[

](http://private.codecogs.com/eqnedit.php?latex=P(X,Y))来求解[

](http://private.codecogs.com/eqnedit.php?latex=P(Y| rel=),而不需要使用统计学习方法了。

显然而然,对应我们来说,最好的策略就是找到让风险函数最小的模型。可是呢,风险函数的计算需要用到[

在统计学中基于大数定律如果我们能够在输入输出空间中选取足够大的样本空间并利用该样本来近似计算风险函数那么监督学习便不再成为一个病态问题而能够获得合理的解决方案。

](http://private.codecogs.com/eqnedit.php?latex=R_{exp}(f))。基于这样的想法,我们对于含有N组数据的训练集,定义经验损失函数:

[

](http://private.codecogs.com/eqnedit.php?latex=R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})))

根据大数定律,当N趋近于无穷大的时候,经验风险函数[

](http://private.codecogs.com/eqnedit.php?latex=R_{emp}(f))就趋近于风险函数[

](http://private.codecogs.com/eqnedit.php?latex=R_{exp}(f))。

所以,在样本容量足够大的时候,我们可以用经验风险[

该模型采用最小花策略进行最优模型选择。
当训练数据量相对较少时, 我们倾向于利用经验风险函数[R_{emp}(f)]来进行参数估计。
为了增强分类器的一般化能力, 我们将引入正则化方法以防止过拟合。
在此过程中, 我们的首要目标是实现分类器的目标函数[J(f)]。

](http://private.codecogs.com/eqnedit.php?latex=R_{emp}(f))来估算风险函数[

](http://private.codecogs.com/eqnedit.php?latex=R_{exp}(f))的效果并不理想,它很有可能产生一个叫做过拟合的现象。为了防止过拟合现象,结构风险最小化这个策略被提了出来。

结构风险的定义为:

[

](http://private.codecogs.com/eqnedit.php?latex=R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda&space;J(f))

其中,[

该标记代表了模型的复杂度。该系统中所涉及的模型具有一定的复杂性。

](http://private.codecogs.com/eqnedit.php?latex=f)越复杂,[

](http://private.codecogs.com/eqnedit.php?latex=J(f))的值就越大。[

λ是一个非负系数,在协调经验损失与模型复杂度之间起作用的一个参数值

](http://private.codecogs.com/eqnedit.php?latex=\lambda&space;J(f))起到是一个惩罚项的作用,当模型越复杂,惩罚项越大。它所基于的理论是,当一个模型越复杂,我们认为它的泛化能力越差,越不具有一般性,越容易发生过拟合。

综上,我们在统计学习中的策略一般有两种——经验风险最小化,结构风险最小化。此时,我们就把统计学习问题转为了求解下面目标函数的优化问题:

[

](http://private.codecogs.com/eqnedit.php?latex=min&space;\quad&space;\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})))

或者:

[

minimum of the expression \frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i)) + \lambda J(f)

三、算法

方法即是解决该优化问题的关键所在。

这将涉及数值优化的相关知识。

选择恰当的最优化方法即可解决该问题。

全部评论 (0)

还没有任何评论哟~