PRML读书笔记(三)

阅读量：

回归的目标是在给定输入的情况下，预测具有连续性质的目标值。线性回归中的线性是相对于参数而言的。

3.1 线性基函数模型(Linear Basis Function Models)

最简单的线性回归模型是： $y(\mathbb{x},\mathbb{w})=w_0+w_1x_1+\dots+w_Dx_D$ ，很明显这个模型不足以表达复杂的模型，但是我们能够从这个模型中得出线性回归模型的一般形式

其中 $\phi_j(\mathbb{x})$ 即基函数，该函数可以是任意的函数，一般为非线性函数(为了提高模型的表达能力)； $w_0$ 为偏置，假设我们令 $\phi_0(\mathbb{x})=1$ ，那么上式就可以简化成

整个模型对于输入是非线性的，而对于参数是线性的，这样就在提高模型表达能力的同时，也简化了模型。但是这种简化也导致了明显的限制，后面会详细介绍。

第一章中的曲线拟合，我们令 $\phi_j(x)=x^j$ ，多项式基函数是输入变量的全局函数，如果一个输入变量的区域改变会影响其他的输入区域，比如 $(2,1,1,1)\to(2,1,1,9)$ ，但是如果采用如高斯基函数等局部函数的话，就不会出现这种情况。

常见的几类基函数:
1. 多项基函数：
2. 高斯基函数： $\phi_j(x)=\exp\left\{-\frac{(x-\mu_j)^2}{2s^2}\right\}$
3. sigmoid： $\phi_j(x)=\sigma\left(\frac{x-\mu_j}{s}\right),\sigma(a)=\frac{1}{1+\exp(-a)}$
basis_function

3.1.1 最大似然和最小二乘法

假设目标值t由判别函数与一个额外的噪声给出: $t=y(\mathbb{x},\mathbb{w})+\epsilon$ ，其中噪声为一个均值为0、精度为 $\beta$ 的高斯噪声。那么

假设我们令其损失函数为平方损失函数(square loss function)，那么最优预测值就与条件均值一致

其中 $p(t\vert \mathbb{x})=p(t\vert \mathbb{x},\mathbb{w},\beta)$ 。需要注意的是高斯噪声假设隐含t在给定x的条件分布是单峰的，这个性质可能对于某些应用不太合适。作为扩展，我们可以采用混合高斯分布。

$\boldsymbol{X}=\{\mathbb{x}_1,\dots,\mathbb{x}_N\}$ ，其对应的值为 $\mathbb{t}=\{t_1,\dots,t_N\}$ ，那么

为了使公式保持整齐，我们可以将上式写成

要使 $p(\mathbb{t}\vert \mathbb{w},\beta)$ 最大，那么

如果我们将偏置参数提出来，那么

由上面公式我们可以看出，偏置参数补偿平均目标值与基函数加权平均值的差异。

我们可以得到预测值与噪声的精度无关，但噪声的精度可以作为衡量预测值与目标值差异的一个标准。

3.1.2 最小二乘的几何形状

首先考虑坐标轴为 $t_n$ 的N维空间，那么 $\mathbb{t}_n=\{t_1,\dots,t_N\}^T$ 就是这个空间里的一个向量。那么 $\boldsymbol{\varphi}_j=\{\phi_j(\mathbb{x}_1),\dots, \phi_j(\mathbb{x}_N)\}^T$ 也是N为空间里的向量。 $\boldsymbol{\mathbb{y}}=\{y(\mathbb{x}_1, \mathbb{w}),\dots,y(\mathbb{x}_N, \mathbb{w})\}^T$

如果基函数的数量 $M$ 小于训练数据集的数量 $N$ ，那么我们可以找到一个M维的子空间 $\mathcal{S}$ 来表示 $\boldsymbol{\varphi}_j$ ，而 $\boldsymbol{\mathbb{y}}$ 是向量的任意线性组合，所以可以落在M维子空间的任意位置上。所以最小二乘法的解就变成了 $\mathbb{t}$ 在子空间的投影。
geometry_of_least_squares

3.1.3 顺序学习

最小二乘法的顺序学习可以采用随机梯度下降法

3.1.4 正则化的最小二乘法

在第一章中，我们介绍了一种正则化的方法来控制过拟合，即

上面的 $E_W$ 是比较常见的权值衰减，也可以采用其他的正则化方法。权值衰减的一个优点是保持整个损失函数仍然是权值的二项式。正则化方法会使权值收缩，从而减小噪声的影响。
regularization

对于上式我们可以将其看成约束条件为 $\sum_{j=1}^{M-1}\vert w_j\vert^q\le \eta$ 的拉格朗日乘子，那么
lasso_vs_decay

由于上图中的损失函数是 $w_1,w_2$ 的二项式函数，所以为圆形。当 $\lambda$ 增加时，会驱使更多的权值趋向0。

3.1.5 多个输出值

当有 K 个输出值时，那么权值 $W$ 为MxK的矩阵。之后的分析是一致的。

3.2 Bias-Variance

我们知道如果训练数据集过小，而模型太复杂的话，会导致过拟合现象，但是如果为了减小过拟合现象而限制模型的灵活性，又可能会捕捉不到数据的重要性质。因此我们引入了正则化项，但是如何决定仍然是个难题。

第一章中我们得到了 $E(L)$ 的表达式，

上式的 $h(\mathbb{x})$ 是最佳预测，而 $y(\mathbb{x})$ 是实际预测。其中第二项是固有的噪声，第一项跟我们选取的相关，当我们有充足的训练数据的时候 $y(\mathbb{x})=h(\mathbb{x})$ ，但是往往训练数据集是有限的。

如果我们用 $y(\mathbb{x},\mathbb{w})$ 来对建模，在贝叶斯方法中，这个模型的不确定性由 $p(\mathbb{w}\vert \mathbb{x})$ 决定；而对于频率方法来说，需要基于一个特定数据集 $\mathcal{D}$ 来对 $\mathbb{w}$ 进行估计。对于任意数据集，我们能够得到 $y(\mathbb{x};\mathcal{D})$ ，那么评测一个学习算法的性能时采用对所有数据集的集成平均。

假设我们有一个数据集，则第一项的被积函数可以写成

实际预测值相对于的平均值为 $E_\mathcal{D}[y(\mathbb{x};\mathcal{D})]$ ，那么上式可以写成

是最佳预测不依赖于。偏置(bias)项表示平均值与最佳预测值的差异，方差(variance)表示了个体数据与平均值的震荡程度，即对于特殊的数据集敏感度。因此期望平方差可以写成

由于噪声是固有的，因此我们只能优化bias和variance，对于灵活(flexible)模型有较小的偏置极大方差，对于相对刚性(rigid)的模型具有较大的偏置和较小的方差。
bias_variance_lambda

这个图在方差方面不太直观，可以参考第一章图1.4.
bias_variance

尽管从频率观点上，bias-variace分解能够提供一些有趣(interesting)的见解，但是它是基于对集成数据集上的，而在实际中我们只有一个数据集。如果我们有一系列数据集，合并成一个数据集也可以减小过拟合现象。

3.3 贝叶斯线性回归

贝叶斯方法能够避免最大似然方法导致的过拟合现象，并且在只使用训练数据的情况下自动决定模型的复杂性。

3.3.1 参数分布

第二章中我们介绍了在贝叶斯方法中最重要的是共轭先验，在线性回归中我们知道似然函数为 $p(\mathbb{t}\vert \mathbb{w},\beta) = \prod_{n=1}^N\mathcal{N}(t\vert \mathbb{w}^T\boldsymbol{\phi}(\mathbb{x}_n),\beta^{-1})$ 是关于二项式的指数函数，那么共轭先验是

上述后验概率的推导可以利用 completing the square方法得出。由于后验概率是高斯分布，因此它的模(mode)即均值(mean)，所以 $\mathbb{w}_{MAP}=\mathbb{m}_N$ 。如果 $\boldsymbol{S}_0=\alpha^{-1}\boldsymbol{I}$ ，当 $\alpha\to0$ 时，先验概率就表示对整个空间上的参数没有偏向，那么 $\mathbb{m}_N$ 就变成了 $\mathbb{w}_{ML}$ 。

考虑一个特殊共轭先验 $p(\mathbb{w}\vert \alpha)=\mathcal{N}(\mathbb{w}\vert \boldsymbol{0},\alpha^{-1}\boldsymbol{I})$ ，那么

从 $\ln p$ 可以看到权值衰减的平方差损失函数符合贝叶斯思想。
beyasian learning

3.3.2 预测分布

但是需要注意到是到目前为止，还是进行了点估计，上面的方法又叫做model selection，即选择后验概率最大的模型；下面我们介绍model averaging，即将多个模型加权平均从而得到预测分布。给定一个新的输入 $\mathbb{x}$ 预测它的值 $t$ ，

上面的公式为了简化概念，省略了相对应的输入值

$\sigma^2_N(\mathbb{x})$ 的第二项表示相对于参数的不确定性，当 $N\to\infty$ 时，第二项趋向于0。
predictive distribution

从上图我们可以看出预测的不确定性依赖于 $x$ ，当在训练数据邻近时，不确定性大大降低，而且当训练数据增多时，整体不确定性降低。

下图是从后验概率抽取参数，并且画出它们的曲线
bayesian curve sample

3.3.3 等价核(Equivalent Kernel)

在model selection方法中，加入我们将均值代入到 $y(\mathbb{x},\mathbb{w})=\mathbb{w}^T\boldsymbol{\phi}(\mathbb{x})$ ，得到

进一步写成

上式 $k$ 即equivalent kernel。我们可以将 $k(\mathbb{x},\mathbb{x}_n)$ 看成相对应的权值。

weight local evidence more strongly than distant evidence。

由此我们知道在预测值附近的点高度相关，而对于两个距离比较远的点相关性比较小。

3.4 贝叶斯模型比较

最大似然方法导致的过拟合现象能够通过边缘化(累加或积分)模型的参数而不是对参数进行点估计来避免。假设我们想比较L个模型 $\{\mathcal{M}_i\},i=1,\dots,L$ 。模型表示对数据集的概率分布。 $p(\mathcal{M}_i)$ 表示刚开始我们对这个分布的不确定性，即先验，那么给定一个数据集后，

$p(\mathcal{D} \vert \mathcal{M}_i)$ 是模型的证据(model evidence)，即表示模型被当前数据集的偏向性(preference)，又叫边缘似然(marginal likelihood)。贝叶斯因子： $p(\mathcal{D} \vert \mathcal{M}_i)/p(\mathcal{D} \vert \mathcal{M}_j)$

对于model averaging来说

很明显对于model averaging来说，计算量是一个比较大的限制，因此有时候我们可以用最大后验概率的模型来近似model averaging，这叫做model selection。模型由参数控制，那么

$\mathcal{M}_i$ 相当于模型的超参数(hyper-parameter)，比如线性回归中基函数与基函数的个数；而则是这个模型学到的参数，很明显在相同的超参数下，参数有多重可能性。

下面我们考虑在模型情况下，并且只有一个参数 $w$ ，后验概率 $p(w \vert \mathcal{D}) \propto p(\mathcal{D} \vert w ) p(w)$ ，假设后验概率分布集中分布在 $w_{MAP}$ ，宽度为 $\Delta w_{posterior}$ ，假如我们进一步假设先验为 $p(w)=1/\Delta w_{prior}$
Bayesian model assumption

第一项表示模型在最大后验对数据的拟合程度；第二项是惩罚项，因为 $\Delta w_{posterior} < \Delta w_{prior}$ ，所以这项是负值，并且当模型越复杂时，就越小，从而使惩罚越重(对于相同的模型，惩罚项相同？)。

假设有M个参数，并且所有的参数有相同的比率 $\Delta w_{posterior} / \Delta w_{prior}$ ，那么

此时模型的复杂性由M控制，当M增加时，第一项增加，当模型越复杂，它能更好的拟合数据，从而 $p(\mathcal{D}\vert \mathbb{w}_{MAP})$ 增加，故第一项增加；第二项减小，这是因为 $\ln\left(\frac{\Delta w_{posterior}}{\Delta w_{prior}}\right)$ 为负，故M增加，第二项减小，从而最优解是这两项的平衡点(trade-off)。
models comparison which have different complexity

由上图我们知道，采用的模型跟数据量的大小有关。

贝叶斯模型能够只用训练数据选择最佳模型(理论上？)，假设我们有两个模型 $\mathcal{M}_1,\mathcal{M}_2$ ，而真实模型为 $\mathcal{M}_1$ ，那么

上式为相对熵，表示的不相似性，明显理论上是可以单单采用训练数据就可以选择正确模型，但是在有多个模型的时候，计算量十分复杂。

3.5 The Evidence Approximation

Fully Bayesian中要求边缘化hyper-parameter，但是这往往是analytically intractable的，因此我们用逼近思想去分析，

如果后验分布 $p(\alpha,\beta\vert \mathbb{t})$ 集中分布在 $\hat{\alpha},\hat{\beta}$ 上，那么上式近似于

所以现在我们的目标最变成了如何确定，由于 $p(\alpha,\beta\vert \mathbb{t})\propto p(\mathbb{t}\vert \alpha,\beta )p(\alpha,\beta)$ ，如果我们对 $p(\alpha,\beta)$ 没有偏向，那么变成了 $p(\alpha,\beta\vert \mathbb{t})\propto p(\mathbb{t}\vert \alpha,\beta )$ ，从而目标变成了求 $p(\mathbb{t}\vert \alpha,\beta )$

3.5.1 Evalution of Evidence Function

我们想得到高斯函数的指数形式即 $E(\mathbb{w})=\frac{1}{2}(\mathbb{w}-\mathbb{m}_N)^T\boldsymbol{A}(\mathbb{w}-\mathbb{m}_N)+E(\mathbb{m}_N)$ ，第二项是与无关的项，根据completing the square方法，我们得到

所以

下图是第一章中曲线拟合的model evidence
evidence function

3.5.2 Maximizing the evidence function

首先我们考虑 $p(\mathbb{t}\vert \alpha,\beta)$ 相对于 $\alpha$ 的偏导，在这之前我们定义 $(\beta \boldsymbol{\Phi}^T\boldsymbol{\Phi})\mathbb{u}_i =\lambda_i\mathbb{u}_i$ ，那么 $A$ 的特征值即为 $\alpha+\lambda_i$ 。

需要注意的是 $\alpha = \frac{\gamma}{\mathbb{m}_N^T\mathbb{m}_N}$ 并不是的直接解，因为 $\gamma,\mathbb{m}_N$ 都依赖于。我们采用迭代过程来对进行求解，首先任意初始化，然后求 $\mathbb{m}_N=\beta\boldsymbol{S}_N\boldsymbol{\Phi}^T\mathbb{t}$ ，再求 $\gamma$ ，递归求解

同理求的偏导

明显也要用迭代过程来对进行求解。而且我们知道 $\alpha,\beta$ 的值依赖于训练数据。

3.5.3 有效参数的数量

当时，此时的模是似然函数的解，而 $A=\beta \boldsymbol{\Phi}^T\boldsymbol{\Phi}$ ，也就是说 $\lambda_i$ 是一个参数被数据决定的程度( measures how strongly one parameter is determined by the data)。那么就是所有参数被先验决定的程度。 $\mathbb{w}_{MAP_i} = \frac{\lambda_i}{\lambda_i+\alpha}\mathbb{w}_{ML_i}$ ，如果 $\lambda_i\ll\alpha$ ，那么 $w_i\to0$ ，即数据对这个参数不敏感，由上面分析可以知道 $\gamma_i=\frac{\lambda_i}{\lambda_i+\alpha}$ 能够估量有效参数的数量。

现在我们考虑，在贝叶斯分析中 $\frac{1}{\beta_{MAP}} = \frac{1}{N-\gamma}\sum_{n=1}^N\{\mathbb{t}_n-\mathbb{m}_N^T\boldsymbol{\phi}(\mathbb{x}_n)\}^2$ ，而在最大似然估计中 $\frac{1}{\beta_{ML}} = \frac{1}{N}\sum_{n=1}^N\{\mathbb{t}_n-\mathbb{w}_{ML}^T\boldsymbol{\phi}(\mathbb{x}_n)\}^2$ ，因为在贝叶斯分析中的参数有效数量取决于，因此要补偿最大似然估计从而使其无偏。

当 $N\gg M$ 时， $r=M$ ，此时

全部评论 (0)

还没有任何评论哟~

PRML读书笔记(三)

回归的目标是在给定输入的情况下，预测具有连续性质的目标值。线性回归中的线性是相对于参数而言的。 3.1线性基函数模型LinearBasisFunctionModels 最简单的线性回归模型是：y\ma...

PRML读书笔记(四)

分类的线性模型分类的目标是在给定输入，预测具有离散性质的目标值。输入空间被多个决策平面划分成多个决策区域，每个区域代表一个类别。决策平面是输入特征的线性函数待会会详细介绍，因此在D维空间上的决策平面...

PRML读书笔记(一)

MachineLearning基础 MachineLearning步骤整个机器学习大致可以分为4个步骤：数据分析，数据预处理，模型选择以及训练和优化。比较宏观的流程如下图所示。

PRML读书笔记（一）

从多项式拟合开始机器学习中的有监督学习机器学习中的有监督学习，是指训练样本包含输入向量以及对应的目标向量。即\mathrmx,\mathrmy,\mathrmx和\mathrmy为向量。对于向量...

PRML阅读笔记（三）

CH3Linearmodelsforregression回归的线性模型 3.1线性基函数模型回归的最简单模型 y\boldsymbolx,\boldsymbolw=w0+w1x1+\ldots+wD...

[读书笔记] [PRML] 1.6 Information Theory

这一小节的知识点主要是信息论中的熵、相对熵（KL散度）、条件熵以及互信息。这几个信息论中的概念在机器学习中起到很大的作用，比如决策树上特征的选择，以及最近的一些工作利用互信息取得了不错的效果。

PRML读书笔记——图模型

本章主要分析贝叶斯网络、条件独立、马尔科夫随机场和图模型的推断 0前言概率图模型：用概率分布的图形表示变量之间的依赖关系⼀个图由结点（nodes）和它们之间的链接（links）组成。在概率图模型中...

《PRML》第一章读书笔记.1

模式识别概述 1模式识别 2模式识别的几个步骤 3三个任务 4多项式拟合概率论 1基本概念 2概率密度 3期望与协方差以离散变量为例 4贝叶斯公式 5高斯分布 6最大似然估计与最大后验概率估计模式...

PRML读书笔记——概率分布

本章主要介绍各种概率分布，包括伯努利分布、Beta分布、狄利克雷分布、高斯分布（重点）、指数族分布和非参数化方法估计的概率分布等。最后简单介绍了KL散度、计算学习理论和VC维的概念。

PRML读书笔记——采样方法

本章中，我们希望解决的基本的问题涉及到关于⼀个概率分布pz寻找某个函数fz的期望。这⾥，z的元素可能是离散变量、连续变量或者⼆者的组合。因此，在连续变量的情形下，我们希望计算下⾯的期望我们假设，使⽤...

是否确定退出登录?

PRML读书笔记(三)

3.1 线性基函数模型(Linear Basis Function Models)

3.1.1 最大似然和最小二乘法

3.1.2 最小二乘的几何形状

3.1.3 顺序学习

3.1.4 正则化的最小二乘法

3.1.5 多个输出值

3.2 Bias-Variance

3.3 贝叶斯线性回归

3.3.1 参数分布

3.3.2 预测分布

3.3.3 等价核(Equivalent Kernel)

3.4 贝叶斯模型比较

3.5 The Evidence Approximation

3.5.1 Evalution of Evidence Function

3.5.2 Maximizing the evidence function

3.5.3 有效参数的数量

全部评论 (0)

相关文章推荐

PRML读书笔记(三)

PRML读书笔记(四)

PRML读书笔记(一)

PRML读书笔记（一）

PRML阅读笔记（三）

[读书笔记] [PRML] 1.6 Information Theory

PRML读书笔记——图模型

《PRML》第一章 读书笔记.1

PRML读书笔记——概率分布

PRML读书笔记——采样方法

《PRML》第一章读书笔记.1