Advertisement

参数估计方法(MLE,MAP,贝叶斯)【待补充】

阅读量:

【待补充内容:P(D)为什么不易计算】

建模的目标:建立拟合数据的分布模型 & 估计模型参数

拟合连续型数据变量:高斯分布等

拟合离散型数据变量:二项分布,多项式分布等

估计模型参数的三种方法:

MLE、MAP、贝叶斯方法

一、MLE

最大似然估计——频率学派

最大似然是一种点估计。

最大化似然的一些限制,这里我们以使用最大化似然求解一元高斯分布的参数为例。实际情况下,最大似然方法会系统性的低估分布的方差。这一种被称为偏置(bias)的现象。它与多项式曲线拟合中的过拟问题有关。注意,最大似然的解:是关于数据集的值的函数。考虑这些量关于具有参数的高斯分布的数据集的期望。很容易就能证明:

所以一般来说,最大似然能对均值做出正确的估计,但是对方差低估了因子。背后的原因在图1.15中说明。

二、MAP

对于参数 加入了先验,求得使得后验概率最大的一种可能性,仍然是点估计。

MLE和MAP更忠实于数据,但MAP加入了先验,MLE受数据影响较大,样本较少时,不适合MLE,产生的结果偏差较大,但加入先验并不一定就是最好的,先验也是依赖于人的主观。

三、贝叶斯方法

首先需要明确的是:这里的贝叶斯不同于朴素贝叶斯的贝叶斯,朴素贝叶斯是点估计,且目标不是寻求一个最优解,因此严格意义上没有参数估计的过程,而只有预测的过程,其中使用积分将所有可能的参数值都考虑了进去。可应用一些online的一些任务中。

贝叶斯方法和MAP方法相似在于都加入了先验概率,但不同在于贝叶斯方法考虑了参数的所有可能性,常规方法是对所有的参数求积分得到分母P(D),这属于exact inference,但是对于求解过程的难点在于积分所有的参数是不容易得到的,我们无法使用梯度下降法求解,只能通过一些近似 的方式推断得到结果。

至于为什么P(D)不容易计算的原因,将会后续举例补充,正因为P(D)的不易计算,因此有了近似推断这个内容。

【推断有如下几种类型】

1.精确推断

2.近似推断(Approximate Inference)

1)确定性推断(deterministic approximation)

——变分推断(Variational Inference)

2)随机推断(Stochastic Approximation)

——MCMC

————Gibbs Sampling

————Collapsed Gibbs Sampling

————Metropolis Hastings(MH)

————Importance Sampling

————Langevin Dynamic

如果我们认为参数的选择是相互依赖的,就像我们认为一个优秀的人身边抽取到一个也优秀的人的概率是更大一些的,因此我们将这种采样方式也叫做马尔科夫蒙特卡洛采样。

随机推断中较为常用的是Gibbs Sampling 和Langevin Dynamic

【贝叶斯模型】

LDA、MMSB和Neural Network,当然Bayesian还可以和任何其他模型 结合变为贝叶斯模型,像是Bayesian LSTM等,近些年来,Neural Network与贝叶斯的结合是研究的一个热点。

【非参数模型】

只要是贝叶斯模型都可以通过在模型前加入一个随机过程(随机过程可以理解为一个向量的延伸,在一个无穷维的空间做一个操作),让模型有能力自己扩大参数个数,变为非参数模型,常见的随机过程有:

高斯过程Guassian Process

狄利克雷过程Dirichelt Process

Chinese Restaurant Process

Indian Buffet Process

Stick-breaking Process

……

其中最常用的随机过程就是高斯过程。

下一章 将以LDA为例,说明贝叶斯模型,以及其中涉及到的Gibbs Sampling和Collapsed Gibbs Sampling

全部评论 (0)

还没有任何评论哟~