Advertisement

设计贝叶斯分类器的两种参数估计方法:最大似然估计和贝叶斯估计

阅读量:

根据前篇文章我们知道,贝叶斯分类器设计时,需要知道先验概率

和类概率密度函数

,然后再按照最小错误率或者最小风险标准进行决策。

然而,在工程实践场景中,类别条件概率密度函数往往难以确定。即便将类别条件概率密度函数假设为服从正态分布模型,则其均值与方差也无法准确确定。

因此,在有限样本的基础上希望准确推断出各类条件概率密度函数的具体参数以便于后续设计分类器。换言之我们直接基于样本数据推导出各类条件概率密度函数的形式在此过程中无需预先知道这些函数的具体参数从而完成分类器的设计

基于样本数据的不稳定性特征,在统计学中可将其归为两大类参数估计方法:最大似然估计算法与贝叶斯估计算法。其中一类认为被估参数具有不确定性,并可通过概率分布加以描述;另一类则假设被估参数是一个固定值,并可通过优化方法求解其最优近似值。

最大似然估计

已知:

样本集

,且每类样本都是从类条件概率密度函数

P

的总体中独立抽取出来的。

求解目标:

对目标进行简化:

P=rac{PP}{P} $

在最大似然估计中,视θ为一个固定值,并认为其概率密度函数P(\theta)是一个常数。基于现有数据得出的概率密度函数P(D)同样被视为一个常数。由此可知:

构造函数

或者

贝叶斯估计与最大似然估计的主要区别在于,不视θ为固定不变的常数值,而是将其视为随机变量

这样一来

P=rac{PP}{nt_heta PPdheta}=rac {rod imits_{i=1}^n PP}{nt_hetarod imits_{i=1}^n PPdheta}=lpharodimits_{i=1}^n PP

其中α 是无关量,则

可以看出:

最大似然估计和贝叶斯估计的不同之处在于:

(1)前者认为待估参数是确定的。而后者认为待估参数是随机的。

(2)有(1)造成了对目标进行简化时的不同,即对P(θ) 的处理方式不同。

(3)对估计量 的计算方式不同。

全部评论 (0)

还没有任何评论哟~