Advertisement

贝叶斯网络Bayesian Network (朴素贝叶斯,Naive )

阅读量:

文章目录

    • 1. 概率论

      • 1.1 条件概率
      • 1.2 全概率公式
      • 1.3 贝叶斯公式
      • 1.4 独立性
    • 2. 简单图分析(简单贝叶斯网络独立性分析)

    • 3. 朴素贝叶斯

      • 朴素贝叶斯的推导
      • 3.1 高斯朴素贝叶斯(Gaussian Naive Bayes)
      • 3.2 多项分布朴素贝叶斯(Multinomial Native Bayes)

1. 概率论

与之相关的有概率论的一些知识,这里先做简单知识复习。

1.1 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。若只有两个事件A,B,那么P(A|B)=\frac {P(AB)}{P(B)}设E 为随机试验,Ω 为样本空间,A,B 为任意两个事件,设P(A)>0,称 P(B|A)=\frac {P(AB)}{P(A)}为在“事件A 发生”的条件下事件B 的条件概率。上述乘法公式可推广到任意有穷多个事件时的情况。设A_1,A_2,...,A_n为任意n个实践(n>=2)且P(A_1A_2...A_n)>0,则P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)...P(A_n|A_1A_2...A_{n-1})

1.2 全概率公式

定义:(完备事件组/样本空间的划分)
设B1,B2,…Bn是一组事件,若
(1) \forall_i \neq j \epsilon \{1,2,...n\},B_inB_j= \emptyset
(2)B1∪B2∪…∪Bn=Ω
则称B1,B2,…Bn样本空间Ω的一个划分,或称为样本空间Ω 的一个完备事件组。
定理(全概率公式)
设事件组\{B\}是样本空间Ω 的一个划分,且P(Bi)>0(i=1,2,…n)则对任一事件B,有P(A)=\sum_{i=1}^nP(B_i)P(A|B_i)

1.3 贝叶斯公式

设B1,B2,…Bn…是一完备事件组,则对任一事件A,P(A)>0,有P(B_i|A)=\frac {P(AB_i)}{P(A)}=\frac {P(B_i)P(A|B_i)}{\sum_i P(B_i)P(A|B_i)}

1.4 独立性

当且仅当两个随机事件A与B满足P(A∩B)=P(A)P(B)的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。同样,对于两个独立事件A与B有P(A|B)=P(A)以及P(B|A)=P(B)换句话说,如果A与B是相互独立的,那么A在B这个前提下的条件概率就是A自身的概率;同样,B在A的前提下的条件概率就是B自身的概率。

2. 简单图分析(简单贝叶斯网络独立性分析)

在这里插入图片描述
P(A,B,C)=P(C|A,B)P(B|A)P(A) 这个是对上面图的简单表示三个变量a,b,c的联合概率分布。对这个简单图有一定了解后深入了解会的到下列几个有趣的结论,后面可能会用到。
在这里插入图片描述
即 :在c给定的条件下,a,b被阻断(blocked)是独立的。
在这里插入图片描述
即 :在c给定的条件下,a,b被阻断(blocked)是独立的。
在这里插入图片描述
即 :而对于上图,在c未知的条件下,a,b被阻断(blocked)是独立的。
上面都是可以根据基本公式推导出来,如果感兴趣可以参考 : PRML 模式识别与机器学习

3. 朴素贝叶斯

朴素贝叶斯(Naive Bayes,NB)是基于 “特征之间是独立的” 这一朴素假设,应用贝叶斯定理的监督学习算法。

朴素贝叶斯的推导

  • 对于给定的特征向量x_1,x_2,...,x_n
  • 类别 y 的概率可以依据贝叶斯公式得到:P(y|x_1,x_2,...,x_n)=\frac{P(y)P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)}
  • 使用朴素的独立性假设:P(x_i|y,x_1,x_2,...,x_n)=P(x_i|y)
  • 类别 y 的概率可简化为:P(y|x_1,x_2,...,x_n)=\frac{P(y)P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)}=\frac{P(y) \prod_{i=1}^nP(x_i|y)}{P(x_1,x_2...,x_n)}
  • 在给定样本的前提下,P(x_1,x_2...,x_n)是常数:P(y|x_1,x_2,...,x_n)\infty P(y)\prod_{i=1}^nP(x_i|y)
  • 从而有\hat y=argmaxP(y)\prod_{i=1}^nP(x_i|y)

3.1 高斯朴素贝叶斯(Gaussian Naive Bayes)

  • 根据样本使用MAP估计P(y),建立合理的模型估计P(x_i|y),从而得到样本的类别。\hat y=argmaxP(y)\prod_{i=1}^nP(x_i|y)
  • 假设特征服从高斯分布,即:P(x_i|y)=\frac{1}{\sqrt{2π}\sigma_y }exp \left(-\frac{(x_i-\mu_y)^2}{2\sigma_y^2}\right)
    参数估计使用MLE极大似然就可以

3.2 多项分布朴素贝叶斯(Multinomial Native Bayes)

  • 假设特征服从多项分布,从而,对每个类别y,参数为\theta_y=(\theta_{y1},\theta_{y2},...,\theta_{yn}),其中n为特征的数目,P(x_i|y)的概率为\theta_{yi}
  • 参数\theta_y使用MLE估计的结果为:\hat{\theta_{yi}}=\frac{N_{yi}+\alpha}{N_y+\alpha \cdot n}, \alpha\geq0
  • 假定训练集为T,有:N_{yi}=\sum_{x\epsilon T}x_i, N_{y}=\sum_{i=1}^{|a|}N_{yi}
  • 其中 \alpha=1称为Laplace平滑,\alpha<1称为Lidstone平滑。

全部评论 (0)

还没有任何评论哟~