统计学习方法(第二版) 第九章 EM算法及其推广(第一节)

阅读量：

本章首先介绍EM算法，然后讨论EM算法的收敛性，EM算法的应用，EM算法的推广。

前言

一、EM算法的初见

二、EM算法的引入

三、EM算法的导出

四、EM算法在无监督学习中的应用

五、EM算法的收敛性（了解即可）

总结

前言

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计或极大化后验概率。

前提数学基础概率论，极大似然估计，先验概率，后验概率，贝叶斯公式，全概率公式等。

这里有一篇文章介绍什么是EM算法，主要用这个文章中的例子进行学习。

em_tutorial.pdf

一、EM算法的初见

概率模型（如隐马尔可夫模型或贝叶斯网络）通常用于对生物数据进行建模。它们的受欢迎程度在很大程度上可以归因于存在从观察中学习参数的高效和稳健的程序。但是，通常可用于训练概率模型的唯一数据是不完整的。例如，在医疗诊断中可能会出现缺失值，其中患者病史通常包括来自有限系列测试的结果。或者，在基因表达聚类中，不完整的数据是由于概率模型中故意遗漏了基因到聚类的分配。期望最大化算法可以在数据不完整的概率模型中进行参数估计。

问题的阐述：举个例子，考虑一个简单的抛硬币实验，在这个实验中，我们得到一对偏差未知的硬币 A 和 B，分别为 θA 和 θB（也就是说，在任何给定的抛硬币中，硬币 A 将以概率 θA 正面朝上，以 1-θA 的概率落在反面上，硬币 B 也是如此）。我们的目标是通过重复以下过程五次来估计 θ = （θA，θB）：随机选择两个硬币中的一个（概率相等），并用所选硬币进行 10 次独立的硬币抛硬币。因此，整个过程总共涉及 50 次抛硬币，如下图所示。

在这里可以通过返回观察到的结果，利用极大似然来很简单的估计出θA 和 θB，也就是图中的计算公式。

θA = A硬币正面朝上的次数/A硬币投掷的总次数

θB = B硬币正面朝上的次数/B硬币投掷的总次数

事实上这种直观的猜测在统计学方法中叫做极大似然估计。

现在考虑一个更具挑战性的参数估计问题的变体，其中我们得到了记录的 x（掷硬币的结果），但没有给出用于每组抛硬币的硬币的恒等性 z（投掷的是A硬币还是B硬币不知道）。我们将 z 称为隐藏变量或潜在因素。这种新设置中的参数估计称为不完整数据情况。这一次，不再可能计算每枚硬币的正面比例，因为我们不知道每组抛硬币使用的硬币。然而，如果我们有某种方式来完成数据（在我们的例子中，正确猜测五组中的每一组都使用了哪种硬币），那么我们可以将这个问题的参数估计与不完整数据的参数估计减少为与完整数据的最大似然估计。

所以按照EM算法的思想：

首先对参数θ = （θA，θB）进行赋予初值，利用所得到的结果，猜测缺失数据的概率分布（后验概率），求出结果的期望，最后利用结果的期望进行极大似然估计得到一组新的参数θ = （θA，θB）重复上述步骤直到满足停止条件结束，也就是收敛时结束。

总之，期望最大化算法在步骤之间交替，在给定当前模型的情况下，猜测缺失数据完成次数的概率分布（称为 E 步长），然后使用这些完成数（称为 M 步长）重新估计模型参数。“E-step”这个名字的由来是因为人们通常不需要显式地形成完成次数的概率分布，而只需要计算这些完成次数的“预期”足够统计数据。同样，“M 步”这个名字的来源是这样一个事实，即模型重估可以被认为是数据预期对数似然的“最大化”。这就是期望最大化的由来。