机器学习之隐马尔科夫（HMM）模型

阅读量：

机器学习之隐马尔科夫模型（HMM）

1、对隐马尔可夫模型进行概述
2、阐述其数学理论基础
3、详细说明Python代码实现过程
4、归纳总结其核心内容和应用价值

隐马尔可夫模型介绍

隐式马尔可夫模型（Hidden Markov Model, HMM）是一种基于时间序列的概率建模方法。该方法主要研究隐藏的马尔可夫过程如何通过产生不可观察的状态序列来影响可观测数据序列的统计特性，并且其核心在于通过每个状态产生观测数据进而形成观测数据序列的过程。这种建模方法主要采用一种生成性建模策略

下面我们来从概率学角度定义马尔科夫模型，从一个典型例子开始：

假设有四个不同的容器（如四个盒子），每个容器内分别装有两种类型的乒乓球——红色与白色的小球。这些容器内的乒乓球数目各不相同。具体数据列于下表中：

盒子编号	1	2	3	4
红球数	5	3	6	8
白球数	5	7	4	2

从这些盒子中依次取出T个球，在这一过程中遵循以下取样规则：每次随机选择一个盒子并从中取出一球，并记录其颜色后将其放回原处。在这一过程中我们无法得知具体来自哪个盒子的信息即无法得知a box sequence, also known as a state sequence; the color sequence observed is referred to as an observation or measurement sequence here.这两个随机序列共同构成了一个马尔科夫过程的例子。

称 $\mathbf{Q}$ 为系统中所有可能状态构成的集合，则 $V$ 则代表所有可能观测构成的集合：
$\mathbf{Q} = \{\mathbf{q}_1, \mathbf{q}_2, \dots, \mathbf{q}_N\}, \quad V = \{v_1, v_2, \dots, v_M\}$
其中,N代表系统中的状态总数,M则代表系统中观测的数量,比如在上述例子中可得 $N=4,M=2$ 。

$\mathbf{I}$ 被定义为长度为T的状态序列；而 $\mathbf{O}$ 则表示相应的观测序列：

B被定义为观测概率矩阵：
$B = [b_j(k)]_{N \times M}$
其中，
$b_j(k)$ 表示在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率，
$k$ 的取值范围为1到 $M$ ，
$j$ 的取值范围为1到 $N$ 。

$\pi$ 表示初始状态的概率向量：
$\pi = (\pi_i)$
其中， $\pi_i = P(i_1 = q_i), i=1,2,\cdots,N$ 表示在时刻 $t=1$ 处于状态 $q_i$ 的概率。

由此可知，隐马尔科夫模型 $\lambda$ 采用三元符号体系其三元符号体系是什么即
$\lambda = (A,B,\pi)$
其中 $A$ 、 $B$ 和 $\pi$ 被定义为隐马尔科夫模型的基本要素

由定义可知隐马尔可夫模型做了两个基本假设：

(1) 基于齐次马尔科夫性质假说，在任意时刻 $t$ 的状态仅依赖于其前一个状态；
$P(i_t \mid i_{t-1}, o_{t-1}, \dots, i_1, o_1) = P(i_t \mid i_{t-1}), \quad t=1,2,\dots,T$
(2) 根据观测独立性假说，在各个时间点上观测结果仅与当前时刻的状态相关；
如前所述，在盒子取球的例子中

状态集合： $Q$ = {盒子1，盒子2，盒子3，盒子4}， N=4

观测集合： $V$ = {红球，白球} M=2

初始化概率分布：
$\pi = (0.25,0.25,0.25,0.25)^T$

状态转移矩阵：
$A = \left[ \begin{matrix} 0 & 1 & 0 & 0 \\ 0.4 & 0 & 0.6 & 0 \\ 0 & 0.4 & 0 & 0.6 \\ 0 & 0 & 0.5 & 0.5 \end{matrix} \right]$

观测矩阵:
$B = \left[ \begin{matrix} 0.5 & 0.5 \\ 0.3 & 0.7 \\ 0.6 & 0.4 \\ 0.8 & 0.2 \end{matrix} \right]$

隐马尔可夫模型的三个基本问题

1、概率计算问题

给定： $\lambda = (A,B,\pi) O=(o_1,o_2,\cdots,o_T)$

计算： $P(O|\lambda)$

2、学习问题

已知： $O=(o_1,o_2,\cdots,o_T)$

估计： $\lambda = (A,B,\pi)$ ,使 $P(O|\lambda)$ 最大

3、预测问题（解码）

已知： $\lambda = (A,B,\pi) O=(o_1,o_2,\cdots,o_T)$

求：使 $P(I|O)$ 最大的状态序列 $I=(i_1,i_2,\cdots,i_T)$

下面我们使用python代码写一个HMM模型生成序列 $O$ 的示例代码

复制代码

    import numpy as np
    
    class HMM(object):
    def __init__(self, N, M, pi=None, A=None, B=None):
        self.N = N
        self.M = M
        self.pi = pi
        self.A = A
        self.B = B
    
    def get_data_with_distribute(self, dist): # 根据给定的概率分布随机返回数据（索引）
        r = np.random.rand()
        for i, p in enumerate(dist):
            if r < p: return i
            r -= p
    
    def generate(self, T: int):
        '''
        根据给定的参数生成观测序列
        T: 指定要生成观测序列的长度
        '''
        result = []
        for ind in range(T):        # 依次生成状态和观测数据
            if ind==0:
                i = self.get_data_with_distribute(self.pi)
            else:
            	i = self.get_data_with_distribute(self.A[i])
            o = self.get_data_with_distribute(self.B[i])
            result.append(o)
        return result
    
    if __name__ == "__main__":
    pi = np.array([0.25, 0.25, 0.25, 0.25])
    A = np.array([
        [0,  1,  0, 0],
        [0.4, 0, 0.6, 0],
        [0, 0.4, 0, 0.6],
        [0, 0, 0.5, 0.5]])
    B = np.array([
        [0.5, 0.5],
        [0.3, 0.7],
        [0.6, 0.4],
        [0.8, 0.2]])
    hmm = HMM(4, 2, pi, A, B)
    print(hmm.generate(10))  # 生成10个数据
     
    # 生成结果如下
    [0, 0, 0, 0, 1, 1, 1, 1, 0, 0]   # 0代表红球，1代表白球

隐马尔可夫模型数学原理

下面我们从隐马尔可夫模型的三个基本问题出发，逐个解释问题解法：

1、概率计算问题

复制代码

* 直接计算法
* 前向算法
* 后向算法

直接计算法：

状态序列 $I=(i_1,i_2,\cdots,i_T)$ 概率： $P(I|\lambda)=\pi_{i_1} a_{i_1 i_2} a_{i_2 i_3}\cdots a_{i_{T-1}i_T}$

给定固定的观测序列 $I$ 的概率度： $P(O|I,\lambda)$
给定固定的观测序列 $I$ 的概率度为各时刻条件概率的连乘积。

表示 $O$ 与 $I$ 共同出现的概率为：

P(O,I|\lambda) = P(O|I,\lambda)P(I|\lambda) = \pi_{i_1}b_{i_1}(o_1)a_{i_1 i_2} b_{i_2}(o_2) \cdots a_{i_{T-1}i_T}b_{i_T}(o_T)

其中每个因子对应于时间序列中的一个状态转移过程

所有可能的状态序列 $I$ 被求和以计算观测序列 $O$ 的概率：
公式保持不变：

P(O|\pi) = \sum_I{P(O|i,\lambda)P(I|\lambda)} = \sum_{i_1,i_2,\cdots,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1 i_2} b_{i_2}(o_2) \cdots a_{i_{T-1}i_T}b_{i_T}(o_T)

此算法的复杂度为 $O(TN^T)$ ，计算量太大，不可行。

前向算法：

前向概率定义：基于隐马尔可夫模型 $\lambda$ ，在时刻 $t$ 的部分观测序列 $o_1,o_2,\cdots,o_t$ 中状态处于 $q_i$ 的概率作为前向概率记作 $\alpha_t(i)$ 。即：

\alpha_{t}(i) = P(o_1,o_2,\cdots,o_{t},i_{t}=q_{i}|\lambda)

其中，
输入包括：

\lambda \text{ 隐马尔可夫模型}

以及：

O \text{ 观测序列}

输出：观测序列概率 $P(O|\lambda)$

初值： $\alpha_1(i) = \pi_ib_i(o_1)，i=1,2,\cdots,N$

递推： $\alpha_{t+1}(i) = \left[ \sum_{j=1}^N \alpha_t(j) a_{_ji} \right]b_i(o_{t+1}),i=1,2,\cdots,N$

终止： $P(O|\lambda) = \sum_{i=1}^N \alpha_T(i)$

算法复杂度 $O(N^2T)$ ，算法复杂度大大降低

因为： $\alpha_T(i) = P(o_1,o_2,\cdots,o_T,i_T=q_i|\lambda)$

所以： $P(O|\lambda) = \sum_{i=1}^N \alpha_T(i)$

以下通过实例说明前向算法的操作流程：
给定状态转移概率矩阵 $A = \left[ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right]$ ，
观测概率矩阵 $B = [b_j(o)]$ ，
初始状态概率分布 $\pi=[\pi_1,\pi_2,\pi_3]$ ，
其中观测序列O=(红,白,红)，模型参数包括状态转移矩阵A、观测概率矩阵B以及初始状态分布π。
模型λ=(A,B,π)，状态集合Q={1,2,3}, 观测集合V={红、白}
假设时间步数T=3
运用前向算法求得观测序列概率P(O|λ)

（1）计算初值
$\alpha_1(1) = \pi_1 b_1(o_1) = 0.2\times0.5 = 0.1 \\ \alpha_1(2) = \pi_2 b_2(o_1) = 0.4\times0.4 = 0.16 \\ \alpha_1(3) = \pi_3 b_3(o_1) = 0.4\times0.7 = 0.28$
（2）递推计算
$\begin{aligned} \alpha_2(1) & = \left[ \begin{matrix} \sum_{i=1}^3\alpha_1(i)a_{i1} \end{matrix} \right]b_1(o_2) = (0.1\times0.5+0.16\times0.3+0.28\times0.2)\times0.5 = 0.154\times0.5 = 0.077 \\ \alpha_1(2) & = \left[ \begin{matrix} \sum_{i=1}^3\alpha_1(i)a_{i2} \end{matrix} \right]b_2(o_2) = 0.184\times0.6 = 0.1104 \\ \alpha_1(3) & = \left[ \begin{matrix} \sum_{i=1}^3\alpha_1(i)a_{i3} \end{matrix} \right]b_3(o_2) = 0.202\times0.3 = 0.0606 \\ \alpha_3(1) & = \left[ \begin{matrix} \sum_{i=1}^3\alpha_2(i)a_{i1} \end{matrix} \right]b_1(o_3) = 0.04187 \\ \alpha_3(2) & = \left[ \begin{matrix} \sum_{i=1}^3\alpha_2(i)a_{i2} \end{matrix} \right]b_2(o_3) = 0.03551 \\ \alpha_3(3) & = \left[ \begin{matrix} \sum_{i=1}^3\alpha_2(i)a_{i3} \end{matrix} \right]b_3(o_3) = 0.05284 \end{aligned}$
（3）终止
$P(O|\lambda) = \sum_{i=1}^3 \alpha_3(i) = 0.13022$

后向算法：

后向概率定义：基于隐马尔可夫模型λ，在时刻t状态下处于状态qi的情况下（即i_t = qi），从时刻t+1到T的部分观测序列为o_{i+1}, o_{i+2}, ..., o_T的概率被定义为后向概率，并将其记作：

\beta_t(i) = P(o_{t+1}, o_{t+2}, \ldots, o_T \mid i_t = q_i, \lambda)

同样地，在这种情况下也可以通过建立递推关系式来计算相应的后向概率 $\beta_t(i)$ 以及完整的观测序列的概率 $P(O|\lambda)$ 。

输入：隐马尔科夫模型 $\lambda$ ，观测序列O；

输出：观测序列概率 $P(O|\lambda)$ .

（1） $\beta_T(i) = 1, i=1,2,\cdots,N$

（2）对 $t=T-1,T-2,\cdots,1$

$\beta_t(i)=\sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta_{t+1}(j), i=1,2,\cdots,N$

（3） $P(O|\lambda)=\sum_{i=1}^N \pi_ib_i(o_1)\beta_1(i)$

前后向统一写为：（t=1和t=T-1分别对应）
$P(O|\lambda) = \sum_{i=1}^N \sum_{j=1}^N \alpha_t(i)a_{ij}b_j(o_{t+1}) \beta_{t+1}(j), t=1,2,\cdots,T-1$
一些概率和期望值计算方式：

1、给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率，记 $\gamma_t(i)=P(i_t=q_t|O,\lambda)$
$\gamma_t(i)=P(i_t=q_t|O,\lambda)=\frac{P(i_t=q_t,O|\lambda)}{P(O|\lambda)}=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N \alpha_t(j)\beta_t(j)}$
2、给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t+1$ 处于 $q_j$ 概率，记 $\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_j|O,\lambda)$
$\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_j,O|\lambda)=\frac{P(i_t=q_t,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)}=\frac{P(i_t=q_t,i_{t+1}=q_j,O|\lambda)}{\sum_{i=1}^N \sum_{j=1}^N P(i_t=q_i,i_{t+1}=q_j,O|\lambda)} = \frac{\alpha_t(i)a_{ij}b_j(o_{t+1}) \beta_{t+1}(j)}{\sum_{i=1}^N \sum_{j=1}^N \alpha_t(i)a_{ij}b_j(o_{t+1}) \beta_{t+1}(j)}$
3、由1和2可得，(1)在观测O下状态i出现的期望值： $\sum_{t=1}^T \gamma_t(i)$ ，（2）在观测O下由状态i转移的期望值： $\sum_{t=1}^{T-1} \gamma_t(i)$ ，（3）在观测O下由状态i转移到状态j的期望值： $\sum_{t=1}^{T-1} \xi_t(i,j)$ 。

2、学习问题

监督学习方法：

称训练数据集由观测序列O与对应的状态序列I共同构成，并表示为{(O₁,I₁),(O₂,I₂),⋯,(O_S,I_S)}
可以通过极大似然估计法来估计隐马尔可夫模型的参数。

已知： ${(O_1,I_1)(O_2,I_2),\cdots,(O_S,I_S)}$

（1）转移概率 $a_{ij}$ 的估计：假设样本中时刻t处于状态i，时刻t+1转移到状态j的频数为 $A_{ij}$ 那么转台转移概率 $a_{ij}$ 的估计是：
$\hat{a}_{ij} = \frac{A_{ij}}{\sum_{j=1}^N A_{ij}}, i=1,2,\cdots,N;j=1,2,\cdots,N$
（2）观测概率 $b_j(k)$ 的估计：设样本中状态为j并观测为k的频数是 $B_j(k)$ 那么状态j观测为k的概率
$\hat{b}_j(k) = \frac{B_{jk}}{\sum_{k=1}^M B_{jk}}， j=1,2,\cdots,N;k=1,2,\cdots,M$
（3）初始状态概率 $\pi_i$ 的估计 $\hat{\pi}_i$ 为S个样本中初始状态为 $q_i$ 的频率。

非监督学习方法：

Baum-Welch算法

假设训练数据仅包含{O₁,O₂,…,Oₛ}，请估计模型参数λ=(A,B,π)，这些参数本质上代表了一个含有隐变量的概率模型；其中EM算法用于计算概率P(O|λ)，具体而言就是对所有可能的状态序列I取加权平均。

（1）确定完全数据的对数似然函数

完全数据 $(O,I)=(o_1,o_2,\cdots,o_T,i_1,i_2,\cdots,i_r)$

完全数据的对数似然函数 $logP(O,I|\lambda)$

（2）在EM算法中进行E步时,计算Q函数

Q(\theta,\hat\theta)=\mathbb{E}_{Z|X;\hat\theta}\left[\log P(X,Z;\theta)\right]

其中 $\mathbb{E}_{Z|X;\hat\theta}$ 表示在参数 $\hatθ$ 下给定观测数据X对隐变量Z的条件期望；进而得出：

J(θ)=\mathbb{E}_{Z|X;θ̂}[logP(X,Z;θ)]

其中 $\mathbb{E}_{Z|X;θ̂}$ 表示在当前参数θ下给定观测数据X对隐变量Z的条件期望；针对观测数据X的具体应用场景实施相关操作

（3）EM算法的M步，极大化 $Q(\lambda,\bar{\lambda})$ 求模型参数 $A,B,\pi$

第一项 $\sum_I log\pi_{i_0}P(O,I|\hat{\lambda})=\sum_{i=1}^N log\pi_i P(O,i_1=i|\bar{\lambda})$ ，基于约束条件： $\sum_{i=1}^N \pi_i = 1$ 借助拉格朗日乘子法构造拉格朗日函数 $\sum_{i=1}^N log\pi_iP(O,i_1=i|\bar{\lambda})+\gamma(\sum_{i=1}^N \pi_i -1)$ 并对该函数关于各 $\pi_i$ 求偏导数并令其等于零
对拉格朗日函数 $\sum_{i=1}^N log\pi_i P(O,i_1=i|\bar{\lambda})+\gamma(\sum_{i=1}^N \pi_i -1)$ 分别关于每个概率 $\pi_i$ 求偏导数得到方程组：

\frac{\partial}{\partial \pi_i}\left[\sum_{i=1}^N log\pi_i P(O,i_1=i|\bar{\lambda})+\gamma(\sum_{i=1}^N \pi_i -1)\right]=0

解此方程组得到关系式：

P(O,i_1 = i|\bar{\lambda}) + \gamma\pi_i = 0

其中常数因子满足 $\gamma = -P(O|\bar{\lambda})$ ，进而得到概率分布：

\pi_i = \frac{P(O,i_1=i|\bar{\lambda})}{P(O|\bar{\lambda})}

第二项可写成 $\sum_I(\sum_{t=1}^{T-1}log a_{i_t i_{t+1}})P(O,I|\bar{\lambda})=\sum_{i=1}^N \sum_{j=1}^N \sum_{t=1}^{T-1} log a_{ij}P(O,i_t=i,i_{t+1}=j|\bar{\lambda})$ 由约束条件 $\sum_{j=1}^N a_{ij}=1$ ，拉格朗日乘子法得：
$a_{ij}=\frac{\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar{\lambda})}{\sum_{t=1}^{T-1}P(O,i_t=i|\bar{\lambda})}$
第三项 $\sum_I(\sum_{t=1}^T logb_{i_t}(o_t))P(O,I|\bar{\lambda})=\sum_{j=1}^N \sum_{t=1}^T logb_j(o_t)P(O,i_t=j|\bar{\lambda})$ 由约束条件 $\sum_{k=1}^M b_j(k)=1$ ，注意，只有在 $o_t=v_k$ 时 $b_j(o_t)$ 对 $b_j(k)$ 的偏导数才不为0，以 $I(o_t=v_k)$ 表示，求得
$b_j(k)=\frac{\sum_{t=1}^T P(O,i_t=j|\bar{\lambda})I(o_t=v_k)}{\sum_{t=1}^N P(O,i_t=j|\bar{\lambda})}$
将以上得到的概率分别用 $\gamma_t(i)，\xi_t(i,j)$ 表示
$a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)} \\ b_j(k)=\frac{\sum_{t=1,o_t=v_k}^T \gamma_t(j)}{\sum_{t=1}^T \gamma_t(j)} \\ \pi_i = \gamma_1(i)$
Baum-Welch算法流程：

输入：观测数据 $O=(o_1,o_2,\cdots,o_T)$ ；

输出：隐马尔可夫模型参数。

（1）初始化

对n=0，选取 $a_{ij}^{(0)}，b_j(k)^{(0)}，\pi_i^{(0)}$ 得到模型 $\lambda^{(0)}=(A^{(0)},B^{(0)},\pi^{(0)})$

（2）递推过程基于观测序列O=(o₁,o₂,…,o_T)和模型λ^(n)=(A(n),B^(n),π(n))进行计算：
对于每个状态变量i,j和时间步长n=1,2,…,
$a_{ij}^{(n+1)} = \frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$
$b_j(k)^{(n+1)} = \frac{\sum_{t=1,o_t=v_k}^T \gamma_t(j)}{\sum_{t=1}^T \gamma_t(j)}$
$\pi_i^{(n+1)} = \gamma_1(i)$

（3）终止，得到模型参数 $\lambda^{(n+1)}=(A^{(n+1)},B^{(n+1)},\pi^{(n+1)})$

3、预测问题

预测算法

（1）近似算法

想法：每个时间点t都挑选该时间点之后可能出现的状态 $i_t^*$ 进行评估，并由此生成一个完整的状态序列 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ 作为预测结果；同时，在时间点t处于状态 $q_i$ 的概率值 $\gamma_t(i)$ 被定义为 $\frac{\alpha_t(i) \beta_t(i)}{P(O|\lambda)}$ 的形式，并进一步简化为 $\frac{\alpha_t(i) \beta_t(i)}{\sum_{j=1}^N \alpha_t(j) \beta_t(j)}$ ；在此基础上确定每个时间点t的最可能状态 $i_t^*$ 的方法是通过最大化 $\gamma_t(i)$ 值来实现的

从而得到状态序列： $I_*=(i_1^*,i_2^*,\cdots,i_T^*)$

得到的状态有可能实际不发生

（2）维比特算法

通过动态规划方法求解概率最大的路径问题时，每条路径都对应着一个状态序列。
最优路径具有以下特征：当最优路径在时刻t经过节点 $i_t^*$ 时，则该路径从节点 $i_t^*$ 延伸至终点 $i_T^*$ 的所有部分中，在 $t$ 到 $T$ 阶段的各部分中达到最优。
只需从 $t=1$ 开始逐步递推，在每个时刻 $t$ 状态下计算所有可能部分的最大概率值。最终，在 $t=T$ 时获得的最大概率值即为整体最优解的概率值 $P^*$ . 同时，在此阶段也确定了最终的终结点位置。
接下来，在确定了最终节点后需逆向推导出完整的最优路线。具体方法是从 $t=T-1$ 开始依次向前追溯至 $t=1$ .

导入两个变量 $\delta$ 和 $\psi$ ，定义在时刻t状态为i的所有单个路径 $(i_1,i_2,\cdots,i_t)$ 中概率最大值为：
$\delta_t(i)=\underset{i_1,i_2,\cdots,i_{t-1}}{\operatorname{max}}P(i_t=i,i_{t-1},\cdots,i_1,o_t,\cdots,o_1|\lambda),i=1,2,\cdots,N$
由定义可得变量 $\delta$ 的递推公式：
$\delta_{t+1}(i)=\underset{i_1,i_2,\cdots,i_t}{\operatorname{max}}P(i_{t+1}=i,i_t,\cdots,i_1,o_{t+1},\cdots,o_1|\lambda)=\underset{1\leq j \leq N}{\operatorname{max}}[\delta_t(j)a_{ji}]b_i(o_{t+1}), i=1,2,\cdots,N;t=1,2,\cdots,T-1$
定义在时刻t状态为i的所有单个路径 $(i_1,i_2,\cdots,i_{t-1},i)$ 中概率最大的路径的第t-1个结点为
$\psi_t(i)=\underset{1\leq j \leq N}{\operatorname{argmax}}[\delta_{t-1}(j)a_{ji}], i=1,2,\cdots,N$
输入：模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,\cdots,o_T)$ ；

输出：最优路径 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ .

①初始化
$\delta_1(i)=\pi_ib_i(o_1), i=1,2,\cdots,N \\ \psi_1(i)=0, i=1,2,\cdots,N$
②递推，对 $t=2,3,\cdots,T$
$\delta_t(i)=\underset{1\leq j \leq N}{\operatorname{max}}[\delta_{t-1}(j)a_{ji}]b_i(o_t), i=1,2,\cdots,N \\ \psi_t(i)=\underset{1\leq j \leq N}{\operatorname{argmax}}[\delta_{t-1}(j)a_{ji}], i=1,2,\cdots,N$
③终止
$P*=\underset{1\leq i \leq N}{\operatorname{max}}\delta_T(i) \\ i_T^*=\underset{1\leq i \leq N}{\operatorname{argmax}}[\delta_T(i)]$
④最优路径回溯，对 $t=T-1,T-2,\cdots,1$
$i_t^*=\psi_{t+1}(i_{t+1}^*)$
求得最优路径 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$

矩阵 $A= \left[\begin{matrix} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5 \end{matrix}\right]$ 、矩阵 $B = \left[\begin{matrix} 1/2 &1/2 \\4/1&6/1\\7/1&3/1\end{matrix}\right]$ 、初始概率向量 $\pi = (1/5,2/5,2/5)^T$ 已给出。请寻求最佳路径序列 $I^\ast=(i_1^\ast,i_2^\ast,i_3^\ast)$ 。

① 初始化阶段，在时间步t=1时，对于每一个状态变量i（其中i=1,2,3），计算其观测值o₁为红色的概率，并将其定义为δ₁(i) = π_i b_i(o₁) = π_i b_i(红)，其中i分别取值于1、2和3。

代入实际数据： $\delta_1(1)=0.10，\delta_1(2)=0.16，\delta_1(3)=0.28$ ，记 $\psi_1(i)=0,i=1,2,3$

当时间步 $t=2$ 时，在每个状态 $i$ （ $i=1, 2, 3$ ）处进行如下运算：计算从时间步 $t=1$ 到 $t=2$ 的状态转移概率，并考虑观察结果 $O_1$ 和 $O_2$ 的影响。该概率被计算为 $\delta_2(i)$ ：

\delta_2(i) = \max_{1 \leq j \leq 3} [\delta_1(j)a_{ji}]b_i(o_2)

同时记录每个状态 $i$ 的最佳前驱状态 $j$ ：

\psi_2(i) = \arg\max_{1 \leq j \leq 3} [\delta_1(j)a_{ji}], \quad i = 1, 2, 3

计算：
$\delta_2(1)=\underset{1 \leq j \leq 3}{\operatorname{max}}[\delta_1(j)a_{j1}]b_1(o_2)=\underset{j}{\operatorname{max}}\{0.10\times0.5,0.16\times0.3,0.28\times0.2\}\times0.5=0.028 \\ \psi_2(1)=3 \\ \delta_2(2)=0.0504，\psi_2(2)=3 \\ \delta_2(3)=0.042，\psi_2(3)=3$
同样，在t=3时
$\delta_3(i)=\underset{1 \leq j \leq 3}{\operatorname{max}}[\delta_2(j)a_{ji}]b_i(o_3) \\ \psi_3(i)=\underset{1\leq j \leq 3}{\operatorname{argmax}}[\delta_2(j)a_{ji}] \\ \delta_3(1) = 0.00756，\psi_3(1)=2 \\ \delta_3(2) = 0.01008，\psi_3(2)=2 \\ \delta_3(3) = 0.0147，\psi_3(3)=3$
③以P*表示最优路径的概率：
$P^*=\underset{1 \leq i \leq 3}{\operatorname{max}}\delta_3(i)=0.0147$
最优路径的终点是：
$i_3^* = \underset{i}{\operatorname{argmax}}[\delta_3(i)]=3$
④由最优路径的终点 $i_3^*$ ，逆向找到 $i_2^*,i_1^*$
$在t=2时，i_2^*=\psi_3(i_3^*)=\psi_3(3)=3 \\ 在t=1时，i_1^*=\psi_2(i_2^*)=\psi_2(3)=3 \\$
于是求得最优路径，即最优状态序列：
$I^*=(i_1^*,i_2^*,i_3^*)=(3,3,3)$

隐马尔科夫模型Python实现

复制代码

    import numpy as np
    
    class HMM(object):
    def __init__(self, N, M, pi=None, A=None, B=None):
        self.N = N
        self.M = M
        self.pi = pi
        self.A = A
        self.B = B
    
    def get_data_with_distribute(self, dist): # 根据给定的概率分布随机返回数据（索引）
        r = np.random.random()
        for i, p in enumerate(dist):
            if r < p: return i
            r -= p
    
    def generate(self, T: int):
        '''
        根据给定的参数生成观测序列
        T: 指定要生成观测序列的长度
        '''
        result = []
        i = 0
        for ind in range(T):        # 依次生成状态和观测数据
            if ind==0:
                i = self.get_data_with_distribute(self.pi)
            else:
            	i = self.get_data_with_distribute(self.A[i,:])
            o = self.get_data_with_distribute(self.B[i,:])
            result.append(o)
        return result
    
    def forward(self,X):
        '''
        根据给定的参数计算条件概率(前向算法)
        X：观测数据
        '''
        alpha = self.pi * self.B[:,X[0]]
        for x in X[1:]:
            #将alpha构造成(N,1)维度，使用广播机制
            alpha = np.sum(self.A * alpha[...,np.newaxis],axis=0) * self.B[:,x]
        
        return alpha.sum()
    
    def backward(self,X):
        '''
        根据给定的参数计算条件概率(后向算法)
        X：观测数据
        '''
        beta = np.ones(self.N)
        for x in X[:0:-1]:
            #beta默认为(1,N)维度，使用广播机制
            beta = np.sum(self.A * self.B[:,x] * beta,axis=1)
    
        return np.sum(beta * self.pi * self.B[:,X[0]],axis=0)
    
    def get_alpha_beta(self,X):
        '''
        根据给定数据与参数，计算所有时刻的前向概率和后向概率
        '''
        T = len(X)
        alpha = np.zeros((T,self.N))
        alpha[0,:] = self.pi * self.B[:,X[0]]
        for t in range(T-1):
            alpha[t+1,:] = np.sum(self.A * alpha[t,:][...,np.newaxis],axis=0) * self.B[:,X[t+1]]
            
        beta = np.ones((T,self.N))
        for t in range(T-1,0,-1):
            beta[t-1,:] = np.sum(self.A * beta[t,:] * self.B[:,X[t]],axis=1)
    
        # print(alpha[T-1,:].sum(),np.sum(beta[0,:] * self.pi * self.B[:,X[0]],axis=0))        
        return alpha,beta
    
    def fit(self,X):
        '''
        根据观测序列估计参数
        '''
        #初始化参数pi，A，B
        self.pi = np.random.random(self.N)
        self.pi /= np.sum(self.pi)
        self.A = np.random.random((self.N,self.N))
        self.A /= np.sum(self.A,axis=1)[:,np.newaxis]
        self.B = np.random.random((self.N,self.M))
        self.B /= np.sum(self.B,axis=1)[:,np.newaxis]
        
        T = len(X)
        for epoch in range(10):
            #根据公式计算下一时刻参数值
            alpha,beta = self.get_alpha_beta(X)
            gamma = alpha * beta
            for i in range(self.N):
                for j in range(self.N):
                    self.A[i,j] = np.sum(alpha[:-1,i] * beta[1:,j] * self.A[i,j] * self.B[j,X[1:]],axis=0) / np.sum(gamma[:-1,i],axis=0)
            for i in range(self.N):
                for j in range(self.M):
                    self.B[i,j] = np.sum(gamma[:,i] * (X == j),axis=0) / np.sum(gamma[:,i],axis=0)
                    
            self.pi = gamma[0] / gamma[0].sum()
            
    def decode(self,X):
        '''
        解码问题，参数已知，根据给定的观测序列，返回最大概率的隐藏序列
        '''
        T = len(X)
        x = X[0]
        delta = self.pi[:,np.newaxis] * self.B[:,x]
        varphi = np.zeros((T,self.N),dtype=np.int)
        path = [0] * T
        for t in range(1,T):
            # delta = delta.reshape(-1,1)
            tmp = delta * self.A
            varphi[t,:] = np.argmax(tmp,axis=0)
            delta = np.max(tmp,axis=0) * self.B[:,X[t]]
    
        path[-1] = np.argmax(delta)
        #回溯最优路径
        for t in range(T-1,0,-1):
            path[t-1] = varphi[t,path[t]]
            
        return path
     
    if __name__ == "__main__":
    pi = np.array([0.25, 0.25, 0.25, 0.25])
    A = np.array([
        [0,  1,  0, 0],
        [0.4, 0, 0.6, 0],
        [0, 0.4, 0, 0.6],
        [0, 0, 0.5, 0.5]])
    B = np.array([
        [0.5, 0.5],
        [0.3, 0.7],
        [0.6, 0.4],
        [0.8, 0.2]])
    hmm = HMM(4, 2, pi, A, B)
    print(hmm.generate(10))  # 生成10个数据
    X = [0,0,1,1,0] #观测序列为红，红，白，白，红
    print(hmm.forward(X))
    print(hmm.backward(X))
    
    import matplotlib.pyplot as plt
    def triangle_data(T):   # 生成三角波形状的序列
        data = []
        for x in range(T):
            x = x % 2
            data.append(x if x <= 1 else 2-x)
        return data
    
    data = np.array(triangle_data(15))
    hmm.fit(data)
    gen_obs = hmm.generate(15)  # 再根据学习的参数生成数据
    x = np.arange(15)
    plt.scatter(x, gen_obs, marker='*', color='r')
    plt.plot(x, data, color='g')
    plt.show()
    
    pi = np.array([0.2, 0.4, 0.4])
    A = np.array([
        [0.5,  0.2,  0.3],
        [0.3, 0.5, 0.2],
        [0.2, 0.3, 0.5]])
    B = np.array([
        [0.5, 0.5],
        [0.4, 0.6],
        [0.7, 0.3]])
    O = [0,1,0]
    hmm = HMM(3, 2, pi, A, B)
    path = hmm.decode(O)
    print(path) #输出(2,2,2)为索引

总结

隐马尔科夫模型是一种基于序列数据的概率统计模型。其参数由初始状态概率向量π、状态转移概率矩阵A以及观测概率矩阵B共同决定。其形式可表示为λ=(A, B, π)。隐马尔科夫模型作为一种生成式语言模型，在分词任务中表现出色，并广泛应用于自然语言处理以及语音识别等多个领域均有较为广泛的运用。该方法作为机器学习领域中的经典算法之一

全部评论 (0)

还没有任何评论哟~

机器学习之隐马尔科夫（HMM）模型

机器学习之隐马尔科夫模型（HMM） 1、隐马尔科夫模型介绍 2、隐马尔科夫数学原理 3、Python代码实现隐马尔科夫模型 4、总结隐马尔可夫模型介绍马尔科夫模型（hiddenMarkovmode...

隐马尔科夫模型（HMM）

目录参考 1\.背景 1.1数理统计学两大派 1.2概率图 2\.HMM 2.1一个模型，两个假设，三个问题 2.2Evaluation问题（1）前向（2）后向 2.3Learning问题 2....

隐马尔科夫模型(HMM)

基本概念 1MarkovModels 2HiddenMarkovModels 3概率计算算法前向后向算法 131直接计算 132前向算法 133后向算法 4学习问题BaumWelch算法也就是EM算法...

HMM隐马尔科夫模型

对于这些模型的介绍我打算从以下几个部分来写： 1：模型的基本概念 2：模型是如何应用于nlp当中的 3：相关论文 4：代码实现 HMM是隐马尔科夫模型的简称，这个模型的结构可以直接由下面的图来表示：其...

隐马尔科夫模型(HMM)

今天来看看这两种模型。一、马尔科夫模型有以下三个要素：定义每一种状态；每种状态转换到其它状态的概率，即状态转换概率；每种状态的初始概率；这样，通过初始状态，便能计算下一个阶段某状态发生的概...

HMM隐马尔科夫模型

对HMM做概述，主要摘抄自《统计学习方法》，概率计算为主，对学习和预测算法暂时忽略。最后补充一些HMM在地图匹配上的应用 1.HMM 定义和理解隐马尔可夫模型HiddenMarkovModel，标...

HMM隐马尔科夫模型

隐马尔可夫模型马尔科夫性质描述的是客观世界中可能存在的一类现象，其未来的性质由现在条件决定的程度，关于过去的知识丝毫不影响这种决定性。马尔科夫的概率模型从根本上否定了系统中任意状态与其初始状态之间的...

【机器学习笔记十】隐马尔科夫模型（HMM）

一、基本定义隐马尔科夫模型（HMM）是可用于标注问题的统计学习模型，描述由隐藏的马尔科夫链随机生成观测序列的过程，即描述一个含有隐含未知参数的马尔可夫过程，属于生成模型。马尔可夫性质：无记忆性。也...

隐马尔科夫模型（HMM）学习笔记

参考文献 1.李航《统计学习方法》 2.刘建平老师的博客内容 3.一文搞懂HMM 1.HMM模型的应用场景首先我们来看看什么样的问题解决可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征：...

隐马尔科夫模型HMM（一）HMM模型

隐马尔科夫模型HMM（一）HMM模型一、概述隐马尔可夫模型HiddenMarkovModel，HMM是统计模型，包含观察状态和帮助确定观察状态的隐藏状态。它用来描述一个含有隐含未知参数的马尔可夫过...

是否确定退出登录?

机器学习之隐马尔科夫（HMM）模型

机器学习之隐马尔科夫模型（HMM）

隐马尔可夫模型介绍

隐马尔可夫模型数学原理

隐马尔科夫模型Python实现

总结

全部评论 (0)

相关文章推荐

机器学习之隐马尔科夫（HMM）模型

隐马尔科夫模型（HMM）

隐马尔科夫模型(HMM)

HMM隐马尔科夫模型

隐马尔科夫模型(HMM)

HMM隐马尔科夫模型

HMM隐马尔科夫模型

【机器学习笔记十】 隐马尔科夫模型（HMM）

隐马尔科夫模型（HMM）学习笔记

隐马尔科夫模型HMM（一）HMM模型

【机器学习笔记十】隐马尔科夫模型（HMM）