Advertisement

MAP(Maximum A Posteriori,最大后验准则)算法

阅读量:
一、意义

训练过程中,UBM通过MAP自适应,可以得到每个说话人的GMM模型。

在这里插入图片描述
二、算法示意图
在这里插入图片描述
三、算法过程
1. 与EM算法中的E-Step相同
  • 已知信息如下所示:
    a. 其中O = \{o_1,o_2,\dots,o_T\}表示某一个说话人的矢量特征。
    b. 具体而言,i代表UBM中的一个高斯分量。
    c. 进一步说明 UB M 的参数\lambda = \{w_i,u_i,\Sigma_i | i = 1,\dots,M\}包含了共M个高斯分量。

  • 目标:评估该矢量特征序列中 每个向量 对应于UBM中的每一个高斯分量的后验概率分布。

    • 公式
      P(i|o_t, \lambda)=\frac{w_ip(o_t|u_i, \Sigma_i)}{\sum_{j=1}^Mw_jp(o_t|u_j, \Sigma_j)}
  • 导出公式
    a. 对应于第i个高斯分量的帧数(其中T表示训练语音的帧数)。
    b. 其期望值 E_i[o] 被定义为 \frac{1}{n_i}\sum_{t=1}^TP(i|o_t, \lambda)o_t
    c. 其协方差矩阵元素 E_i[oo^T] 则被定义为 \frac{1}{n_i}\sum_{t=1}^TP(i|o_t, \lambda)o_to_t^T

2. 用n_i得到的修正因子更新旧的UBM参数\lambda

已知
a. \beta_i=\frac{n_i}{n_i+\gamma}:权重向量、均值向量和协方差矩阵的修正系数。
其主要功能在于平衡GMM模型的新旧参数。(数值越大表示数据越丰富,新参数越值得信赖)
b. \gamma定义为关系因子。
其主要作用是限制修正系数\beta_i的变化幅度。
确保所有混合权值之和恒等于1。(通常设定为16)

  • 更新公式
    a. \hat{w}_i=[\frac{\beta_in_i}{T}+(1-\beta_i)w_i]\gamma
    b. \hat{u}_i=\beta_iE_i[o]+(1-\beta_i)u_i
    c. \hat{\Sigma}_i=\beta_iE_i[oo^T]+(1-\beta_i)(\Sigma_i+u_iu_i^T)-\hat{u}_i\hat{u}_i^T

参考文献:以GMM-UBM模型为基础的说话人识别系统的第39至40页。

全部评论 (0)

还没有任何评论哟~