MAP(Maximum A Posteriori,最大后验准则)算法
发布时间
阅读量:
阅读量
一、意义
训练过程中,UBM通过MAP自适应,可以得到每个说话人的GMM模型。

二、算法示意图

三、算法过程
1. 与EM算法中的E-Step相同
-
已知信息如下所示:
a. 其中O = \{o_1,o_2,\dots,o_T\}表示某一个说话人的矢量特征。
b. 具体而言,i代表UBM中的一个高斯分量。
c. 进一步说明 UB M 的参数\lambda = \{w_i,u_i,\Sigma_i | i = 1,\dots,M\}包含了共M个高斯分量。 -
目标:评估该矢量特征序列中 每个向量 对应于UBM中的每一个高斯分量的后验概率分布。
- 公式
P(i|o_t, \lambda)=\frac{w_ip(o_t|u_i, \Sigma_i)}{\sum_{j=1}^Mw_jp(o_t|u_j, \Sigma_j)}
- 公式
-
导出公式
a. 对应于第i个高斯分量的帧数(其中T表示训练语音的帧数)。
b. 其期望值 E_i[o] 被定义为 \frac{1}{n_i}\sum_{t=1}^TP(i|o_t, \lambda)o_t 。
c. 其协方差矩阵元素 E_i[oo^T] 则被定义为 \frac{1}{n_i}\sum_{t=1}^TP(i|o_t, \lambda)o_to_t^T
2. 用n_i得到的修正因子更新旧的UBM参数\lambda
已知
a. \beta_i=\frac{n_i}{n_i+\gamma}:权重向量、均值向量和协方差矩阵的修正系数。
其主要功能在于平衡GMM模型的新旧参数。(数值越大表示数据越丰富,新参数越值得信赖)
b. \gamma定义为关系因子。
其主要作用是限制修正系数\beta_i的变化幅度。
确保所有混合权值之和恒等于1。(通常设定为16)
- 更新公式
a. \hat{w}_i=[\frac{\beta_in_i}{T}+(1-\beta_i)w_i]\gamma
b. \hat{u}_i=\beta_iE_i[o]+(1-\beta_i)u_i
c. \hat{\Sigma}_i=\beta_iE_i[oo^T]+(1-\beta_i)(\Sigma_i+u_iu_i^T)-\hat{u}_i\hat{u}_i^T
参考文献:以GMM-UBM模型为基础的说话人识别系统的第39至40页。
全部评论 (0)
还没有任何评论哟~
