Advertisement

MFCC语音识别特征

阅读量:

MFCC全程为mel frequency cepstral coefficients (梅尔频率倒谱系数)

过程如下所示:

1.首先是Preemphasis目的是boosting,增加高频能量,从而提高phone的的识别率

2.然后是加窗 ,加窗的目的是让语音信号在一帧内统计特性是固定的,便于构建phone或者subphone分类器。过程如下

上图所示:每帧窗口25ms,帧位移为10ms

实际中加窗都用hamming 进行加窗,为的是避免在窗口边界处不连续导致后面傅里叶分析时出现问题,

Hamming 加窗算法和矩形加窗如下所示

对应的效果图如下所示(对比边界处,可以看到hamming加窗是连续的,而矩阵加窗是非连续的)

3.接下来是Discrete Fourier Transform离散傅里叶变换,目的是得到不同频带,每帧信号所包含的能量。

如下图所示是25ms帧元音[iy]对应的DFT变换

**
**

4.接着是 Mel filter bank and log,人耳对1000Hz以上的声音不是很敏感,因此对1000Hz以上的进行log操作,对1000以下的做线性操作,从而提高识别性能

公式如下:

如图所示:

5.接着是倒谱,即离散傅里叶变换逆变换(The Cepstrum: Inverse Discrete Fourier Transform )

目的是提高语音识别性能,公式如下所示:取前12个参数

6.最后是能量和加速度(Deltas and Energy )

声音信号具有连续特性,所以在5的基础之上,添加了速度和加速度特征信号

能量信号计算公式如下:

速度特征计算如下:

综上所示,39维MFCC特征包括如下信息

参考文献:

[1]http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#deltas-and-delta-deltas

全部评论 (0)

还没有任何评论哟~