Advertisement

语音识别-特征提取:概述

阅读量:

在语音识别过程中,首先进行的是语音特征的提取,在人体内由肺、喉和声带等器官组成的语音产生系统中产生了该信号。这个信号具有高度不平稳的特点,在一定时间段内其频谱特性相对稳定,并且可以通过分帧的方式实现短时分析以获取关键信息。在这些技术应用中起到关键作用的参数包括功率谱,在一些特征提取方法如MFCC和FBANK中得到了广泛应用。通过对大量文献资料的研究发现,在实际应用中较为常见的几种特征提取方法各有特点,并且它们的应用范围也有所不同。因此,在深入理解这些常用方法的基础上进行基本原理的学习就显得尤为重要了。

  1. 短时能量
  2. 短时过零率
  3. Fbank
  4. MFCC
  5. LPC
  6. LPCC
  7. LSF
  8. DWT
  9. PLP
  10. CQT

对于Fbank和MFCC这两种方式,放到一起进行总结,因为MFCC=MFCC+DCT。

  • Fbank:滤波器组(Filter Bank),即采用梅尔尺度下的滤波器组进行处理。
    • MFCC:通过梅尔频率倒谱系数(Mel-scale filter bank cepstral coefficients)进行计算得到的特征。
    • DCT:离散余弦转换(Discrete Cosine Transform),用于频域信号的表示。

MFCC的实现过程如下:

在这里插入图片描述



提供音频特征提取方法及工具汇总
分享音频信号相关分析与提取总结
介绍语音识别中的语音特征提取第一部分
基于Python实现的语音识别与特征提取技术
探讨语音识别中的核心特征提取方法

全部评论 (0)

还没有任何评论哟~