Advertisement

【学习笔记】Task3 食物声音识别-音频数据特征提取

阅读量:

参考资料

Datawhale Github官方代码
MFCC特征提取
Datawhale直播

特征提取背景

在之前的Task2中,我们初步查看了数据集的信息,并通过音频的声波图和声谱图将声音可视化了。当我们拿到这些音频数据之后,接下来就需要进行特征提取(过滤掉背景噪音等不需要的信息)筛选出我们需要的信息了。

接下来我们将简要介绍以下特征,并详细学习MFCC特征提取知识:

  • 过零率 (Zero Crossing Rate)
  • 频谱质心 (Spectral Centroid)
  • 声谱衰减 (Spectral Roll-off)
  • 梅尔频率倒谱系数 (Mel-frequency cepstral coefficients ,MFCC)
  • 色度频率 (Chroma Frequencies)

1、过零率是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。一般情况下,过零率越大,频率近似越高。
(虽然是率,但是它指的是次数!)
2、谱质心是描述音色属性的重要物理参数之一,是频率成分的重心,是在一定频率范围内通过能量加权平均的频率,其单位是Hz。它是声音信号的频率分布和能量分布的重要信息。在主观感知领域,谱质心描述了声音的明亮度,具有阴暗、低沉品质的声音倾向有较多低频内容,谱质心相对较低,具有明亮、欢快品质的多数集中在高频,谱质心相对较高。该参数常用于对乐器声色的分析研究。
3、声谱衰减,它是对声音信号形状(波形图)的一种衡量,表示低于总频谱能量的指定百分比的频率。
4、色度频率是音乐音频有趣且强大的表示,其中整个频谱被投影到12个区间,代表音乐八度音的12个不同的半音(或色度)。

MCFF特征提取

人的耳朵在接收信号的时候,不同的频率会引起耳蜗不同部位的震动。耳蜗就像一个频谱仪,自动在做特征提取并进行语音信号的处理。在语音识别领域中MFCC(Mel Frequency Cepstral Coefficents)特征提取是最常用的方法,也是本次音频分类任务中涉及到的特征提取方法。

具体来说,MFCC特征提取的步骤如下:

  • 对语音信号进行分帧处理
  • 用周期图(periodogram)法来进行功率谱(power spectrum)估计
  • 对功率谱用Mel滤波器组进行滤波,计算每个滤波器里的能量
  • 对每个滤波器的能量取log
  • 进行离散余弦变换(DCT)变换
  • 保留DCT的第2-13个系数,去掉其它

其中,前面两步是短时傅里叶变换,后面几步主要涉及梅尔频谱。
在这里插入图片描述

  • 预加重——目的是为了去除口唇辐射的影响,增加语音的高频分辨率

  • 分帧——为了保证输入信号是平稳的,我们需要将语音分成一小段(帧)

  • 加窗是为了解决由于信号的非周期截断,导致频谱在整个频带内发生了拖尾现象的泄漏问题,可以使得使全局更加连续,避免出现吉布斯效应。

  • 傅里叶变换
    在这里插入图片描述
    在这里插入图片描述

  • Mel滤波器组——MFCC的分析着眼于人耳的听觉特征,人耳所听到的声音高低与声音的频率并不成线性正比关系,而用Mel频率尺度更符合人耳的听觉特性。

  • 倒谱分析
    在这里插入图片描述

全部评论 (0)

还没有任何评论哟~