语音信号预处理及特征参数提取
WAVE文件格式是Windows系统中用于处理声音的标准格式,基于RIFF结构,由块组成,包括格式信息和数据块。WAVE文件支持PCM和ADPCM编码,主要用于声音处理。语音预处理包括预加重(提升高频成分)、分帧(将信号分成短时段)、加窗(强调特定波形部分)和端点检测(识别语音起始和结束)。预处理目的是提高信号质量,便于后续分析。MFCC特征参数提取基于人耳听觉特性,通过快速傅里叶变换、Mel频率尺度转换、滤波器组和离散余弦变换等步骤,提取语音信号的特征参数,用于说话人识别等应用。
1. WAVE文件格式
在处理语音信号时,通常会使用WAVE文件进行处理。WAVE文件格式有哪些特点?选择WAVE文件格式的原因是什么?
1.1 资源互换文件格式——RIFF
在Windows环境下,大多数多媒体文件遵循一些通用的结构进行存储,这些结构被称作'资源互换文件格式'(RIFF),其缩写为RIFF。RIFF可以被视为一种树状结构,其核心组成部分是块(chunk)。每个块由'判别码'、'数据长度'以及'数据内容'等部分组成。

RIFF文件的前4字节是其辨别码“RIFF”的ASCII字符编码,紧随其后的双字节数据则表示整个文件的大小(单位为字节,Byte)。由于表示文件长度或块长度的“数据大小”信息占用4Byte,因此,实际上,一个WAVE文件或文件中块的长度等于数据大小加8。
1.2 WAVE文件格式
WAVE文件格式是Windows系统中声音的常用格式,也是RIFF文件格式中的一种支持格式,现已被广泛采用。整个WAVE文件由文件头和数据块两部分组成。根据其编码方式和采样数的不同,这两部分的大小也会有所差异。在WAVE文件中,所采用的编码方式主要有两种:PCM(脉冲编码调制)和ADPCM(自适应差分脉冲编码调制)。
Wave文件是一种相对简单的RIFF文件,其格式类型标识为'WAVE'。RIFF块包含两个子块,它们的ID分别为'fmt'和'data',其中'fmt'子块由PCMWAVEFORMAT结构构成,其子块的大小即为sizeofof(PCMWAVEFORMAT),数据部分则为该结构中的数据。
下面是一个语音的数据:

下面是数据中每个字节的内容:

2. 语音的预处理
在语音信号分析与处理之前,首先进行预加重处理,然后进行分帧和加窗等操作。这些处理步骤的目的是以消除由于人类发声器官本身以及采集语音信号设备所导致的混叠、高次谐波失真和高频等对语音信号质量的影响。通过尽可能使后续语音处理得到的信号更加均匀、平滑,从而为信号参数提取提供优质的参数,以提高语音处理质量。
2.1 预加重
语音信号s(n)的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/oct衰减,频率越高相应的成分越小,为此需要在对语音信号s(n)进行分析之前对其高频部分进行增强处理。通常采用的方法是利用数字滤波器实现预加重处理,预加重网络的输出与输入的语音信号s(n)的关系为:

其中a为预加重系数,一般取,本系统中取a= 0.9375。

单词 interesting数据显示

单词 interesting数据经预加重后
2.2 分帧
在整个语音分析过程中,"短时分析技术"发挥着关键作用。语音信号具有时变性,但在1030ms的短暂时间段内,其特性保持相对稳定,即呈现准稳态过程。因此,任何语音信号的分析和处理都必须基于"短时"分析,将语音信号分割为多个"帧",每帧时长通常在1030ms之间,以便分析其特征参数。其中,每段称为一"帧",帧长一般取为10~30ms。这样,对于整体的语音信号而言,分析出的是一系列由各帧特征参数组成的特征参数时间序列。
2.3 加窗
基于这一特性,我们通常会对其实施分帧处理。窗函数的作用在于,它能够对抽样点附近的语音波形进行强调处理,同时对远离该区域的波形部分进行衰减处理。在对语音信号进行分段处理时,我们实际上是对其各个时域区间施加特定的数学变换或运算处理。其定义如下:矩形窗、汉明窗和汉宁窗是应用最为广泛的三种窗函数,它们的定义分别为:

矩形窗具有主瓣宽度减小、频率分辨率较高的特点,但其旁瓣水平较高,容易导致相邻谐波干扰。与矩形窗相比,汉明窗的频谱光滑程度更高。

2.4 端点检测
2.4.1 短时能量
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律

2.4.2 过零率

在语音信号处理领域,端点检测技术的主要目的是实现语音信号的起始点识别和结束点识别。
在本研究中,我们采用双门限比较法进行端点检测。该方法以短时能量E和短时平均过零率Z为特征参数,结合两者的优点,检测效果更加显著。有效降低了系统的处理时间,同时有效排除了噪声干扰,从而显著提高了语音信号的处理性能。


3. MFCC特征参数提取
请解释什么是语音的特征参数?它们通常包括哪些内容?如何进行提取?语音信号中包含大量特征参数,这些参数分别反映了语音的物理和声学特性。选择合适的特征参数对说话人识别系统具有重要意义。选用优质特征参数有助于提高识别系统的准确率。特征提取的目标是去除与识别无关的信息,从而减少处理数据量,最终生成能表征说话人特征的参数。根据不同的特征提取方法,可以提取出不同类型的特征参数,以确保识别过程的准确性。
常用的语音特征参数包括LPCC和MFCC。其中,LPCC参数基于声管模型构建,主要反映声带特征。MFCC参数则基于人耳的频率感知特性,在Mel频率尺度下提取倒谱特征参数。
Mel倒频域系数是基于人耳听觉特性的理论基础,用于模拟人耳对不同频率声音的感知。人耳对声音频率的分辨过程类似于一种对数运算。例如,在Mel频域中,人对音高的感知呈现线性关系,如果两段语音的Mel频率差两倍,则人在感知上也相差两倍。
MFCC算法过程:
(1) 快速傅里叶变换(FFT)


(2) 将实际频率尺度转换为Mel频率尺度:

设置三角形滤波器组,并对每一个三角形滤波器计算其对信号幅度谱滤波后的输出结果:

对滤波器输出施加对数运算,进一步施加离散余弦变换(DTC),即可获得MFCC特征:

