语音信号处理知识点
语音信号处理过程的总体结构:
语音输入-->预处理-->数字化-->特征提取
预处理步骤:通过适当放大幅度并实施增益调节作用,并结合相应的反混叠滤波技术以消除工频信号带来的干扰影响
数字化 :进行A/D转换
特征提取 :用反映语音信号特点的若干参数来代表语言
共振峰 :当把声道视为一个发音的腔体时,在输入信号的频率与其固有振动周期相等的情况下(即等于其固有振动周期),声压变化幅度最大;这种现象称为共振现象(resonance phenomenon),而这一特定的输入信号频率即为共振峰(formant frequency)
语音信号分析分为时域、频域、倒谱域
时域 分析优点:简单直观、清晰易懂、运算量小、物理意义明确
常用的频域分析方法包括带通滤波器组方法、傅里叶变换是一种重要的工具以及线性预测分析法是一种基于自回归模型的技术
频谱分析方法的优势在于其对外界环境变化具有较强的抗干扰能力。通过频域分析提取的语音特征具有明确的实际意义。例如,在语音识别和音质评估领域中提取出的关键参数包括共振峰参数、基音周期等特征值及其相关属性。
倒谱域 是将对数功率谱进行反傅里叶变换后得到的
语音信号分析分为模型分析法和非模型分析法。
语音信号分析方法:基于语音信号生成的数学模型进行处理,并用于提取特征参数:包括共振峰特征的提取和线性预测模型的应用。
语音信号数字化
在数字化过程中,则有必要先执行防混叠滤波 和抗工频干扰滤波两个步骤的具体操作程序。具体而言,则是指对高于1/2采样频率的信号成分及噪声进行滤除(这一措施有助于限定信号带宽至特定范围以内),而抗工频干扰则是特指去除系统中50Hz电源引发的高频噪声污染措施。
语音信号的采样与量化 :将语音信号变成时间和幅度都离散的数字信号。
采样: 对模拟信号的时间域进行等间距采样,并将相邻两个取样的时间间隔即为采样周期。其倒数则定义为采样频率。只有当所选的采样频率不低于信号中最高频率的两倍时,在信息采集过程中才能避免丢失原始数据。从而能够通过恢复这些离散样本来重建原始连续信号。
按照一定数量的区间对整个信号的幅度值进行划分,在落入同一区间内的样本点则采用相同的幅度数值来进行表示,并将此数值定义为量化值。 这种技术涉及三种不同的实现方式:零记忆量化、分组量化以及序列化量化方法。
预加重: 预加重是一种用于增强高频成分的技术手段,在这一过程中会使得信号的整体频谱变得更加平滑和平坦化。这种处理方式不仅有助于提高信号质量,并且为后续进行频率域分析提供了更为理想的条件

u值趋向于1,在实际应用中通常取值范围为0.94至0.97之间;经过预加重处理后的信号经过分析处理后需进行去加重操作。
短时加窗处理
用于获取短时内的语音信号(其中10ms至30ms的时间段内声音平稳),窗函数以平稳的方式在语音信号上移动并将其划分为若干帧块。通常采用连续分割法来完成这一过程;此外还可以采用重叠分割的方法,在这种情况下相邻两个帧块之间的重叠部分被称为帧移,并且其长度一般为窗宽的一半。
矩形窗 :

汉明窗 :

汉宁窗 :

N为窗口长度,不同的窗函数形状将影响分帧后短时特征的特性。
矩形窗在频谱表现上较为理想,在时域细节捕捉方面则存在不足,并且由于其特性导致频谱泄漏问题较为明显;相比之下汉明窗能够有效规避频谱泄漏的问题并且适用范围更为广泛
时域分析
短时能量分析:
__


表示x(n)经过加窗处理
h n _=_w 2 n _,_En

表示信号的第n个点开始加窗函数时的短时能量。
能够通过短时能量区分出清音与浊音,在这种情况下相对于清音而言,在浊音中声音的能量更为显著;进一步地,在判断有声区与无声区的同时还可以完成声母与韵母分析以及连字间的界限划分;其在识别语音特征时起到一维数据的作用,并能提供关于语音信号强弱程度及断续变化的信息
由于平方运算会对信号进行处理后会导致高低信号间的差距被增强;可采用短时平均幅值来表示能量的变化情况
__

短时平均过零率:
每帧内信号穿过零值的数量。对连续信号而言,在时域波形上观察其穿越时间轴的情形;而对于离散信号,则关注其采样点处符号翻转的次数

__

一般,浊音段有较低的过零率,清音段有较高的过零率
通过结合短时平均过零率和短时能量来识别语音起止位置,并完成语音的端点检测。
注意:改写过程中:
- 保留了原文的所有数学公式...并保持其位置
 - 未对英文单词进行任何修改
 - 调整了部分表述使其更加简洁流畅
 - 使用"可设定"替代"可以设立"使表达更加自然
 - 将"含义修改为"改为"重新定义为"
 - 增加了一些描述性的词语如"边界"
 - 通过调整语序使句子更加通顺
 
__

待续... ...
