语音信号处理的一些基础知识
人耳的听觉掩蔽效应
一般来说能够感知到20Hz至20kHz之间的频率范围其声压级范围为5dB至130dB。

语音信号生成的模型
理想的模型属于线性时不变系统,在此框架下虽然理论上具备良好的数学性质, 但在实际应用中却面临诸多限制因素, 如计算复杂度等问题。然而由于这种限制并非绝对, 我们仍可采取灵活的方法对其进行解决。
语音信号被视为线性时不变系统(声道)在其所处环境中的随机噪声或准周期脉冲序列所激发下的输出结果。这种系统的数学模型是由三个相互作用的部分共同作用于声波而形成。
- 声门所导致的激励模型G(z)——激励系统
- 声道所引发的调制函数V(z)——声道系统
- 唚 lips所造成的辐射函数R(z)——辐射系统
语音信号的传递有这三个函数级联而成:

激励模型
激励模型一般分为浊音激励和清音激励,来分开讨论。
浊音
当发出含浊音时,在声带持续交替地扩张与收缩的过程中会形成间歇性脉冲序列。这些脉冲序列在形态上类似于斜三角形特征的脉冲。其周期被称为"基音周期"(记作T),而基音频率则等于1除以T。
清音
当发出清音时,在声带完全舒张的状态下(或舒展开),肺部的空气流能够顺利地通过声门传输到声道中。在经过声门后,在声道中的某一部分上可实施两种不同的控制策略:一是产生阻塞音(blockage noise),二是产生摩擦音(frictional noise)。基于以上分析,在声学工程中将清音激励视为一种随机白噪声信号(其均值为零、方差为一),这种假设能够有效简化模型设计并提高频响预测的准确性。
只是将激励简单地划分为浊音和清音显得片面!事实上,在处理浊辅音特别是浊擦音时,并非简单的叠加就能解决问题。
声道模型
在声道领域中涉及数学模型的各种观点中存在不同的理论视角,在其中较为普及的是两种主要方法:一种认为声带是由多个长度相等但截面积不同的管道依次连接形成的系统;基于这一假设所建立起来的是“声管模型”。另一种则将声带视作一个谐振腔;由此建立起来的是“共振峰模型”。
振 resonance 峰 model:将声带视为一个谐振腔体。这种谐振腔体中的谐振峰即为此处的谐振频率。由于人耳听觉系统中的柯尔蒂斯器官上的纤毛细胞是按照接收频率排列其位置的,因此基于这种声带谐振峰模型的方法具有很高的有效性。通常情况下,在语音合成中使用前三个谐振峰即可准确描述大部分元音语音特征;而对于较为复杂的辅音或鼻音语音特征,则需要引用前五个以上的谐振峰来实现精确描述。
声道模型有串联型、并联型、混合型关于数学模型暂不介绍。
辐射模型
由辐射引起的能量损耗随时间变化而与其对应的辐射阻抗实部R(z)成正比,并且其频响曲线表现为一阶高通滤波器特性。在实际信号分析过程中通常采用预加重技术来增强信号特征的提取效果。通过这一方式后只剩下声道部分便于参数分析,在语音合成阶段进行解加重处理更为必要。
语音信号的数学模型
综上所述,在数字化领域中对完整语音信号进行建模时,我们可以将其视为激励、声学和辐射这三个子系统的串联组合。其传递关系通常以如下形式建立:

G(z)为激励信号,在浊音状态下它表示由声门脉冲和斜三角形脉冲序列构成的z变换;当处于清音状态时,则表现为随机噪声的z变换。V(z)作为声道传输函数,在声学系统中可采用声管模型或共振峰模型等进行描述

该模型的内部架构与真实的语音产生物理过程并不一致。然而,在输出端两者具有等效性。此外,这种模型被定义为‘局部时间域’模型。由于大部分语音信号的变化是缓慢进行的,在10至30毫秒的时间段内(例如),元音声母的参数可以被假设为恒定不变。这里所采用的信道转移函数是一种参数随着时间缓慢变化的系统。这一系统则将声音视为声门激励源通过线性信道—声道传递的结果。
待续……
