Advertisement

语音信号处理基础(三)

阅读量:

语音信号处理基础(三)

倒谱分析(Cepstrum Analysis)

以下是对原文的改写

这里写图片描述

我们不仅关注共振峰的位置信息本身(position),还需提取其转换过程(conversion process)。因此我们提取的是频谱包络线(Spectral Envelope)。这条平滑曲线则完美地将这些共振峰点串联在一起

这里写图片描述

原始信号的频谱由包络与细节两部分构成。其中采用的是对数坐标系表示法,其单位标记为dB(分贝)。通过分离这两部分信息,则能够提取出包络特征。

这里写图片描述

基于给定的 \text{log} \,X\left [k\right ]值,在此基础上计算得到\text{log}\,H\left [k\right ]\text{log}\,E\left [k\right ], 从而使得它们之和等于\text{log}\,X\left [k\right ]. 为了实现这一目的,在频谱上执行快速傅里叶变换等价于执行逆快速傅里叶变换Inverse Fast Fourier Transform (IFFT). 需要指出的是,在处理过程中我们始终关注的是对数域的情况. 在进行对数值域中的逆快速傅里叶变换时等价于在其对应的伪频率坐标轴上表征信号.

这里写图片描述

从图表中可以看出, 包络主要由低频成分构成。(这时需要转换思路, 不要将横轴简单地视为频率, 而应将其视为时间或其他物理量, 可以将其视为一个周期为每秒4个单位的正弦波)在此情况下, 我们会在伪坐标轴上的4Hz位置设置一个峰值点;而对于频谱中的细节部分, 主要由高频组成(这里可以把高频视为一个周期为每秒100个单位的正弦波), 因此我们需要在伪坐标轴上的100Hz位置设置另一个峰值点。将这两个峰点叠加后就还原出了原始频谱信号

这里写图片描述

在实际应用中已知log X[k]存在,则x[k]必然可得。
观察图形可知,h[k]代表了x[k]中的低频成分。
通过应用低通滤波器处理x[k], 我们能够分离出h[k].
至此,我们得以将两者区分开来,最终提取出h[k],即为频谱包络。
倒谱定义为信号经过对数域傅里叶反变换后所得的结果。
它的计算过程如下:
1)将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[e];
只考虑幅度就是:|X[Xk]]=|H[Hk)||E[Ek]|;
2)在两边取对数: log||X[Xk)||= log||H[Hk)||+ log||E[Ek)||;
3)再在两边取逆傅里叶变换得到: x[xk]=h[hk]+e[ek].
这个专业术语叫做同态信号处理,其核心思想是将非线性问题转化为线性问题进行处理。
具体而言,原始语音信号实际上是一个卷积信号(声道相当于一个线性时不变系统,声音产生可看作激励通过该系统)。
首先通过卷积将其转换为乘性信号(时域卷积等效于频域乘法);其次取对数将其转换为加性信号;最后进行逆变换恢复到时域序列状态。
此时虽然前后均为时域序列但所处离散时域不同,因此后者被称为倒谱频域。

这里写图片描述

全部评论 (0)

还没有任何评论哟~