语音信号处理基础(二)
语音信号处理基础(二)
语音信号的特征主要包含声学特征、时域形态、频谱特征以及统计特征等。这些特征与之相对应的是各种语音信号特性的分析图表,例如时域图、频谱图和语谱图等。
时域图
时域图中,语音信号采用其时间波形进行表示。通过观察时间波形可观察出语音信号多个重要特性。

该图表以时间为横轴、振幅为纵轴进行展示。
上图为" Sou ke "这一术语的时域图示意图,在此图表中清晰标注了时间刻度以及各个子语音节的起始位置。
值得注意的是,在该图表中的不同子语音节之间的过渡不明显导致所标注子语音起始点的位置仅具有粗略准确性。
具体而言,在该图表中的某些特定子语音(如从A点开始的声音)属于清辅音类型,在其时域波形中表现为类似于白噪音特征的时间序列。
同样地,在某些其他特定子语音(如从C点开始的声音)同样是清辅音类型,在其时域波形中也呈现出类似的白噪音特征的时间序列。
相比之下,在另一些特定子语音(如从B点开始的声音)属于元音类型,并在它们各自的时域波形中表现出明显的周期性特征。
这些周期性特征与声带振动频率相对应,并且显示出较大的振幅变化幅度。
语音信号归类于短时平稳信号;通常而言,在10~30ms的时间段内其特征较为稳定或缓慢变化;因此,在实际应用中可以通过截取该时间段内的声音片段来进行频谱分析。
频谱图
具体来说,在数学上可以通过傅里叶变换将一个信号被分解为一个直流分量(即一个常数项)以及一系列不同频率的正弦波之和。每个正弦波都有特定的频率值和振幅值。为了直观地展示这些信息,在坐标系中以频率值作为横轴、振幅值作为纵轴绘制出各正弦波对应的振幅大小点状图形,则形成了该信号的幅频分布图;同时还可以绘制相频分布图来表征各个谐波之间的相位关系。尽管相频分布图的意义相对重要性较低但仍然具有一定的研究价值。
在数学理论与数字信息处理领域中
利用MATLAB进行傅里叶变换能够生成一个三维视图...反映了频率、振幅和相位之间的关系...如图所示为'唱歌'的声音频谱图。

(横轴频率,纵轴振幅)

(横轴频率, 纵轴相位) 上图中频率与相位关系图难以识别明显的特征(即主要显示了基本趋势),然而通过分析频率与振幅的关系则能识别出若干规律。

第一部分为清voi [k]对应的频谱图展示第一声区情况的第一部分图表内容,第二部分展示了o前音节 [ou]对应的频谱分布情况.其中凸起出现的位置即为共振峰的位置,这一位置正是指声音频谱中能量相对集中的区域.值得注意的是,这种现象不仅影响着语音的质量特性,更能反映出声带腔体(即声带共鸣腔)的物理特性.例如,在[k]情况下没有明显的周期性特征,而[ou]表现出稳定的周期性特征.
语谱图(声谱图)
在进行语音分析时,时域与频域分析是其中最为关键且广泛应用的两种技术手段。然而这两种单独使用的分析方法存在一定的缺陷:尽管时域分析虽然能够提供关于语音信号的时间信息与动态特性;但频域分析所得出的各种特征参数却无法反映声音在时间上的演变过程。
声音信号属于时间可变的类型,则其对应的频域表示也会随之改变。鉴于声音信号在其时间域中的变化较为平缓,在一定时间段内(例如每帧持续时间为10至30毫秒),其频率成分可以近似地认为不发生变化。基于此定义了短时频谱(STFT),该方法仅反映了声音信号在静止状态下的频率特性。
该傅立叶分析方法生成了与时间相关的语谱图可视化图形。其特征表现为三维频谱结构,并展示了声音信号中不同频率成分随时间变化的情况。纵轴代表声音信号中的频率成分,横轴代表时间维度。不同的颜色深浅则对应着不同频率成分在特定时间段内的能量强度值分布情况。数学表达式如下:|X(f)|= \int_{-\infty}^{\infty} x(t)e^{-j2\pi ft} dt颜色深,则表明该点附近语音能量越强。
在语谱图上由于黑白深浅的不同呈现出独特的纹理 pattern, 我们将其称为"声纹 soundprint"每位说话者的声纹都是独一无二的 unique pattern 因此可以通过比对声纹来鉴别不同人的语音 voice. 从视觉上看, 语谱图上的花纹特征包括水平线 horizontal lines 随机纹理 random patterns 和垂直线条 vertical lines 等等. 其中与时间轴平行的一系列多条深黑色线条 horizontal black lines 是指短时频谱 spectrogram 中突出显示的部分 即共振峰 resonance peaks 的存在. 如果出现这些水平线 是判断该语音是否为浊音 rough voice 的重要依据. 例如, 在Pratt软件中可观察到"唱歌"这一音型的表现

语谱图详解

将这一段语音信号划分为多个帧,并通过短时傅里叶变换(FFT)计算得到每个帧对应的频谱。这些频谱用于描述频率与能量之间的关系。在实际应用中通常使用三种类型的频谱图:线性幅度谱、对数幅度谱以及自功率谱。值得注意的是,在对数幅度谱中各条分贝线的幅度值进行了对数处理,并因此其纵坐标轴采用分贝(dB)作为单位。这种变换的主要作用是突出低振幅成分相对于高振幅成分的优势,并且能够帮助识别隐藏在低噪声水平下的周期性信号

用坐标系统展示单个语音帧的频谱如上图左所示。接着我们将左边频谱进行旋转操作使其转过90度之后生成中间图形显示。随后我们把各个幅度值映射到256级灰度层次中其中最小幅度对应黑色最大幅度则对应白色这样处理后我们就能得到最右边的结果图这一过程旨在增加时间维度从而显示一段语音而不是单个语音帧的时间序列特性这有助于直观观察语音信号中的静态与动态特征最终所得结果即为时域上的时变语谱图(spectrogram)

此图表表示一段语音信号的频谱分布情况,在其频谱峰值点附近出现较为显著 darker 的区域对应着共振峰formants。

用语谱图表示语音时,在这里观察音素(Phones)的各种属性会更加清晰。除了通过分析共振峰及其变化来辅助识别声音之外,在声学分析中对语谱图进行建模是一种有效的方法。而隐马尔科夫模型(Hidden Markov Models)则通过在声学特征空间中建立概率模型来实现语音识别的任务。此外,在评估TTS系统的性能时,比较合成音频与原始音频在语谱图上的相似度是一个直观而有效的方法。
