语音信号处理知识点

阅读量：

语音信号处理过程的总体结构：

语音输入-->预处理-->数字化-->特征提取

预处理步骤：通过适当放大幅度并实施增益调节作用，并结合相应的反混叠滤波技术以消除工频信号带来的干扰影响

数字化 ：进行A/D转换

特征提取 ：用反映语音信号特点的若干参数来代表语言

共振峰 ：当把声道视为一个发音的腔体时，在输入信号的频率与其固有振动周期相等的情况下（即等于其固有振动周期），声压变化幅度最大；这种现象称为共振现象（resonance phenomenon），而这一特定的输入信号频率即为共振峰(formant frequency)

语音信号分析分为时域、频域、倒谱域

时域分析优点：简单直观、清晰易懂、运算量小、物理意义明确

常用的频域分析方法包括带通滤波器组方法、傅里叶变换是一种重要的工具以及线性预测分析法是一种基于自回归模型的技术

频谱分析方法的优势在于其对外界环境变化具有较强的抗干扰能力。通过频域分析提取的语音特征具有明确的实际意义。例如，在语音识别和音质评估领域中提取出的关键参数包括共振峰参数、基音周期等特征值及其相关属性。

倒谱域 是将对数功率谱进行反傅里叶变换后得到的

语音信号分析分为模型分析法和非模型分析法。

语音信号分析方法：基于语音信号生成的数学模型进行处理，并用于提取特征参数：包括共振峰特征的提取和线性预测模型的应用。

语音信号数字化

在数字化过程中，则有必要先执行防混叠滤波 和抗工频干扰滤波两个步骤的具体操作程序。具体而言，则是指对高于1/2采样频率的信号成分及噪声进行滤除（这一措施有助于限定信号带宽至特定范围以内），而抗工频干扰则是特指去除系统中50Hz电源引发的高频噪声污染措施。

语音信号的采样与量化 ：将语音信号变成时间和幅度都离散的数字信号。

采样： 对模拟信号的时间域进行等间距采样，并将相邻两个取样的时间间隔即为采样周期。其倒数则定义为采样频率。只有当所选的采样频率不低于信号中最高频率的两倍时，在信息采集过程中才能避免丢失原始数据。从而能够通过恢复这些离散样本来重建原始连续信号。

按照一定数量的区间对整个信号的幅度值进行划分，在落入同一区间内的样本点则采用相同的幅度数值来进行表示，并将此数值定义为量化值。这种技术涉及三种不同的实现方式：零记忆量化、分组量化以及序列化量化方法。

预加重： 预加重是一种用于增强高频成分的技术手段，在这一过程中会使得信号的整体频谱变得更加平滑和平坦化。这种处理方式不仅有助于提高信号质量，并且为后续进行频率域分析提供了更为理想的条件

u值趋向于1，在实际应用中通常取值范围为0.94至0.97之间；经过预加重处理后的信号经过分析处理后需进行去加重操作。

短时加窗处理

用于获取短时内的语音信号（其中10ms至30ms的时间段内声音平稳），窗函数以平稳的方式在语音信号上移动并将其划分为若干帧块。通常采用连续分割法来完成这一过程；此外还可以采用重叠分割的方法，在这种情况下相邻两个帧块之间的重叠部分被称为帧移，并且其长度一般为窗宽的一半。

矩形窗 ：

汉明窗 :

汉宁窗 ：

N为窗口长度，不同的窗函数形状将影响分帧后短时特征的特性。

矩形窗在频谱表现上较为理想，在时域细节捕捉方面则存在不足，并且由于其特性导致频谱泄漏问题较为明显；相比之下汉明窗能够有效规避频谱泄漏的问题并且适用范围更为广泛

时域分析

短时能量分析：

表示x(n)经过加窗处理

h n _=_w 2 n _,_En

表示信号的第n个点开始加窗函数时的短时能量。

能够通过短时能量区分出清音与浊音，在这种情况下相对于清音而言，在浊音中声音的能量更为显著；进一步地，在判断有声区与无声区的同时还可以完成声母与韵母分析以及连字间的界限划分；其在识别语音特征时起到一维数据的作用，并能提供关于语音信号强弱程度及断续变化的信息

由于平方运算会对信号进行处理后会导致高低信号间的差距被增强；可采用短时平均幅值来表示能量的变化情况

短时平均过零率：

每帧内信号穿过零值的数量。对连续信号而言，在时域波形上观察其穿越时间轴的情形；而对于离散信号，则关注其采样点处符号翻转的次数

一般，浊音段有较低的过零率，清音段有较高的过零率

通过结合短时平均过零率和短时能量来识别语音起止位置，并完成语音的端点检测。

注意：改写过程中：

保留了原文的所有数学公式 $...$ 并保持其位置
未对英文单词进行任何修改
调整了部分表述使其更加简洁流畅
使用"可设定"替代"可以设立"使表达更加自然
将"含义修改为"改为"重新定义为"
增加了一些描述性的词语如"边界"
通过调整语序使句子更加通顺

待续... ...

全部评论 (0)

还没有任何评论哟~

语音信号处理知识点

语音信号处理过程的总体结构：语音输入预处理数字化特征提取预处理：对信号适当放大和增益控制，并进行反混叠滤波来消除工频信号干扰数字化：进行A/D转换特征提取：用反映语音信号特点的若干参数来代表语...

《语音信号处理》第二章总结——语音信号基础知识

1、声音是一种波，能被人耳听到，它的振动频率在20～20000Hz之间。 2、语音产生的过程语音的形成过程:空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，形成语音。

（Aliyun AI ACP 07）智能语音处理基础知识：语音信号处理

文章目录阿里云人工智能工程师ACP认证考试知识点辅助阅读（AliyunAIACP07）智能语音处理基础知识：语音信号处理智能语音基础与应用场景智能语音处理过程与要素语音信号处理原理与方法阿...

语音信号处理的一些基础知识

人耳的听觉掩蔽效应一般人可以感觉到20Hz20kHz，强度为5dB130dB。人耳的掩蔽效应：在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。被掩蔽的不可闻信号的最大声压级称为掩蔽门限或者掩蔽阈...

语音知识回顾和总结----语音信号的预处理

回顾上两次的内容：上次主要说了音频文件的读取（主要是matlab和c语言）。感觉有几个概念有点混淆：语音、音频、音乐。语音英文是speech，音频是audio，音乐是music。据我的理解是音频包括语...

语音识别-信号处理篇

我的书：淘宝购买链接当当购买链接京东购买链接连接前端和后端的语音识别（ASR）的关键是给到后端（根据特征判定词/句）系统的特征类型和特征质量，对于传统的语音识别系统常采用MFCC（melfre...

语音信号处理-基础（一）：声学基础知识

一、声波 1、基本概念声音由物体的振动产生。音叉振动时，激励周围空气质点振动，产生一个压强波动叠加在大气压上。由于空气具有可压缩性，在质点的相互作用下，不断地交替产生压缩与膨胀，并且逐渐向外传播。...

信号处理等相关知识点

TDNN（时延神经网络）CNN神经网络的基础普通神经网络：只包含一帧的特征向量 MFCC：用于语音特征提取的算法，提取出音色很能区分不同人的说话声音）。 TDNN 滤波器：重要特征提取。

自然语言处理之语音识别：HiddenMarkovModel(HMM)：语音信号处理

自然语言处理之语音识别：HiddenMarkovModelHMM：语音信号处理语音信号基础信号的时域与频域表示在语音信号处理中，信号可以被表示在时域和频域两个不同的视角。时域表示直接反映了信号随...

python语音信号处理_现代语音信号处理笔记 (一)

本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结，包含语音信号处理基础、语音信号分析、语音编码三部分。一开始以为三部分总结到一篇文章里就可以了，但写着写着发现事情并没有那么简单。。。...

是否确定退出登录?

语音信号处理知识点

全部评论 (0)

相关文章推荐

语音信号处理知识点

《语音信号处理》第二章总结——语音信号基础知识

（Aliyun AI ACP 07）智能语音处理基础知识：语音信号处理

语音信号处理的一些基础知识

语音知识回顾和总结----语音信号的预处理

语音识别-信号处理篇

语音信号处理-基础（一）：声学基础知识

信号处理等相关知识点

自然语言处理之语音识别：HiddenMarkovModel(HMM)：语音信号处理

python语音信号处理_现代语音信号处理笔记 (一)