语音信号块处理和自相关函数
该文本讨论了语音信号的处理方法及其特性分析。通过将连续的量化样本分成“帧”进行处理,并结合“帧移位”技术以适应语音信号的准平稳特性。文中还介绍了“短时能量”、“过零率”等特征及其在语音识别中的应用,并强调了自相关函数在音高检测中的重要性。此外,还讨论了协方差与相关的理论基础及其在信号分析中的应用。
语音信号块处理和自相关函数
块处理Block Processing
• 使用麦克风采集并经数字-模拟转换器将输入的语音信号转化为离散的量化样本
• 数字信号处理通常在称为"块"或"帧"的固定长度样本序列上进行操作
– 例如,在Pure Data软件中,默认设置为64个样本(即基于44.1kHz采样率下的约1.45毫秒时长)
• 基于语音信号准平稳特性,在一个帧内有足够的数据来完成必要的测量;同时保持足够小的数据量以确保平稳性假设的有效性
• 必须保证有足够的能够捕捉到非平稳特性的帧数目
为了解决这些问题,在语音处理中通常采用重叠帧方法。其中'帧大小frame size'(N)表示每秒的样本数量。'帧移位frame shift'(R)则表示两个连续帧之间的样本数。
需要注意的是:
• 帧大小通常用NT秒表示(T为采样周期)。
• 帧偏移常以'帧速率fr( fps)'的形式表示。
在演讲中,通常有帧长 (NT) =30 毫秒,帧速率(fr) = 100 帧/秒
• 例如:
sample rate (fs) = 10 kHz (10,000 samples/sec)
sample period (T) = 1/fs = 100 secs/sample
frame size (N) = NT/T = 0.03/0.0001 = 300 samples
frame shift (R) = 1/frT = 1/(100*0.0001) = 100 samples
frame overlap (N-R) = 300-100 = 20 msecs (66%)
AI助手
短时能量
“短期能量”= 一帧中样本的平方和
过零率(ZCR)
ZCR 表示零轴在一帧信号中被跨越的次数其值在清音中较高
声带与声道(包括嘴和嘴唇)共同作用于语音形成
当声带有规律振动时会产生浊音信号这一特点使得它不同于清音
例如元音 /s/ 和 /z/ 或辅音 /f/ 和 /v/ 之间的主要区别在于声带活动情况
语音/非语音检测
自相关函数
自相关函数采用独特的计算方式来衡量信号与其自身的相似程度(用来衡量时间上的依赖关系)。
• ACF 强调的是周期性特征
• 自相关函数(ACF)是频谱分析的核心工具
• 短时自相关函数(STACF)常用于音高检测器的设计
• ACF的计算开销较大(因为每个值都需要执行内部循环处理所有数据样本)
• STACF通常与零交叉率(ZCR)结合使用以实现有声/无声检测
协方差与相关性
两个离散时间信号 x[k] 和 y[k] 之间的"covariance"关系通常用于衡量它们之间的线性关联程度。
在离散时间信号处理中,“autocovariance”特指同一信号在不同时间点上的协方差情况。
基于"宽ense stationarity"(WSS)假设,在宽平稳条件下,信号的统计特性仅依赖于时间间隔 \tau 而与具体的时间位置无关。因此,在计算自协方差函数时,默认选择某个参考点k_1作为基准点进行计算。
