python语音信号处理_python实现语音信号处理常用度量方法

阅读量：

信噪比(SNR)

有用信号功率与噪声功率的比(此处功率为平均功率)，也等于幅度比的平方

其中： $P_{signal}$ 为信号功率(平均功率或者实际功率)； $P_{noise}$ 为噪声功率； $A_{signal}$ 为信号幅度； $A_{noise}$ 为噪声幅度值，功率等于幅度值的平方

MATLAB版本代码

#信号与噪声长度应该一样

function snr=SNR_singlech(Signal,Noise)

P_signal= sum(Signal-mean(Signal)).^2; #信号的能量

P_noise = sum(Noise-mean(Noise)).^2; #噪声的能量

snr = 10 * log10(P_signal/P_noise)

tensorflow版本SNR

deftf_compute_snr(labels, logits):#labels和logits都是三维数组 (batch_size, wav_data, 1)

signal = tf.reduce_mean(labels ** 2, axis=[1, 2])

noise= tf.reduce_mean((logits - labels) ** 2, axis=[1, 2])

noise= tf.reduce_mean((logits - labels) ** 2 + 1e-6, axis=[1, 2])

snr= 10 * tf.log(signal / noise) / tf.log(10.)#snr = 10 * tf.log(signal / noise + 1e-8) / tf.log(10.)

snr = tf.reduce_mean(snr, axis=0)return snr

defVolodymyr_snr(labels, logits):#labels和logits都是三维数组 (batch_size, wav_data, 1)

noise = tf.sqrt(tf.reduce_mean((logits - labels) ** 2 + 1e-6, axis=[1, 2]))

signal= tf.sqrt(tf.reduce_mean(labels ** 2, axis=[1, 2]))

snr= 20 * tf.log(signal / noise + 1e-8) / tf.log(10.)

avg_snr= tf.reduce_mean(snr, axis=0)return avg_snr

Volodymyr Kuleshov论文实现方法

批注：这里的1e-6和1e-8，目的是为了防止出现Nan值，如果没有这个需求可以去除

numpy版本代码

defnumpy_SNR(labels, logits):#origianl_waveform和target_waveform都是一维数组 (seq_len, )

#np.sum实际功率;np.mean平均功率，二者结果一样

signal = np.sum(labels ** 2)

noise= np.sum((labels - logits) ** 2)

snr= 10 * np.log10(signal /noise)return snr

峰值信噪比(PSNR)

表示信号的最大瞬时功率和噪声功率的比值，最大瞬时功率为语音数据中最大值得平方。

defpsnr(label, logits):

MAX= np.max(label) ** 2 #信号的最大平时功率

MSE = np.mean((label - logits) ** 2)return np.log10(MAX / MSE)

分段信噪比(SegSNR)

由于语音信号是一种缓慢变化的短时平稳信号，因而在不同时间段上的信噪比也应不一样。为了改善上面的问题，可以采用分段信噪比。分段信噪比即是先对语音进行分帧，然后对每一帧语音求信噪比，最好求均值。

MATLAB版本的代码

function [segSNR] =Evaluation(clean_speech,enhanced)

N= 25*16000/1000; %length of the segment interms of samples

M= fix(size(clean_speech,1)/N); %number of segments

segSNR=zeros(size(enhanced));for i = 1:size(enhanced,1)for m = 0:M-1sum1=0;

sum2=0;for n = mN +1 : mN+N

sum1= sum1 +clean_speech(n)^2;

sum2= sum2 +(enhanced{i}(n) - clean_speech(n))^2;

end

r= 10*log10(sum1/sum2);if r>55r= 55;

elseif r< -10r= -10;

end

segSNR(i)= segSNR(i) +r;

end

segSNR(i)= segSNR(i)/M;

end

View Code

python代码

defSegSNR(ref_wav, in_wav, windowsize, shift):if len(ref_wav) ==len(in_wav):pass

else:print('音频的长度不相等!')

minlenth=min(len(ref_wav), len(in_wav))

ref_wav=ref_wav[: minlenth]

in_wav=in_wav[: minlenth]#每帧语音中有重叠部分，除了重叠部分都是帧移，overlap=windowsize-shift

#num_frame = (len(ref_wav)-overlap) // shift

#= (len(ref_wav)-windowsize+shift) // shift

num_frame = (len(ref_wav) - windowsize + shift) // shift #计算帧的数量

SegSNR=np.zeros(num_frame)#计算每一帧的信噪比

for i inrange(num_frame):

noise_frame_energy= np.sum(ref_wav[i * shift: i * shift + windowsize] ** 2) #每一帧噪声的功率

speech_frame_energy = np.sum(in_wav[i * shift: i * shift + windowsize] ** 2) #每一帧信号的功率

SegSNR[i] = np.log10(speech_frame_energy /noise_frame_energy)return 10 * np.mean(SegSNR)

对数拟然对比度(log Likelihood Ratio Measure)

坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。LLR可以看成一种坂仓距离(Itakura Distance,IS)但是IS距离需要考虑模型增益。而LLR不需要考虑模型争议引起的幅度位移，更重视整体谱包络的相似度。

PESQ

ITU-T的全系列参考目标语音质量测量系列

1997年的P.861(PSQM)

2001年的P.862(PESQ)，后来补充了P.862.1，P.862.2(宽带测量)，P.862.3(应用指南)

2011年的P.863(POLQA)

PESQ是用于语音质量评估的一种方法，ITU提供了C语言代码，下载请点击这里，但是在使用之前我们需要先编译C脚本，生成可执行文件exe

编译方式为：在命令行进入下载好的文件

cd \Software\source

gcc -o PESQ *.c

经过编译，会在当前文件夹生成一个pesq.exe的可执行文件

使用方式为：

命令行进入pesq.exe所在的文件夹

执行命令：pesq 采样率 "原始文件路径名" "劣化文件路径名”

回车

等待结果即可，值越大，质量越好。

例如：pesq +16000 raw.wav processed.wav

感知客观语音质量评估(POLQA)

POLQA是PESQ的继承者(ITU-T P.862建议书)。POLQA避免了当前P.862型号的弱点，并且扩展到处理更高带宽的音频信号。进一步的改进针对具有许多延迟变化的称为信号和信号的时间的处理。与P.862类似，POLQA支持普通电话频段(300-3400 Hz)的测量，但此外它还具有第二种操作模式，用于评估宽带和超宽带语音信号中的HD-Voice(50-14000)赫兹)。

POLQA是全参考算法，并且在对应的参考和测试信号的摘录的时间对准之后逐个样本地分析语音信号。POLQA可用于为网络提供端到端(E2E)质量评估，或表征各个网络组件。

POLQA结果主要是模型平均意见得分(MOS)，涵盖从1(差)到5(优秀)的范围。

对数谱距离(LSD)

对数谱距离Log Spectral Distance，LSD是两个频谱之间的距离度量。也称为“对数谱失真”

式中， $l$ 和 $m$ 分别为频率索引和帧索引， $M$ 为语音帧数， $L$ 为频点数， $\hat{S}(l, m)$ 和 $S(l, m)$ 分别为估计音频和宽带音频经过短时短时傅里叶变换后的频谱。

numpy版本

#方法一

defnumpy_LSD(labels, logits):"""labels 和 logits 是一维数据 (seq_len,)"""labels_spectrogram= librosa.stft(labels, n_fft=2048) #(1 + n_fft/2, n_frames)

logits_spectrogram = librosa.stft(logits, n_fft=2048) #(1 + n_fft/2, n_frames)

labels_log= np.log10(np.abs(labels_spectrogram) ** 2)

logits_log= np.log10(np.abs(logits_spectrogram) ** 2)#先处理频率维度

lsd = np.mean(np.sqrt(np.mean((labels_log - logits_log) ** 2, axis=0)))returnlsd#方法二

defget_power(x):

S= librosa.stft(x, n_fft=2048) #(1 + n_fft/2, n_frames)

S = np.log10(np.abs(S) ** 2)returnSdefcompute_log_distortion(labels, logits):"""labels和logits数据维度为 (batch_size, seq_len, 1)"""avg_lsd=0

batch_size=labels.shape[0]for i inrange(batch_size):

S1=get_power(labels[i].flatten())

S2=get_power(logits[i].flatten())#先处理频率轴，后处理时间轴

lsd = np.mean(np.sqrt(np.mean((S1 - S2) ** 2, axis=0)), axis=0)

avg_lsd+=lsdreturn avg_lsd / batch_size

tensorflow版本

defget_power(x):

x= tf.squeeze(x, axis=2) #去掉位置索引为2维数为1的维度 (batch_size, input_size)

S = tf.signal.stft(x, frame_length=2048, frame_step=512, fft_length=2048,

window_fn=tf.signal.hann_window)#[..., frames, fft_unique_bins]

S = tf.log(tf.abs(S) ** 2) / tf.log(10.)#S = tf.log(tf.abs(S) ** 2 + 9.677e-9) / tf.log(10.)

returnSdeftf_compute_log_distortion(labels, logits):"""labels和logits都是三维数组 (batch_size, input_size, 1)"""S1= get_power(labels) #[..., frames, fft_unique_bins]

S2 = get_power(logits) #[..., frames, fft_unique_bins]

#先处理频率维度，后处理时间维度

lsd = tf.reduce_mean(tf.sqrt(tf.reduce_mean((S1 - S2) ** 2, axis=2)), axis=1)

lsd= tf.reduce_mean(lsd, axis=0)return lsd

但如果想要numpy版本的值和tensorflow版本的值一样，可以使用下面的代码

#numpy版本一：处理一个batch，(batch, seq_len, 1)

defnumpy_LSD(labels, logits):"""labels 和 logits 是一维数据"""labels_spectrogram= librosa.stft(labels, n_fft=2048, hop_length=512, win_length=2048,

window="hann", center=False) #(1 + n_fft/2, n_frames)

logits_spectrogram = librosa.stft(logits, n_fft=2048, hop_length=512, win_length=2048,

window="hann", center=False) #(1 + n_fft/2, n_frames)

labels_log= np.log10(np.abs(labels_spectrogram) ** 2 + 1e-8)

logits_log= np.log10(np.abs(logits_spectrogram) ** 2 + 1e-8)

original_target_squared= (labels_log - logits_log) ** 2lsd= np.mean(np.sqrt(np.mean(original_target_squared, axis=0)))returnlsd#numpy版本二：处理一个batch，(batch, seq_len, 1)

defget_power1(x):

S= librosa.stft(x, n_fft=2048, hop_length=512, win_length=2048,

window="hann", center=False) #(1 + n_fft/2, n_frames)

S = np.log10(np.abs(S) ** 2 + 1e-8)returnSdefcompute_log_distortion(labels, logits):

avg_lsd=0

batch_size=labels.shape[0]for i inrange(batch_size):

S1=get_power1(labels[i].flatten())

S2=get_power1(logits[i].flatten())#先处理频率轴，后处理时间轴

lsd = np.mean(np.sqrt(np.mean((S1 - S2) ** 2, axis=0)), axis=0)

avg_lsd+=lsdreturn avg_lsd /batch_size#tensorflow版本

defget_power(x):

x= tf.squeeze(x, axis=2) #去掉位置索引为2维数为1的维度 (batch_size, input_size)

S = tf.signal.stft(x, frame_length=2048, frame_step=512, fft_length=2048,

window_fn=tf.signal.hann_window)#[..., frames, fft_unique_bins]

S = tf.log(tf.abs(S) ** 2 + 9.677e-9) / tf.log(10.)returnSdeftf_compute_log_distortion(labels, logits):#labels和logits都是三维数组 (batch_size, input_size, 1)

S1 = get_power(labels) #[..., frames, fft_unique_bins]

S2 = get_power(logits) #[..., frames, fft_unique_bins]

#先处理频率维度，后处理时间维度

lsd = tf.reduce_mean(tf.sqrt(tf.reduce_mean((S1 - S2) ** 2, axis=2)), axis=1)

lsd= tf.reduce_mean(lsd, axis=0)return lsd

View Code

批注：librosa.stft中center设为False，和np.log10中加1e-8，目的是为了最终的值和tensorflow版本的lsd值相近，如果没有这个需求可以去除。这里tf.log中加9.677e-9是为了和numpy中的值相近，如果没有这个需求可以去除

短时客观可懂度(STOI)

下载一个 pystoi 库：pip install pystoi

STOI 反映人类的听觉感知系统对语音可懂度的客观评价，STOI 值介于0~1 之间，值越大代表语音可懂度越高，越清晰。

from pystoi importstoi

stoi_score= stoi(label, logits, fs_sig=16000)

加权谱倾斜测度(WSS)

WSS值越小说明扭曲越少，越小越好，范围

参考文献

度量方法仓库

全部评论 (0)

还没有任何评论哟~

python语音信号处理_python实现语音信号处理常用度量方法

信噪比SNR 有用信号功率与噪声功率的比此处功率为平均功率，也等于幅度比的平方其中：Psignal为信号功率平均功率或者实际功率；Pnoise为噪声功率；Asignal为信号幅度；Anoise为噪声...

python语音信号处理_现代语音信号处理笔记 (一)

本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结，包含语音信号处理基础、语音信号分析、语音编码三部分。一开始以为三部分总结到一篇文章里就可以了，但写着写着发现事情并没有那么简单。。。...

语音信号处理-python

语音信号处理 1.语音信号的产生与特性我们要对语音进行分析，首先要提取能够表示该语音的特征参数，有了特征参数才可能利用这些参数进行有效的处理，在对语音信号处理的过程中，语音信号的质量不仅取决于处理方...

【老生谈算法】matlab实现语音信号处理与仿真——语音信号处理算法

基于Matlab的语音信号处理与仿真 1、文档下载：本算法已经整理成文档如下，有需要的朋友可以点击进行下载序号文档（点击下载）本项目文档【老生谈算法】MATLAB语音处理.docx 2、算法详解...

python对语音信号处理（常用操作）

一、语音信号读取 1、语音信号三个重要的参数：声道数、取样频率和量化位数。声道数：单声道、双声道取样频率：一秒钟对声音采样的次数量化位数：用多少bit表达一次采样所采集的数据，通常有8bit、1...

MATLAB处理语音信号

一、实验项目名称语音信号的处理二、实验目的综合运用数字信号处理课程的理论知识进行频谱分析以及滤波器设计，通过理论推导得出相应结论，并进行计算机仿真，从而复习巩固了课堂所学的理论知识，提高了对所学...

MATLAB语音信号处理

数字信号处理课设，我们使用MATLAB对语音信号进行了一系列处理，并将其所有功能集中于下图界面中：这个界面涉及功能众多，其中包括语音信号的观察分析、音色变换、AM调制解调、减抽样、加噪去噪、相频分析...

语音信号处理（1）

语音信号处理（1）在基于深度学习的语音增强和语音合成中，语音的预处理部分是十分重要的，在此，结合自己的毕设做一个简单的总结。语音的预处理在对语音信号进行分析和处理之前，必须对其进行预加重、分帧、...

MATLAB语音信号处理

MATLAB语音信号处理系统主要内容运用matlab软件实现对声音的变声处理，利用离散付里叶变换进行频谱分析；设计数字滤波器组；通过时域和频域方法做出各种音效效果，实现变速（慢放、快放），变调（频...

MATLAB语音信号处理

题目：MATLAB数字语音识别系统课题介绍本设计为基于MATLAB的HMM语音信号识别，可以识别09十个阿拉伯数字，带有一个丰富的人机交互GUI界面。

是否确定退出登录?

python语音信号处理_python实现语音信号处理常用度量方法

全部评论 (0)

相关文章推荐

python语音信号处理_python实现语音信号处理常用度量方法

python语音信号处理_现代语音信号处理笔记 (一)

语音信号处理-python

【老生谈算法】matlab实现语音信号处理与仿真——语音信号处理算法

python对语音信号处理（常用操作）

MATLAB处理语音信号

MATLAB语音信号处理

语音信号处理（1）

MATLAB语音信号处理

MATLAB语音信号处理