Advertisement

A Convolutional Recurrent Neural Network for Real-Time SpeechEnhancement

阅读量:

[Interspeech 2018 ]CRN

Motivation

现实生活中许多语音增强的应用都需要实时处理,最好没有延迟或者低延迟,而目前的LSTM模型适用于未训练的说话人,而GRN在每个时间帧需要大量的未来信息来做mask估计或者谱映射,因此不能被使用在实时语音增强上。受最近CRN工作上的启发,作者提出了一个新的关于噪声和说话人无关的实时语音增强系统CRN架构,CRN结合了CED和LSTM。所提出的系统比LSTM有更好的客观语音可懂度和质量,而且,CRN训练参数更少。

Method


A.使用因果卷积的编码器-解码器

一个卷积编码器后面跟着一个相应的卷积解码器,送进softmax分类器中,encoder是卷积层和池化层的一个栈,用于从输入的原始图像中提取高层特征。decoder和encoder的结构相同,顺序相反。在所提出的网络中,encoder有5层卷积层,decoder有5层反卷积层。我们将指数线性单元(ELUs)应用到所有的卷积层和反卷积层除了输出层。ELUs比RELUS,可以更快的收敛,更好的泛化。而且,在每一个卷积或反卷积层后和激活函数前用了BN。为了在频域方向利用更大的上下文信息,在频域方向对所有的卷积或反卷积层中采用的步长为2,换句话说,将频域的特征映射尺寸减半在编码器中逐层映射,在解码器中加倍,而不改变时间维度特征映射的尺寸。为了提高网络的信息流和梯度,优化了跳跃连接,将每个编码器连接到解码器的输入中。为了获得实时语音增强的casual 系统,在encoder-decoder之上提出使用casual卷积层,输入被当作特征向量的序列,图一值解释了在时域上,在casual卷积中,输出不依赖于特征输入。

B****.通过LSTM进行时间建模****

为了说明语音的时间动态,在编码器和解码器之间插入两个堆叠的LSTM层。在这项研究中,使用由以下公式定义的LSTM。

其中xt、gt、ct和ht分别代表时间t的输入、区块输入、记忆单元和隐藏激活。W’s和b’s分别表示权重和偏置。σ代表sigmoid非线性。为了适应LSTM所要求的输入形状,将编码器输出的频率维度和深度维度扁平化,在将其送入LSTM层之前产生一个特征向量序列。随后,LSTM层的输出序列被重新塑造,以适应解码器。值得注意的是,LSTM层的加入并没有改变系统的因果关系.

实验步骤

数据集:WSJ0 SI-84训练集,包含83(42名男性,41名女性)个说话人的7138条说话人信息。其中77名用于训练。6名测试。为了实现噪声无关的模型,用了一个语音库中的1000条噪声用来训练,时长126个小时,测试集使用了俩种有挑战性的噪声(babble和cafeteria),制作了一个训练集包含320000条混合语音,时长500小时,将随机挑选的训练语音和随机从1000句-5-0db的训练噪声中截取的片段混合在一起,为了检验模型对于说话人泛化的效果,创建了俩个测试集,噪声使用6个训练说话人(3男3女)和6个未训练说话人。一个测试集包含由6个训练的说话人产生的150(25*6)条混合语音,另一个是未训练的说话人产生的150混合语音,注意所有的测试集不在训练集中,在训练集中使用-5dB和-2dB的SNR。

实验结果

LSTM-1和LSTM-2在训练和未训练说话人上的分数很接近,说明LSTM-1使用了特征窗口并没有提升性能。而CRN在俩个评价指标上都持续高于LSTM baselines,大多数有挑战性的情况是未训练的说话人和未训练的噪声以-5dB混合在一起的语句,CRN在未处理的混合语句上有在STOI上有18.56%的提升,在PESQ上有0.55的提升,CRN利用了BN,很容易的应用到卷积操作上加速训练和提升性能。

图4比较了不同模型在训练阶段的训练和测试MSEs,其中模型是在6个未经训练的说话者的测试集上进行评估的。观察到,与两个LSTM模型相比,CRN的收敛速度更快,且均方误差更低。

CRN的可训练参数比LSTM模型少,如图5所示。这主要是由于在卷积中使用了共享权值。CRN具有较高的参数效率,比lstm更容易训练。此外,CRN中的因果卷积在不使用未来信息的情况下捕获输入STFT幅度谱中的局部空间模式。相比之下,LSTM模型将每个输入帧视为一个扁平的特征向量,不能充分利用STFT幅度谱中的T-F结构。另一方面,CRN中的LSTM层在空闲空间中建立了时间依赖性模型,这对于讲话者独立语音增强中的讲话者表征具有重要意义。

总结

提出了CRN来解决噪声与说话人无关的实时语音增强应用,提出的模型时因果语音增强系统,不适用未来的信息,估计的结果表明CRN在STOI和PESQ上比俩个LSTM 的baseline表现要好,无论是训练还是未训练说话人。另外,CRN的参数更少。

2022.1.27

全部评论 (0)

还没有任何评论哟~