Advertisement

A Regression Approach to Speech Enhancement Based on Deep Neural Networks

阅读量:

基于回归的语音增强方法aided by deep learning models

题目:一种基于深度神经网络的语音增强回归模型
摘要:针对传统语音增强方法中存在的不足,在分析现有研究的基础上提出了一种新的回归方法。该方法通过引入深度学习算法对噪声特性进行建模,并结合传统声学知识实现了对原始语音信号的重构与提升。实验表明,在不同信噪比条件下均取得了令人满意的性能指标。
作者:Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee,
github: https://github.com/XXX/speech-enhancement

解决的问题

  • 开发了一种监督式语音增强系统, 其核心在于建立一个基于深度神经网络(DNN)的映射模型, 该模型能够有效关联不同类型的噪声信号与相应的纯净语音信号。
  • 首次构建了一个涵盖多种典型语音信号与多样化噪声组合的大规模训练数据集。
  • 本研究开发出一系列优化方法以提升基于DNN 的语音增强系统的性能, 其中采用全局归一化方法来解决回归模型在边界区域过平滑的问题, 同时引入了Dropout技术和噪声感知训练策略以提升模型在未知噪声环境下的泛化性能。

method

  • 充分挖掘声学环境中的上下文信息,并结合全频谱范围以及前后帧的扩展信息序列,在实现声音信号中不连续性减少的同时提升了增强效果的质量。
  • 通过在DNN训练数据集中引入100种不同类型的噪声样本来提升模型对未知分布和难以预测噪声场景(特别是非平稳噪声)的适应能力。
  • 我们提出了三种新型方法来同时优化语音质量与模型泛化性能。第一种方法是针对现有基于深度神经网络(DNN)设计的语言增强系统中存在的过度平滑问题而提出的。该方法采用一种全局方差(GV)指标指导下的特征融合策略,在该指标指导下结合增强特征与原始干净语音特征进行优化。第二步则通过引入Dropout技术到语言模型架构中来提升输入样本的一般性表现。第三步则开发了一种针对性强的学习策略,在训练过程中动态调整模型参数以适应不同噪声环境。

模型

结构

baseline分为训练环节和增强环节,在训练环节中基于噪声与干净语音的对数功率谱特征进行提取(由于该特征被认为具有更高的感知相关性),具体流程包括对输入信号执行短时傅里叶变换以获取频域表示,在此基础上计算重叠帧段的离散傅里叶变换并求取其对数值)。在增强环节中,则通过预先训练好的深度神经网络模型对含噪语音信号进行处理以估计其对应的干净语音特征。随后,在获得估计值的基础上应用如下公式重构其对数功率谱特性

x是干净语音的对数功率谱特征
基本的DNN训练过程

所采用的结构是一个由多个非线性层构成的前馈神经网络系统,能够通过高度复杂的回归模型将带噪声的语音特征转换成干净的语音特征。

全部评论 (0)

还没有任何评论哟~