语音处理——NN学习相关blog
发布时间
阅读量:
阅读量
基于深度学习的单通道语音增强
https://www.cnblogs.com/LXP-Never/p/14142108.html
abstract:
介绍目前基于深度神经网络单通道的语音增强方法,大致可以分为两类:
- 基于映射的语音增强;
- 基于Mask的语音增强:几种常见的利用模型训练的mask模型:
理想幅度掩蔽(Ideal Amplitude Mask,IAM)
相位敏感掩蔽(Phase Sensitive Mask,PSM)
复数理想浮值掩蔽(Complex Ideal Ratio Mask,cIRM)
<>
深度学习语音增强
abstract:
监督深度学习依赖监督对象(训练集),由于训练集始终只能是大千世界的一个子集中的子集,所以其普适性和鲁棒性没有基于传统信号处理强,但是由于网络可以很复杂,因而在有些情况下其得到的模型可以比传统信号处理更精确(以计算量为代价)。大部分一线工程师更倾向于信号处理+深度学习两者结合的方法。
降噪的核心任务如图中地板公式所示,纯净语音=带噪语音-噪声=带噪语音*(1-噪声/带噪语音)=带噪语音*Gain,这样的话,只需要计算Gain值就可以得到纯净语音了,传统信号处理方法通过信号建模的方式获取Gain,监督深度学习方法是通过神经网络计算得到Gain。
基于掩码的深度学习方法:
基于特征提取的不同,有多种不同掩码的估计方法;
其他场景:多通道语音增强;回声消除;
基于时域信号的深度学习:
直接使用时域信号,用Encoder网络自主学习合适的网络结构,这取代了STFT,如TasNet就是这种思想,不过这种直接时域处理计算量往往一个问题。
全部评论 (0)
还没有任何评论哟~
