【论文翻译】CP-GAN: CONTEXT PYRAMID GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT
CP-GAN: A HIERARCHICAL CONTEXT PYRAMID GENERATIVE ADVERSARIAL NETWORK AIMS TO IMPROVE SPEECH ENHANCEMENT.
- 时间:2020
- 关键词:语音增强、CP-GAN
abstract
在此前的研究中,在语音增强领域中的应用方面
在本文的研究工作中首次进行了从粗等到详细的语音增强全局与局部特征的探索,并提出了上下文金字塔生成对抗网络(CP-GAN)。该网络模型包含了密集连接的特征金字塔生成器以及动态上下文粒度鉴别的模块,在多层次地消除了音频中的噪声干扰。通过大量实验结果表明该模型成功地达到了当前最先进水平的语音增强效果显著提升了包括自适应语音识别系统和说话人识别技术在内的多个高级语音处理系统的性能
1、介绍
近年来
然而,在应用生成对抗网络(GAN)的方法中,并未对语音信号进行任何修改即可直接将图像合成任务的架构迁移到语音增强领域。例如,在整体语音层面提取语义信息能够提供良好的描述能力,在细粒度特征层面则更能捕捉噪声干扰的特点。先前的研究未能充分挖掘这种音频特性的潜在优势以进一步提升语音增强效果。
在本文中
本文贡献总结:
- 我们构建了一个新的上下文金字塔生成通用网络(CP-GAN),该网络专门用于语音增强任务的设计与实现。其核心架构由多层级特征提取模块与适应性分辨率判别组件两个主要模块构成
- 实验结果验证了我们的CP-GAN架构在性能上超越了现有基于GAN框架的设计方案,并在专门针对语音增强的应用场景中实现了最先进的人工智能水平
- 为了全面考察该方法的实际应用效果,在经过CP-GAN处理后的音频数据上我们展开了自动语音识别与说话人识别两项测试工作;这些实证研究充分证明了通过CP-GAN实现语音增强技术能够显著提升复杂的人类对话理解能力
2、使用GAN进行语音增强
近年来,在应对各种复杂任务方面取得显著进展的生成对抗网络(GAN)已在图像翻译、超分辨率以及语音增强等重要领域展现了出色应用能力[11][12][6]。其中生成器(G)负责将来自先验分布Z的随机变量z映射到分布X中的样本x;而鉴别器(D)则判断样本是否为生成者所产出。为了欺骗鉴别器(D),生成者(G)持续努力创造尽可能逼真的样本;与此同时鉴别者则最大限度地拒绝了这种欺骗行为。双方在此博弈机制下不断进化直至达成纳什均衡状态;最终实现了令人信服的样本合成能力
条件GAN(CGAN)一般性地用于增强退化的语音信号。其中,在一个典型的CGAN架构中,生成器网络G的作用是通过最小化特定损失函数将含噪声的输入语音信号y转换为纯净的语音信号x。该过程具体体现在以下公式中:
Loss_{CGAN}(G) = -\mathbb{E} _y[logD(G(y),y)] + \|G(y)-x\|
与此同时,判别器网络D的目标则是通过最小化另一组损失函数来区分真实的数据样本和生成的数据样本。这些设计共同构成了基于对抗训练机制的有效音频修复框架
然而,在标准 CGAN 中存在一个关键缺陷:当生成样本被判定为真实时的概率应当随之下降 [13]。该概率在标准CGAN中保持恒定(即生成器G在训练过程中仅负责生成与真实数据配对的内容)。为了弥补这一缺陷,在相对GAN方法中通过重新定义判别器函数来评估给定真实数据的概率相对于生成数据的真实程度:
D_{real} = \delta (C(x,y)-C(G(y),y))
其中C代表未包含最终激活层的标准判别器网络;同样地,在评估生成样本的真实性时也采用相对估计方法:
D_{fake} = \delta (C(G(y),y)-C(x,y))
基于这种修改后,在去噪语音信号质量上带来了显著提升。我们的 CP-GAN 通过利用上下文金字塔结构优化相对 GAN,并通过提取局部与全局语音特征实现了从粗到细的语音增强。
3、上下文金字塔生成对抗网络
我们的 CP-GAN 由深度连接的特征金字塔模块与动态上下文粒度鉴别器两部分组成;该系统能够基于分层上下文信息实现微调级语音增强效果;如图 1 所示展示了该模型的整体结构
(图一)我们用于语音增强的 CP-GAN 的插图,其中包含一个密集连接的特征金字塔生成器和一个动态上下文粒度鉴别器。 音频首先被输入生成器以产生干净的语音,该语音由密集块和特征金字塔模块组成,以更好地利用上下文。 全局判别器将生成的音频和原始音频作为输入,并将它们的采样段馈入本地判别器。 这两个鉴别器一起工作,分层判断增强语音的质量。
3.1、密集连接特征金字塔生成器
现有的基于GAN的技术框架通常采用了编码器-解码器架构作为生成模型模块[6,7]。其中编码部分通过步长为2的一系列重复卷积操作提取不同尺度的空间语义特征;解码部分则由多个反卷积层构成并在此基础上引入了一种创新性设计即:将最后一个反卷积层与其对应编码层提取出来的高分辨率语义特征进行深度结合从而实现了更优级联式的语义重建效果。值得注意的是尽管这种架构通过跳跃连接机制实现了跨层级语义关联但它仍然存在一个局限性即仅能在最低分辨率层上完成对细节特性的捕捉与重建这一缺陷严重制约了其整体性能表现为此我们在深入分析现有技术特点的基础上提出了一个基于密集块整合的新框架设计该框架不仅能够有效提升模型对多尺度细节特性的捕捉能力还能够显著改善模型的整体性能表现

如图 1 所示,在 FPN 主干架构中我们采用了密集块结构以生成多尺寸特征信息
3.2、动态上下文粒度鉴别器
早期的研究仅采用单一判别器来指导生成器以增强语音质量,在加入加性噪声后发现语音信号呈现高度不稳定特征。值得注意的是,在某些区域存在显著的噪声干扰,在另一些区域则几乎没有或轻微的噪声影响。此外,在嘈杂的环境下识别特定语音片段变得尤为重要。
如 SERGAN[7] 所述,在本研究中我们设计了一个基于深度学习的方法用于 voice synthesis. 全局判别器将生成的语音信号 \bar{x} (\bar{x} = G(y)) 与噪声语音 y 作为输入,并产生其真实性的概率值. 这一过程能够帮助我们判断生成模型在整体上是否成功去除了噪声. 在此基础之上, 局部判别器则通过分析声音的不同频段特性来进行进一步的区分. 我们从每个生成的片段 \bar{x} 中随机提取 k=10 个子片段, 分别记为 \{\hat{x}_i\}_{i=1}^k, 并对其进行处理以获得其真实性的概率值. 同时, 我们也会对原始的声音片段进行类似的处理, 得到相应的概率值. 最后, 我们通过比较两种情况下得到的概率值来评估模型的表现
