SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition
摘要
我们开发出了SpecAugment方法,在语音识别领域具有重要意义。该技术特别适用于神经网络中的特征输入处理(具体指滤波器组系数)。其核心增强策略主要体现在对特征信号进行形态变换的同时实现关键频段的遮蔽处理以及时间维度上的块状遮蔽操作。在端到端语音识别系统中,我们成功将此技术整合到Listen-Attend-Spell架构中进行测试验证,并在多个基准数据集上取得了显著成果
1.引言
机器学习技术在自动语音识别(ASR)领域得到了广泛的应用,并被标注为研究热点。然而,在实际应用中这些模型往往面临过拟合的问题,并且通常需要大量高质量的训练数据。
数据增强方法已得到广泛研究作为生成辅助训练数据以提升语音语 Recognition性能的重要手段。例如,在现有文献如[9, 10]中专门针对低资源语音识别任务开发了人工标注的数据集。归一化处理方法在文献[11]中被采用。而在文献[12]中则通过结合清晰音频与嘈杂音频信号来生成具有不同噪声特性的混合音频样本。此外,在文献[13]中提出了通过调整音速来模拟不同场景的语音特性以适应特定任务需求的方法。文献[14]则深入探讨了声学环境模拟技术的应用。针对关键词识别任务的数据增强方法在相关文献中有详细研究,并已在实际应用中取得显著效果。值得注意的是,在多流ASR系统训练过程中特征丢弃技术被应用于模型优化过程。更为广泛地讲学习者们致力于探索不同类型的增强策略并将其成功应用于图像领域的相关研究取得了突破性进展。
基于语音与视觉领域增强技术近期取得的显著成果的基础上
这种方法尽管基础但表现非常出色能够实现端到端的自适应语音识别网络训练并在LibriSpeech等基准集上取得了领先成果尤其是在不依赖语言模型的情况下依然表现出色。
实验结果表明在LibriSpeech基准集[20]中我们的模型实现了干净测试集上的最佳词错误率(WER)为2.8%而在其他测试条件下的WER则达到了6.8%。
通过结合LM模型提升了性能并在干净测试集上将WER进一步优化至2.5%较之前提升约14%同时在Hub5’00基准集中我们也实现了7.2%的WER表现优异地解决了复杂场景下的语音识别问题。
此外我们还在Switchboard 300h基准集中展示了该方法的有效性其中基于LDC97S62开发的Hub5’00基准集实现了7.2%的WER而在CallHome子任务中则表现更为稳健达到了14.6%的WER水平这充分证明了该方法在多场景下的鲁棒性和实用性。
2.增强策略
旨在建立一种适用于对数梅尔频谱图增强策略的方法,并以促进网络提取出有用特征为目标。考虑到这些特征需要具备对信号时变特性的适应能力以及在部分频率信息丢失情况下的鲁棒表现能力,在分析现有技术的基础上我们采取了以下措施来构建这一增强策略
- 时间扭曲利用tensorflow中的sparse image warp函数来实现。给定一个具有τ个时间步长的log mel频谱图作为输入图像,在图像中通过中心点水平线选取一个随机点进行左右扭曲操作,在边界上固定六个锚点——四个角点和垂直边缘中点。
- 频率遮罩操作应用于系统中以屏蔽f个连续的mel频谱通道[f₀, f₀+f)区间内的频谱数据。其中参数f首先从均匀分布范围内随机选取值域为[0,F];而起始位置f₀则从范围[0,ν−f)内随机选择。
- 类似地,在时序数据处理过程中引入了时间遮罩操作以屏蔽t个连续的时间步长[t₀,t₀+t)区间内的时序数据。参数t同样遵循均匀分布从[0,T]范围内选取;起始位置t₀则来自范围[0,τ−t)内随机确定。
图1展示了应用于单个输入的各种增强示例。经过对log mel频谱图的标准化处理后, 将遮蔽值设为零等价于将其设为其均值。我们可以通过采用多个频率和时间遮罩的策略来实现减少覆盖区域出现重叠的情况。
图1展示了应用于单个输入的各种增强示例。经过对log mel频谱图的标准化处理后, 将遮蔽值设为零等价于将其设为其均值。我们可以通过采用多个频率和时间遮罩的策略来实现减少覆盖区域出现重叠的情况。

本研究建议采用多频率与时间掩模这一策略,在此研究中重点考察了若干人工设计的策略方案;其中所涉及的主要参数配置包括LB、LD、SM及SS四个版本,在表1中进行了详细罗列;图2展示了基于LB与LD双重增强后的对数梅尔频谱图实例


3.方法
在语音识别任务中采用Listen-Attend-Spell(LAS)架构[6]。这类模型具有端到端的设计特点,并因其相对简单的训练流程受到广泛关注,并经过系统性评估与验证的基准测试数据集[24, 25]作为参考依据,在本章节中我们将重点回顾LAS架构的基本原理及其改进方向。为了便于参数化分析与优化,在本节内容中我们将对核心组件进行详细阐述,并探讨不同学习率调度机制对最终模型性能提升起到关键作用的作用路径。为此我们将其与预训练语言模型相结合以实现性能提升目标
3.1 LAS网络结构
我们采用 Listen-Attend-Spell (LAS) 网络[6]实现端到端语音识别系统,并借鉴了先前的研究成果[25]。该系统中采用了 LAS-d-w 模型架构作为特征提取模块。具体而言,在输入端提供了一个经过最大池化处理且步长为 2 的两层卷积神经网络(CNN),用于提取语音特征序列。随后将此特征序列传递给编码器模块,在该模块中由 d 个双向 LSTM 组成(每个 LSTM 单元大小为 w),从而生成了一系列注意力向量序列。这些注意力向量被 fed 到一个同样拥有细胞维度 w 的两层 RNN 解码器中,在解码过程中生成候选文字串并完成转录任务。文本分词采用 Word Piece Model (WPM) [26]方法进行处理,在 LibriSpeech 数据集上使用 16k 词汇量的 WPM 分词模型,在 Switchboard 数据集上则使用 1k 词汇量的 WPM 实现分词任务。对于 LibriSpeech 960h 数据集,在训练集转录的基础上构建了 WPM 模型;而对于 Switchboard 300h 任务,则将训练集转录与 Fisher 语料库转录合并以构建 WPM 模型基础。最终生成的文字结果基于 beam search 方法实现(beam size =8)。与[25]相比,在 LAS 模型架构中我们采用了 LAS-4-1024 结构作为他们的 "large model" 参考版本
3.2学习率调度
学习率调度对于语音识别网络性能具有关键影响,在数据增强场景下尤为突出。在此处我们提出了两种训练策略的目的性分析。第一种策略旨在考察较长周期调度对模型最终表现的影响度(如表2所示)。第二种策略则在此基础上展开研究工作,以期进一步优化模型性能。

该学习率调节方案采用逐步提升策略,在一定时间段内维持当前水平,并随后呈现指数下降趋势直至降至最高水平的百分之一。在此之后,则维持恒定不变。该方案包含三个关键阶段(

通过参数化具体分为三个阶段:从零学习率开始逐步增加的过程(即指数衰减启动阶段),随后进入指数衰减持续进行直至结束(即指数衰减终止阶段)。
在我们的实验中还有另外两个因素引入了时间尺度。首先,我们在步骤

启用了标准差为0.075的变分权重噪声机制[27](采用),并在整个训练周期内稳定存在。该权重噪声参数设置主要应用于学习率稳定后的阶段。

引入的。
其次,在实验中我们采用了不确定性为0.1的一致性标签平滑方法[28]。具体而言,在正确类别上我们赋予了90%的信任度,在其余类别上也同样获得了相应的提升权重。如前所述,在较低的学习率下这种方法可能会导致训练过程不够稳定因此我们在实践中通常会先从训练初期开启该方法并在学习率降至一定阈值后将其关闭以确保系统的稳定性
我们使用的两种基本计划如下:
1. 基本计划(B):(

) = (0.5k, 10k, 20k, 80k)
2. 双倍计划(D):(

) = (1k, 20k, 40k, 160k)
如前述章节所述,在现有技术架构下通过优化资源分配策略可显著提升系统性能;为此我们制定并实施了以下规划方案:3. 长计划(L):=

该参数设置将被用于训练最大模型以提升性能水平。
当采用长计划策略时,在LibriSpeech 960h的数据集中进行处理的时间段为

在针对Switchboard数据集上的训练中,在145k处施加了一个不确定性为0.1的标签平滑机制,并随后关闭该功能;而在针对Switchboard-3M数据集上的训练中,则一直保持开启状态
3.3浅融合与语言模型
尽管我们借助数据增强技术取得了显著成果[1] ,但采用基于语言模型的方法可进一步提升性能水平[2] 。因此 ,本研究开发出了一种基于浅融合的RNN语言模型[3] 。在解码过程中识别出下一个标记的位置[4] ,从而实现了对目标信息的精准提取与分析[5] 。

由以下公式确定:

旨在综合运用基础ASR模型与语言模型评估的标准来确定

。我们还使用了覆盖惩罚c[29]。
我们采用了1024维嵌入的双层RNN模型用于 LibriSpeech 语言模型训练;在整个过程中我们采用了与文献[25]相同的融合参数设置(λ值设定为0.35、c值设定为0.05)。
基于 Fisher 和 Switchboard 数据集合并后的转录数据进行训练,并设置嵌入维度为 256 的双层 RNN 模型用于 Switchboard 项目。为了确定最优融合参数组合,在 RT-03(LDC2007S10)评测数据的基础上运用网格搜索方法来确定最佳参数设置。在第 4.2 节中我们将详细讨论所采用的各种融合参数设置及其影响因素分析。
4.实验
在本节中详细描述我们在LibriSpeech和Switchboard上使用SpecAugment进行的实验研究。我们展示了最新的研究成果并证明其超越经过精心优化的设计方案的结果
4.1 LibriSpeech
对于LibriSpeech,在文献[25]中采用了相同的配置方案。具体来说,在滤波器组设计方面,则采用了包含80维滤波器的组合架构,并且在时域特征提取过程中包含了delta以及delta-delta加速度信息,并搭配上了具有16k词汇片的模型(参见文献[26])。
基于LibriSpeech 960h平台对LAS-4-1024、LAS-6-1024以及LAS-6-1280网络进行了训练,并采用了包括None、LB与LD三种增强方案以及B/D两种不同训练计划在内的综合优化措施。该实验未采用标签平滑化方法进行处理。在实验设置中,默认学习率被设定为5\times 1e^{-3}并使用了512的批量大小,在32块Google Cloud TPU上运行了7天时间。除了上述两种超参数设置外,其余所有超参数均保持一致,并未进行额外调整以优化性能表现。表2展示了基于dev-other集验证的数据测试结果。通过对比分析发现,在该任务中应用增强方案能够显著提升网络的训练性能,在更为严格的增强方案下以及较长的学习率计划下效果更加理想。

我们采用了最大的网络LAS-6-1280,并按照计划L(预计约需24天)以及策略LD来进行训练以最大化其性能;当处理到时间步<140k时打开了标签平滑技术;通过评估最佳dev-other性能对应的检查点来报告测试集上的表现;即使没有语言模型 LAS-6-1280 依然表现出色;我们可以通过浅层融合的方式引入语言模型可能会进一步提升系统能力;结果见表3

4.2 Switchboard
基于Switchboard 300h系统的基础上
我们使用策略(None、SM、SS)和计划B来训练LAS-4-1024。与之前一样,我们将峰值学习率设置为0.001,总批量大小设置为512,并使用32个Google Cloud TPU芯片进行训练。这里的实验有和没有标签平滑两种情况。由于没有一个规范的开发集,我们选择在训练计划的最后一个检查点进行评估,我们选择将计划B的步骤设为100k。我们注意到,在衰减计划完成后(步骤sf),训练曲线会放松,网络的性能变化不大。表4展示了Switchboard 300h的各种增强策略在有无标签平滑的情况下的性能。我们可以看到,标签平滑和增强对于这个语料库具有累加效果。

与LibriSpeech方案L类似,在约24天的微调时间内,在Switchboard 300h训练集上采用LAS-6-128模型架构实现了最佳性能水平。在此背景下,在整个微调过程中启用标签平滑机制有助于提升最终模型性能表现。我们重点报告了在微调任务完成时(总计完成34万次更新迭代)模型的关键指标表现。为了直观展示实验结果与现有方法之间的差距与差异性特征,在表5中我们将本研究方法的结果与其他相关研究进行了对比分析。此外,在Fisher-Switchboard数据集上经过微调的语言模型参数设置被引入到后续实验环节中,并通过RT-Base语料库上的目标任务评估得到了最优组合参数值。值得注意的是,在不同网络架构间的联合优化效果并不理想——表5中的三个实验条件分别对应于三种不同的联合优化策略组合:λ=α=(分别为:λ=β=α=;λ=γ=α=;λ=δ=α=)。

5.讨论
虽然时间扭曲能在一定程度上提升性能 但它并不是主要的因素

标签平滑将带来训练过程中的不稳定现象。 我们发现,在LibriSpeech的数据集上施加强化处理时(即进行强化训练),采用标签平滑技术会导致不稳定性的比率显著上升。进一步地,在学习速率发生衰减的情况下这一现象会更加明显因此我们决定在 LibriSpeech 数据集上的强化学习任务中实施一个基于标签平滑的策略:即仅在学习速率计划的第一阶段进行标签平滑处理以缓解潜在的问题。
增强技术将过拟合问题转化为欠拟合问题并改善模型性能表现。 从图3所示的网络 training 曲线可以看出 当我们在增强数据集上进行网络 training 时 不仅会影响模型在损失函数和单词错误率方面的收敛表现 而且还可能导致在原始 training 数据集上的欠拟合现象 同时 在这种情况下 网络也会表现出对 training 集自身的 poor performance. 这种情况与通常情况下网络倾向于对 training 数据过拟合的现象形成了鲜明对比 如何利用这一特性来提升模型的整体性能值得深入探讨。

应对欠拟合问题的方法得到了提升。 为了减轻欠拟合问题的影响,在增大网络容量的同时延长了训练周期。当前研究结果基于逐步优化过程得出。首先采用了严格的增强措施,在逐步优化的基础上扩展了网络宽度与深度,并在持续优化过程中延长了训练时长。
相关工作的评论
6.结论
该方法显著提升了语音识别系统的性能指标。我们采用了基于端到端 LAS 网络的大规模数据集训练方案,在 LibriSpeech 960h 和 Switchboard 300h 任务中实现了最佳表现,并在无需语言模型的情况下超过了现有的混合系统水平。该方法将自监督学习机制从过拟合问题转向欠拟合状态,并通过更大容量模型与更长时长训练达到了预期效果
致谢:我们深感Yuan Cao等人的诸多建议与意见对我们研究工作的推进起到了重要作用。此外我们还要特别感谢György Kovács先生向我们介绍了相关文献[49 50]的工作
