【论文笔记】End-to-End Video-To-Speech Synthesis using Generative AdversarialNetworks
一、GAN的知识:
在生成对抗网络框架内,Critic(亦称Discriminator)与Generator共同构成了该系统的主要组成部分.它们在一个协同训练的框架下相互作用,共同进化以优化各自的性能.
Evaluating module regularly samples a batch of samples from the dataset and another batch from the generated data, training a model to distinguish whether each sample originates from the original dataset or is generated by the generator.
Generator 用于生成样本,并为 Critic 提供评估依据。通常情况下,我们使用 Critic 输出的结果来确定 Generator 所造成的损失。
Critic在GAN中的作用:
- 识别能力 : Critic负责识别输入样本是否为真实或生成,并以此来提高Generator的质量。如果Critic无法有效地区分真实与生成样本,则表明该Generator表现较为出色。
- 训练平衡 : 在训练过程中,Critic与Generator轮流优化彼此的能力, 从而促进双方性能均衡发展, 而不会出现一方显著强于另一方的情况。
在训练初期阶段,Critic的训练通常会采用更高的循环次数以确保其能提供有价值的反馈信息
就目前而言,在GAN框架中Critic扮演了核心角色。它不仅充当了一个鉴别器来区分真实样本与生成样本,并且为其优化提供了指导。
二、音频的时域和频域
时域(Temporal Domain) : 音频信号在时间轴上的表示。在该领域中,你能够观察到声音信号的振幅随时间的变化情况。这对于分析声音信号的振幅变化、持续时间和其他特性非常有帮助。
频域(Frequency Domain) : 音频信号在频率轴上的表示。通过傅里叶变换或其他方式,可以将音频信号从时域转换到频域。在频域中,你可以看到组成音频信号的各个频率成分及其强度。频率结构可以表示音频的音高、音量和音色等。
频域信号由多个不同频率的正弦波组成。通过频域分析,我们可以了解这些频率成分及其相对强度,这有助于我们理解音色、节奏和其他音乐或语音特性。
这两个域呈现了音频信号的不同视角,并且各自发挥着独特的作用。时域分析对于观察音频波形的形状及其随时间的变化情况非常有用。频域分析则有助于我们掌握声音中的频率成分及其分布情况,在某些应用中尤其重要。在音频处理领域中,在进行音频生成或修改任务时,这两种分析方法通常都是不可或缺的工具。
三、文章简介
Video到语音转换的核心目标是,在视频处于无声状态时, 利用深度学习模型恢复出相应的语音信号
尽管目前深度学习已经显著地提升了ASR(自动语音识别系统)的性能,在噪声环境下或存在音频流中断的情况下这些模型的表现仍然不够理想。鉴于此研究者转向探索基于视频的语音识别技术即唇读模型。唇读模型适用于各种应用场景如应用于噪声环境下的一般视频会议场景以及无法发出声音的人类进行人工语音合成。
在以往的研究中,这样的任务通常是分两步来完成的:
- 首先, 从视频中获取某种'中间特征'的具体数值, 并将其转化为与音频相关的数据.
- 然后, 采用一种基于声码器或波形重建算法的技术方案来分析这些音频参数, 并据此生成相应的语音信号.
本文提出了一种end-to-end的方法:
作者开发了一种称为生成对抗网络(GANs)的深度学习系统。该系统由两个关键组件构成:一个是声 synthesis模块(负责声音合成),另一个是discriminator模块(负责评估合成声音的质量)。
作者在一项小规模的研究项目中评估了该模型,并在一个大型且复杂的公开数据集(LRW)上进行了进一步验证。实验结果显示,该模型在语音质量与易懂性两个关键指标上显著优于以往的技术方案。
四、模型结构
- Encoder-Decoder架构 : 该模型基于原始视频数据展开训练。
- 声纹质量评估模块与能量评估模块 : 生成的声纹分别被输入到两个评估模块中进行判断。

视频首先对每一帧进行编码(感受野为5),然后使用Bi-GRU进行上下文编码。
随后解码器对特征进行上采样处理:在视频流中每个帧对应着音频信号的16千赫兹采样的数量计算为16,000除以25等于每个视频帧对应着约640个音频采样点。其中上采样比率N设定为该数值即为当前系统的设置参数
最后使用解码器生成waveform。
解码器组件与特性:
六个连续堆叠的转置卷积层:转置卷积层通常用于upsampling或expanding the input spatial dimensions,在从编码的low-dimensional features reconstructing complex waveforms(如speech signals)具有重要意义。
Batch Normalization and ReLU Activation Functions :Each transpose convolution layer is followed by Batch Normalization and ReLU activations to accelerate training and improve model performance. Batch Normalization helps reduce internal covariate shift, while ReLU activation functions help enhance the model's nonlinear capabilities.
最后一层使用双曲正切激活函数 :相较于前面各层采用ReLU激活函数的特点,在最顶层的一层采用了双曲正切(Tanh)激活函数。这种设计的主要作用是将输出值限定在特定范围内,并使该层更适合后续的数据处理需求,并便于与预期目标进行对比分析。
为了降低生成语音波形中突变性帧切换所导致的问题,作者采用了50%帧重叠的方法。这种方法使得相邻生成的语音帧之间有一半的时间段部分重合。
重叠的部分并非简单地连接在一起,并非直接拼接叠加起来
critics:
评论家在生成对抗网络(GANs)中扮演着至关重要的角色,并负责鉴别生成数据(在这种情况下是合成的音频波形)的真实性。
文章提出了两种Critics,一个专注于时域分析,另一个专注于频域分析。
波形批评者(Waveform Critic)
- 功能:波形判别器的作用在于通过时域分析(Temporal Analysis)来识别音频的真实性。
- 架构:该判别器采用了7个卷积层,并在每层末尾配置了Leaky ReLU激活函数。
- **权重归一化效果观察到:尽管采用权值归一化(Weight Normalization)能够增强抗受扰动训练的效果(robustness against perturbations training),但整体表现有所下降因此决定放弃这一策略。
- **批归一化的影响:由于批归一化(Batch Normalization)会对梯度惩罚项(Gradient Penalty)产生干扰因此并未尝试引入这一技术。
- **其他对比分析:通过与现有相关工作进行系统对比分析发现本方法展现出最佳性能

功率批评者(Power Critic)
该部分灵感来源于SpecGAN模型的设计理念。
功率批评者在频域领域中评估音频的真实性。
本研究采用短时傅里叶变换(STFT)方法计算真实与生成音频的频谱特征,在具体参数设置上采用了窗口宽度为25毫秒、步长为10毫秒,并将频谱范围设定为512点的划分策略。
在数据预处理阶段,则首先对计算得到的频谱幅度值执行自然对数转换操作后实施标准化归一化处理,并在此基础上完成必要的裁剪操作以优化数据质量。
在架构设计方面,则采用与生成器相同的ResNet18网络结构,在此基础之上新增了一个二维卷积层作为输入端前处理模块(这是因为研究对象仅限于单幅图像这一特定场景)。

五、损失函数:
Wasserstein GAN Loss(WGAN损失) : WGAN旨在最小化生成数据与真实数据分布之间的Wasserstein距离。

梯度罚项(Gradient Penalty) : 引入了一个梯度罚项以符合Lipschitz约束条件的要求,并有助于提升WGAN的训练过程稳定性。
生成器与评价器(Critic)的损失函数 : 公式(2)与公式(3)分别由生成器(G)与评价器(D)所对应的损失函数进行定义。在此设定中,我们采用了两种不同的评估工具:波形评估工具(waveform critic)以及功率评估工具(power critic)来实现对模型性能的全面评估。
综合损失 : 生成器的总损失源自两个评估器所产生的一系列损失的综合计算结果,请参考公式(4)。
其他用于训练生成器的损失:
感知损失(Perceptual Loss) : 基于预训练的PASE模型来获取特征,并通过度量生成与真实波形间的差异程度来评估感知质量
功率损失(Power Loss) : 在频域上比较生成和真实音频,使用L1损失。
该方法基于Mel频率倒谱系数(MFCC)作为特征,并对生成与真实波形之间的差距进行评估。
最终生成器的损失 : 是上述所有损失的加权和,如公式(8)所示。
参数调优:
经过在GRID数据集(包含4位主讲人)上的多轮反复的训练过程,得出了最佳的损失系数值。
在这种情况下,在这种特定的应用场景下,并非仅限于单一的技术路线。研究团队采用了两类不同的评估器(Critic),从不同维度对生成音频的质量进行评估:其中一类是基于波形特性的Waveform Critic,在频域方面则采用Power Spectrum Critic。此外,在优化目标上还引入了多种辅助的性能指标,并增加了多种其他类型的性能指标作为优化目标。其中还包括感知度相关的Perceptual Loss、基于功率谱的能量分布相关的Power Loss以及基于Mel频谱系数的Mel Spectral Coefficients相关MFCC Loss等指标因素。通过这些多维度的优化指标设计与综合考量, 我们的模型得以实现对生成音频质量及可理解度的有效提升
