Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记
平衡多模态学习:基于动态梯度调制的方法
引言
多输入模态可能有助于提升模型性能;然而我们发现即使多模态模型在性能上优于其对应的单模态模型(即每个单独的任务),但这些优势并未被充分挖掘出来。具体而言,在本文中我们指出现有的基于统一目标函数的多模态判别模型(其中假设所有模态都具有相同的优化目标)仍然可能存在欠优化的问题;这种欠优化是由某些特定场景中的另一种主导模式引起(例如,在吹风事件中产生的声音特征与绘图事件中生成的视觉特征)。为了缓解这种不平衡优化问题;我们提出了动态梯度调制方法;通过动态监控它们对学习目标的贡献差异来自适应地调整每种模式的优化程度;此外还引入了动态变化的额外高斯噪声以避免梯度调节带来的泛化性能下降;因此我们在不同类型的多 modal 任务上取得了显著于传统融合方法的结果;同时这种基于简单策略提升现有 multimodal 方法的有效性和多功能性也得到了验证。
在某些情况下, 采用联合训练策略优化所有模态统一学习目标下的多模态模型反而是不如单模态模型的表现. 这种现象违背了整合来自多种模式信息以提升性能的目的. 研究人员指出, 各模式倾向于以不同的速率收敛, 致使协调性不足. 为此, 一些研究者通过辅助训练额外的单模态分类器或预训练语言模型来改进多模态模型. 因此, 这些方法在实现这一目标的过程中必然要在引入额外神经模块方面投入更多资源.
然而,在进一步的研究中发现, 即使多模态方法在性能上优于单模态方法, 它们仍未能完全释放多模态技术的最大潜力. 参考图 1所示, 联合多模态模型在VGGSound基准测试中取得了最佳的事件分类性能, 但其中视觉与音频特征的表现均显著低于单一视网膜感知器与纯音频处理器. 这一有趣的现象提示我们, 在某些特定场景下, 某一特定主子空间[31](如声音识别与视觉运动估计)表现出色的能力反而会抑制其他子空间的学习进展. 此外, 如图 1(a) 和 (b) 所示, 相较于基于声音的数据集, 视觉子空间的表现下降得更为明显. 这一现象与VGGSound作为一个精心设计的声音相关任务这一事实是一致的. 我们认为这种数据集偏好可能导致某一子空间占据优势地位, 进而引发这种学习不平衡的现象发生.

为了解决上述问题, 我们首先从优化的角度分析了一种不平衡现象, 并发现通过性能更优的模态能够降低联合判别损失. 然后我们采用传播有限梯度优于其他模态的方式来主导优化过程, 进而根据这一差异自适应地调节梯度, 从而促进欠优化模态获得更多的更新机会. 然而, 梯度调制可能会导致随机梯去噪强度下降[21], 因此我们进一步引入了一种动态变化的额外高斯噪声以增强泛化能力(GE). 将我们的 OGM-GE 方法应用于图 1 中 VGGSound 的多模态学习任务后, 我们获得了针对欠优化单模态表示的一致性能提升, 如图 1(a) 和 (b) 中蓝色曲线所示. 此外视觉形态也得到了显著改善. 因此在多模式学习场景下我们的方法显著优于传统方法如图 1© 所示. 为了全面验证 OGM-GE 的有效性我们将其应用于多种多模式任务并获得了一致性的改进效果同时采用了 vanilla 融合策略并结合现有多模式方法进行了验证
总而言之,我们的贡献如下:
- 我们成功地揭示了优化失衡现象这一问题。
- 研究发现,在联合多模态模型中存在性能受限的情况主要是由于低质量特征未能得到充分优化而导致的。
- 随后我们从优化的角度进行了深入探讨。
- 本研究提出了新型方法OGM-GE。
- 该方法通过动态调节各模态的训练进程来实现对不同特征的学习平衡,并有效缓解了这一问题。
- 提议的OGM-GE不仅可以集成普通融合策略以提升性能,
- 还能够与现有的多模式框架协同工作以进一步提升效果,
- 并带来了持续而显著的进步,
- 显示出其广泛的应用潜力和强大的适应性。
相关工作
多模态学习
多模态学习被视为机器学习领域中的一个复杂的学习范式。随着多模态数据数量的持续增长,这些数据不仅带来了海量信息还包含了丰富的相关性因而受到了广泛关注并且根据具体应用场景有着不同的研究重点。例如一些研究者采用了无监督的方式深入探索了各类信息间的对应关系从而生成下游任务具有意义的表示(如[1,4,17,18,25])。相比之下许多基于单模态方法的研究致力于整合多元信息以提升特定任务的表现效果如动作识别(如[10, 23, 29])、视听语音识别(如[16, 33])以及视觉问答系统(如[2, 19])。然而尽管存在联合训练策略的方法仍未能充分整合各类信息导致单模态表示效果欠佳这限制了多模态模型的整体性能尽管这些方法有时仍优于单独采用单一模式的信息处理方式。
不平衡的多模态学习
前述视听学习方法在现有技术条件下存在明显局限性,在深入分析其缺陷的基础上探讨其背后原因成为当前研究的重要课题之一[8,35,39,40]。 一些研究者指出,在信息量增加的同时 多模态学习方法仍难以显著提升性能[8,35,39,40] 这种现象的根本原因在于各模态之间存在本质差异[8,35,39] 。 王等人[39]发现 不同模态的收敛速率存在差异 这使得联合训练得到的多模态模型难以达到与其单模态模型相当甚至超越的效果 。 温特伯顿等人[40]则证明了 TVQA 数据集对视频文本模式存在固有的偏差 最近的研究成果表明 为了解决上述问题 几种创新性的解决方案已逐步涌现 [8,35,39] 。 王等人[39]提出了一种名为 GradientBlending 的新方法 该方法通过利用模型过拟合特性实现各模态的最佳融合 从而在一定程度上提升了模型性能 。 此外 杜等人[8]则提出了一种从训练好的单模态模型中提取知识以推动多模态模型训练的方式 从而增强了单模态编码器的表现 。 这些方法虽然在一定程度上带来了性能提升 但都不可避免地需要引入额外的神经模块 这一过程无疑会增加训练复杂度 在本研究中 我们从优化的角度出发 提出了无需额外模块实现各模态自适应优化的新方案
随机梯度噪声
基于梯度噪声优化方法在深度学习模型中展现出的强大泛化性能[42 6日,13日,48](注:此处应为"周al., 1995"或其他年份具体引用)。这种随机梯度扰动机制源于随机小批量采样过程,并有助于起到正则化作用(注:此处应为具体文献引用或其他年份具体引用)。周et al.[47]进一步通过严格的理论分析表明,在适当配置下,结合高斯噪声后的新架构设计能够确保在多项式时间内收敛至全局最优解。在此研究中,在提高发电能力的同时构建多通道神经网络模型时,我们成功引入了适当的高斯噪声梯度项,并取得了显著提升的效果。
方法
优化不平衡分析
我们采用了对优化不平衡现象进行深入分析的方法,并发现了多模态模型的优化过程主要由性能更为卓越的模态占据主导地位的现象
当多模态模型的训练接近完成阶段时
OGM
如前述内容可知, 多模态判别模型在优化过程中通常主要由性能优越的模式主导其优化流程, 这种现象会使得模型在处理复杂数据时出现性能受限的情况. 我们旨在解决这一问题, 通过OGM策略重新设计每个模式的学习流程以提高整体表现, 如图所示.

定义差异比率

- softmax括号里的直接就是单模态模型的logits输出
调制比:

α是超参数
于是最终的单模型的梯度就是:

通过调节比k_t的比例(p_t > 1)进行模态优化处理后可实现更好的性能效果得以缓解,而其余模式则不受此影响,能够在有限的工作量下完成足够的训练.采用结合OGM策略的随机梯度下降法,对各个模式进行单独的优化管理,从而有效解决不平衡问题.

