【KD】2023 ICLR The Modality Focusing Hypothesis: Towards Understanding Crossmodal Knowledge Distillat
目录
1 摘要
2 引文
3 关于跨模态KD的有效性
4 方法
4.1 模态维恩图(MVD)
4.2 模态聚焦假说(MFH)
5 实验
5.1 实验设置
5.2 合成高斯
5.3 NYU DEPTH V2
5.4 RAVDESS AND VGGSOUND
6 总结
7 论文代码地址
参考

今天介绍的是发表在ICLR 2023的一篇论文:《Modality-Focused Hypothesis: Towards Understanding Crossmodal Knowledge Distillation》。作者在本文中提出了若干分析手段和假说,以深入理解跨模态知识蒸馏问题。对跨模态知识蒸馏问题提供了深刻的见解。
1 摘要
跨模态知识蒸馏(knowledge distillation,KD)将传统的知识蒸馏技术扩展至多模态学习领域,并在多个实际应用中取得了显著成效。为了实现跨模态知识的有效转移,研究者采用了基于预训练的单模态网络作为教师模型,并向另一种模态学习的Student网络提供相应的监督信号。尽管已有诸多成功的应用案例,但目前跨模态KD机制的本质仍是一个未解之谜。在本文中,作者深入探讨了跨模态KD的内在机理。研究从两个具体案例出发,系统分析后发现,KD并非解决跨模态知识转移问题的万能方案。为此,作者提出了模态维恩图(MVD)这一工具,以直观展示各模态间的关联关系,并提出了模态聚焦假设(MFH)。基于MVD和MFH,研究者深入揭示了跨模态KD效果的关键决定因素。通过在6个典型多模态数据集上的实验验证,研究者进一步印证了MFH的科学性,并在此基础上为提升跨模态KD性能提供了可行的研究方向。
2 引文
知识蒸馏技术(KD)通过有效机制将知识从源神经网络转移到目标神经网络。其核心机制基于师生学习框架,其中学生网络通过损失函数模仿教师网络。已在多领域得到了拓展,知识蒸馏技术在各领域均取得了显著成效,展现了强大的实用性。
KD的广泛适用性归因于其通用性特性:所有学生均可向任何教师学习。具体而言,学生与教师网络在多个方面存在差异。主要的三种情况包括:(1)模型容量差异:近期研究发现,通过KD进行模型压缩,训练一个性能接近但体积更小的学生模型,以实现与大规模教师模型相同的部署效率。(2)归纳偏置差异:研究者们提出利用CNN教师提取其对transformer学生的归纳偏置,以提升数据处理效率。(3)模态差异:KD已发展为跨模态的知识转移技术,其中教师和学生网络来自不同模态。例如,使用RGB教师向以深度图像为输入的学生网络提供监督信号,以及使用音频教师学习视觉学生等。
尽管在先前的研究中展示了知识蒸馏(KD)的巨大成功,但对于其工作机制的深入理解仍显不足。这引发了对KD有效性的质疑:KD是否在所有情况下都表现良好?如果不是,那么评估KD性能的关键指标是什么?一些研究在模型能力差异和架构设计的背景下探寻答案。然而,对于模态差异或形式化跨模态KD的第三种情况,这一问题仍待解答。本研究旨在系统性地解决这一难题,并首次全面解析了跨模态KD的性能机制。主要贡献包括:
作者对一些多模态任务的跨模态KD进行了考察,并发现教师的表现与学生的表现并非总是呈正相关。
为了解析跨模态KD性能不匹配的成因,研究者基于模态维恩图(MVD)展开模态关系的系统性分析,并对模态普遍决定性和模态特异决定性特征进行了系统性界定。
该假说阐述了模态聚焦假说(MFH),并解释了跨模态KD何时具有显著效果。作者假设,模态的一般决定性特征是跨模态KD疗效的关键因素。
实验结果在6个不同的多模态数据集上进行了验证,这些数据集包括合成的高斯噪声、自适应检测的MNIST数据集、RAVDESS录音、VGGSound音频、NYU深度数据集V2以及MM-IMDB电影数据库。实验结果验证了MFH方法的有效性,并为其在跨模态知识蒸馏(KD)中的优化提供了理论依据。
3 关于跨模态KD的有效性

作者首先提出了一种跨模态KD与单模态KD对比分析的案例研究。在跨模态KD的特殊研究中,研究者采用了多模态教师这一特殊设计。直观而言,采用多模态教师,将模态a和b作为输入,能够有助于蒸馏,因为:(1)多模态网络通常比单模态网络具有更高的准确性,更准确的教师应该能够生成更优质的教学资源;(2)多模态教师带来的依赖于互补模态的信息能够为学生提供更多丰富的知识。许多研究工作已经尝试用多模态教师替代单模态教师,以期提升学生的学术表现。尽管在先前的研究中已经积累了许多有力证据,但在本文中,作者对这一假设进行了反思,并提出了一个值得探讨的问题:跨模态KD在所有情况下都有效吗?

在AV-MNIST和NYU Depth V2数据集上,该表展示了两个反例。研究目标是分别改进基于KD的音频学生模型在AV-MNIST上的性能,以及改进基于KD的RGB学生模型在NYU Depth V2上的性能。从表格中可以看出,在这两种情况下,一个更精确的多模态网络并不能成为一个更好的老师。具体而言,对于AV-MNIST,尽管视听教师本身的准确率比单模教师高得多(即+7.04%),但结果学生反而表现更差(即-0.37%)。同样地,对于NYU Depth V2,教师成绩的大幅提高(即+4.64%)并未转化为学生的进步(即-0.22%)。这些结果引发了对跨模态KD有效性的质疑。即使教师的准确性大幅提高,在某些情况下,跨模态KD的表现也未能转化为有效的学生模型。与之前的直觉相反,教师的表现似乎无法充分反映学生的表现。这一发现启发了作者的研究工作,即探索决定跨模态KD效果的关键因素是什么?
4 方法
4.1 模态维恩图(MVD)
为了深入研究跨模态KD,首先需要深入理解多模态数据的本质特征,这一步骤对于后续研究的进展至关重要。在接触多模态数据之前,我们回顾了单模态数据的相关知识。基于因果关系的理论,我们假设标签y的取值由x_a或x_b中的特征子集决定,这些特征子集在本文中被定义为模态a或模态b的决定性特征。例如,图像的颜色特征有助于识别某些类别,如区分斑马与马,这可以被视为决定性特征。
在处理多模态数据时,两模态的输入特征之间具有交集和并集等逻辑关系。作者在下文阐述模态维恩图(MVD)来描述这种关系。基于多模态数据的共性认知,MVD指出,任何多模态特征都由模态通用特征和模态专用特征组成。因此,两种模态的决定性特征由两部分组成:第一部分为模态通用决定性特征,第二部分为模态专用决定性特征。这两部分共同作用,最终形成标签y。图中展示了一个视频与音频数据对的实例。

其中摄像机因其位置角度仅能捕捉一个人,而音频由两种乐器混合而成。上图右侧展示了如何在输入层解释这三个特征(包括一般模态决定性、视觉模态特定决定性和音频模态特定决定性)。





4.2 模态聚焦假说(MFH)
基于多变量数据分析法(MVD),深入探讨第3节中的观察结果,即教师的准确性并非学生表现的关键指标。具体而言,教师的表现是由模态a中模态一般性决定性特征和模态特殊性决定性特征共同决定的。就学生而言,尽管模态a中模态特殊性决定性特征对教师具有重要意义,但因学生仅观察到模态b,故这些特征无法指导学生。另一方面,模态一般性决定性特征并非模态b所独有,因此能够传递给学生。
回到图1所示的例子,当音频教师向视觉学生提供特定模态的信息(如视觉上的提示),视觉学生可能会感到困惑,因为这些信息(如演奏小提琴的行为)在视觉模态中是不可用的。相反,通用模态信息能够有效地实现跨模态传递,便于提取相关信息,因为音频教师和视觉学生都能理解到关于左手弹奏吉他的人的信息。这促使我们提出模态聚焦假设(MFH)。
模态聚焦假说(MFH):在跨模态知识蒸馏场景中,蒸馏性能主要由教师网络中所保留的模态通用性特征的比例所决定。当模态保持率γ增大时,学生网络的性能表现也随之提升。
该假设认为,在跨模态知识转移过程中,学生学会了“聚焦”模态的核心属性。因此,在γ值较大的情况下(即多模态数据共享大量标签相关信息),跨模态知识蒸馏(KD)具有显著的促进作用。此外,这一假设能够说明作者的观察:在某些情况下,教师的表现与学生的表现不相关——当α值较大而γ值较小时,教师网络主要基于特定模态的数据获得较高的预测精度,这不利于学生的学习过程。

为了对所提出的假设进行直观且快速的理解,这里作者设计并进行了两个合成高斯数据的实验。如图2所示,作者从两个模态不重叠的极端情况开始,逐步增加模态共有的决定性特征的比例,直至所有决定性特征均被两个模态共享。可以观察到,当x_a和x_b共享少量决定性特征(即γ值较小)时,跨模态KD无法发挥作用,因为学生无法感知模态a中特有的决定性特征。随着γ逐渐增加,跨模态KD的效率显著提升。在所有决定性特征被两种模态共享的情况下,学生从教师的知识中获益,其表现比基线高出2.1%。值得注意的是,在此过程中,教师的准确性基本保持不变,而学生的表现差异显著。

图3揭示了模态a中特定于模态的决定性特征逐渐主导的相反过程。当α值增加时,教师模型的性能显著提升,这得益于其获得了更多模态特有的决定性特征来进行预测。然而,学生网络在教师改进方面表现不佳,未能从中获得显著优势。显然,在这种情况下,教师的表现无法真实反映学生的表现。通过这两组实验,我们不仅能够验证教师的准确性是否反映了跨模态KD的有效性,还能为我们的假设提供有力的支持。
5 实验
5.1 实验设置
为了验证MFH,作者在6个不同模态的数据集上进行了实验,这些数据集涵盖了图像、视频、音频以及文本等多种模态的组合。
作者探讨了四种不同的方法来构建一个教师网络,该网络在关注模态一般决定性特征方面较常规训练的教师更具特定性或通用性:(1)针对合成高斯数据,由于多模态数据生成机制已知,作者仅保留模态一般决定性特征的通道并删除其他通道,训练模态通用教师;(2)针对NYU Depth V2,作者注意到RGB图像和深度图像具有固有相似性,并且具有相同维度,因此可以使用单个网络进行处理。基于此,作者设计了一种模态通用教师,其γ值显著大于常规训练的教师;(3)针对MM-IMDB数据,作者构建了比常规训练的教师更具模态特异性的多模态教师,其γ值显著小于常规训练的教师;(4)针对其他数据集,作者采用了基于特征重要性的方法,根据模态一般决定性信息的数量对所有特征频道进行排序。在排序后的特征列表中,作者通过保留具有较大特征值的通道来训练模态通用教师,而通过保留具有较小特征值的通道来训练模态特定教师。
5.2 合成高斯

作者将高斯示例扩展至多模态场景。为验证MFH的有效性,作者设计并训练了两个教师网络:(1)基于所有输入特征通道的数据训练普通教师模型;(2)在保留模态一般决定性特征的条件下,通过移除其他特征通道的数据训练模态一般教师模型,因此该教师的γ值设定为1。通过不同数据生成策略的实验,普通教师模型的γ值也随之发生变化。实验结果表明,两位教师的跨模态知识蒸馏效果值得观察。从表中可以看出,模态通用型教师在性能上出现了显著下降(精度损失超过-10%),这表明其主要依赖于模态间的共性决定性特征,而忽视了模态特异性决定性特征在预测任务中的作用。然而,模态综合教师在跨模态知识蒸馏任务中表现依然良好,且能有效提升学生性能(与常规跨模态蒸馏方法相比,准确率提升约+2%)。实验结果与MFH理论模型很好地吻合,即更重视模态间共性决定性特征的教师(即具有更大γ值的教师)能够培养出更为优秀的模型。
5.3 NYU DEPTH V2
在第3节中,作者回顾了NYU Depth V2的例子。在第3节中,作者使用基于深度图像的教师网络将知识传递给RGB学生。学生和教师网络架构均被实现为DeepLab V3+。如第5.1节所述,除了训练普通教师外,作者还训练了能够预测具有相同参数的两种模态标签的教师。具体来说,一个训练批包含RGB和深度图像,并且教师网络被训练以输出给定RGB或深度图像作为输入的预测。因此,假设生成的教师能够提取更多的模态通用特征(即,具有更大的γ),因为它们需要在训练过程中以相同的方式处理两种模态。

如上表所示,常规的跨模态KD并未带来显著优势:与无KD的对照组相比,学生表现相似。因此,人们通常倾向于认为跨模态KD的失败源于教师的准确性,并认为跨模态KD无效的原因在于深度特定特征表现欠佳(即mIoU为37.33%)。由于其训练机制,模态通用教师被迫提取更多模态通用决定性特征用于预测,而非依赖于深度特定特征,因为输入还包括RGB图像。尽管未观察到教师性能的差异,但对于跨模态KD而言,模态综合教师是一个更优的选择:其学生mIoU从46.36%提升至47.93%。
5.4 RAVDESS AND VGGSOUND
除了上述方法外,作者还提出了一种基于排列的策略,通过根据模态的一般决定性特征的显著性进行排序,从而能够获得不同γ值的教师网络。该方法被成功应用于RAVDESS和VGGSound数据集。其中,教师模态为有声信息,学生模态为视觉信息。在设计网络架构时,作者考虑了两种设置:(1)采用音频教师与视频学生;(2)利用视频教师对音频学生进行增强。此外,作者还探索了两种基本结构:以ResNet-18和ResNet-50为骨干的教师和学生网络架构。通过移除具有最小显著值的r%特征通道,可以得到一种通用型;通过移除具有最大显著值的r%特征通道,则可获得一种特定型的教师网络;而随机移除r%特征通道则可获得随机型教师。需要注意的是,特征消除比例r%被视为超参数,作者通过不同取值进行实验验证。尽管不同教师网络的γ值尚不清楚,但已知其按模态特定型、随机型和通用型的顺序递增。以下表格展示了相关实验结果。

跨模态KD性能表现出良好的性能,符合这一实验顺序。在RAVDESS情绪识别任务中,模态专属性教师导致学生在该任务中的表现明显降低(即准确率从77.22%降至42.66%),而模态通用性教师则使常规KD的性能提升了1.06%。同样地,在VGGSound事件分类任务中,模态通用性跨模态KD显著提升了视频学生的表现,具体表现为:对于ResNet-18模型,视频性能从30.62%提升至31.88%;对于ResNet-50模型,视频性能则从38.78%提升至39.81%。这些实验结果充分证明了模态通用性特征在跨模态KD任务中的关键作用。

此外,为了直观比较模态通用型教师与常规教师的差异,研究者在图中呈现了VGGSound数据的可视化结果。观察可知,常规视频型教师通过所有关键特征进行分类,并将注意力集中在视觉对象上,这些对象包括萨克斯管和婴儿。相比之下,模态通用型教师更倾向于关注视觉和听觉模态中的可用信息,从而导致声带活动区域达到最大。

最后,作者调整了VGGSound数据的特征剔除率r%,并沿r%绘制了学生表现曲线。从图表中可以看出,模态KD的一般性最佳点存在。随着r%的增加,学生的表现在初期有所提升。这一进步表明,教师的非模态性的一般决定性特征逐渐被放弃,这反过来带来了更好的学生。随后,当所有非模态一般决定性信息被丢弃后,由于模态一般决定性特征也被取消,特征取消过程开始阻碍学生的表现在这一阶段。观察到的性能曲线与作者对MVD的理解高度契合。
6 总结
在该项研究中,作者就跨模态KD发表了自己的见解。MVD和MFH分别描述了多模态数据之间的关系,并表明模态的一般性特征成为跨模态KD的关键因素。通过理论分析和一系列实验验证了MFH的有效性。作者希望MFH能够揭示跨模态KD的实际应用,并激发公众对多模态学习普遍性的兴趣。未来的研究工作主要包括:(i)深入探讨跨模态KD的理论基础,(ii)区分现实世界数据中模态的一般性与特殊性特征,以及(iii)基于MVD提升多模态融合的鲁棒性。
7 论文代码地址
该论文的官方链接为:https://openreview.net/pdf?id=w0QXrZ3N-s。该代码库的GitHub官方地址为:https://github.com/zihuixue/MFH。
参考
ICLR 2023 | 模态聚焦假设:探讨了跨模态知识蒸馏的理解
