Relational Knowledge Distillation——知识蒸馏论文阅读
文章目录
一、Abstract
二、方法步骤
1.Introduction
2.Approach
1.距离上的蒸馏损失
2.角度上的蒸馏损失
3.RKD训练
三、实验
四、总结
一、Abstract
知识蒸馏的目标是将来自教师模型的知识转移至学生模型,并使该学生模型通常规模较小。以前的方法可被视为训练学生模仿教师所代表的具体数据样本输出激活的一种形式。
我们开发出一种新型的方法,命名为关系知识蒸馏(RKD),用于提取数据实例间的相互关联。
3.针对RKD的具体实现细节进行了深入探讨,在度量学习框架内提出了其创新性的距离和角度蒸馏损失函数及其对结构差异施加的惩罚关系。通过在多个不同的任务中进行实验表明该方法对受教育学生模型带来了显著的提升。特别地,在度量学习领域取得了显著成效,在标准化基准数据集上的表现达到了当前研究领域的最高水平。
二、方法步骤
1.Introduction
工作中心原则:构成知识的方式依赖于所学表象之间的关系;而非单个表象能够独立地更好地呈现知识;单一实例(如一张图像)则通过与其他数据实例在表示系统中的关联及对比来提取意义;从而表明主要信息储存在嵌入空间的结构特征中
在此基础上,我们提出了一种新型的KD方法,并将其命名为关系知识蒸馏(R KD),该方法通过传递输出间的深层结构关联而非仅仅关注单个输出结果(如图1所示)。

conventional KD:将单个输出从教师模型(fT)转移到学生模型(fS)点上
relational KD:将输出的关系转移到结构上
就其实现细节而言,在基于距离的RKD框架下,我们系统性地提出了两类RKD损失:一种是基于距离的(2-Order),另一种是基于角度的(3-Order)蒸馏损失。
在度量学习、图像分类以及轻型学习领域进行了一系列实验测试后发现
2.Approach

传统知识传递模式(创新知识传递模式)将单个教师的教学成果直接向学生传授;而基于关系势函数ψ(·),RKD能够提取教师与学生的互动关系,并将这些关联信息由教师传达给学生。
RKD的目标是通过教师演示输出过程,在数据实例间建立相互关联性来传授系统化的知识内容。相较于传统教学策略,该算法会针对每个n元组的数据样本计算其对应的关系强度值ψ,并借助此指标将教学信息有效地从教师传递给学生。
为简便起见,我们定义ti = fT (xi)和si = fS(xi)。RKD的目标表示为

其中(x₁, x₂,…,xₙ)是从X中引出的一个N元组,
ψ被视为一个衡量给定N元组间关系强度的标准,
用于衡量该N元组所具有的内在关联程度;
l定义为一种用于减少教师与学生之间差异的方法,
其通过某种机制对这种差异进行量化评估;
基于相同的势函数设计原则,
RKD通过优化机制促进两模型间关系结构的一致性;
在最基础的情形下,
即当关系仅涉及单个元素且势函数ψ取恒等映射时,
RKD的行为可视为一种特殊的推广形式。
RKD的有效性和效率取决于势函数的选择
基于此,在研究领域中开发出了一种新的理论框架:提出了两个简洁且高效的势函数及其对应的RKD损失函数;这些模型分别应用了实例之间的配对关系以及三元组关系,并最终实现了距离损失与角度损失的有效结合
1.距离上的蒸馏损失
通过施加惩罚于输出变量以表征其与空间距离差异的关系,并引导学生聚焦于输出变量的空间分布特征
通过提供两个训练实例来比较它们的相似性时, 距离势函数ψD用于计算这两个实例在输出表示空间中的欧氏距离D_E


利用教师和学生测量的距离关系势,距离上的蒸馏损失定义为


2.角度上的蒸馏损失
给定一组例子,角度相关势测量三个例子在输出表示空间中形成的角度:

利用教师和学生中测量的角度关系势,角度蒸馏损失被定义为

由于角度是比距离更高一级别的属性这一点存在,在这种情况下它能够更有效地传递关系信息,并使训练中的学生在学习过程中拥有更多的自由度和适应性。
3.RKD训练
在训练阶段中, 多种蒸馏过程, 包括所提出的RKD方法, 可以单独实施, 也可以与其他相关损失函数(如交叉熵)协同工作, 用作分类任务. 因此, 总体目标呈现出一种统一的形式.

其中Ltask代表当前任务的任务特定损失,LKD代表知识蒸馏过程所生成的损失,λKD用于调节不同知识蒸馏相关损失的影响程度。在实际训练过程中若同时采用多个KD相关的_loss_函数时,各相关知识蒸馏分支输出的中间表示会被对应的权重系数进行加权融合以构建最终的目标优化目标
三、实验
我们针对度量学习、分类以及少样本学习等多个任务对RKD进行了评估。在本节内容中,默认将因距离相关损失而存在的RKD命名为...
四、总结
在多个任务与基准上展示了所提出的RKD方法如何基于数据示例的相互关系显著地转移知识。特别是在度量学习领域中使用的是距离与角度蒸馏损失函数这一工具已经被证明是简单而有效的手段;然而,在这项研究中构建了一个更为灵活的框架——它不仅限于这两类典型实例——从而能够探索出各种具有高阶势的任务特化形式的Steerability Distillation损失函数(KD)。这一创新性的发现让我们有理由相信,在这项研究中构建了一个高效的知识转移框架——这将为高阶关系知识迁移技术的发展开辟新的可能性。
