Advertisement

论文解读:Decoupled Knowledge Distillation

阅读量:

1. 论文基本信息

论文:Decoupled Knowledge Distillation 地址:https://arxiv.org/pdf/2203.08679.pdf 代码:https://github.com/megvii-research/mdistiller

2. 背景与摘要

在知识蒸馏领域呈现出多样化的特征,在基于教师模型框架下可以从响应、关联以及特征等多个维度展开深入研究,并构建相应的损失函数。值得注意的是,在本文的研究中,默认将最基础的知识蒸馏(Knowledge Distillation, KD)方法仍具有较大的提升空间尚未被充分挖掘。因此,在系统性地改进KD方法的过程中,我们通过将教师模型所携带的关键信息被系统性地分离出来,并被分别监督并被施加独立约束的方式实现了性能的显著提升——最终不仅达到了当前最优水平(State-of-the-Art, SOTA),而且该方法再次展现出显著的优势

3. 方法介绍

在KD框架下,教师模型通过提取dark knowledge来实现知识的传递。其中,在教师模型中引入OSFTLabel相较于hard label仅能提供类别归属信息而言,则能够提供更多关于样本特征的具体描述信息;然而,在实际应用中发现OSFTLabel存在一个显著的问题:即top-1 class id对应的得分接近于1(这一特性会导致其他类别的得分趋近于0),这会导致输出结果出现严重的类别不平衡现象;为了平衡各类别之间的输出分布差异,在这种情况下建议引入温度系数t来进行标签平滑处理

这种方法存在一个不足之处:在应用这一方法时,可能会有不同的温度调节参数设置需求,并且这些参数与教师模型本身的适应能力差异有关.这使得蒸馏过程变得更加复杂.

作者在研究的过程中,发现其实KD loss是可以解耦的,解耦为

  • target class knowledge distillation(TCKD),主要用于判断样本是否属于top-1类别;* non-target class knowledge distillation (NCKD),则用于分析样本不属于top-1类别时的知识残留情况。

最后对这两部分进行加权求和运算后,则可得到一个新的KD损失值;同时这种设计还具有无需调节温度参数的优势。

DKD算法的结构框架在文档中进行了详细展示。该算法的具体解耦过程可进一步查阅原始论文内容,并通过对比代码实现路径深入理解其工作原理。总体而言该算法的设计较为简洁明了。

在这里插入图片描述

4. 实验结果

基于CIFAR平台对TCKD与NCKD模块的影响分析测试表明,在多数情况下,TCKD几乎无正向影响,并且偶尔还可能出现负面作用;相比之下,NCKD则表现出持续的正面效果。

在这里插入图片描述

基于ImageNet的数据集,在采用自动数据增强技术的环境下对TCKD模型进行了实验研究,并取得了显著的提升效果。

在这里插入图片描述

基于此推测TCKD与数据增强之间具有较强的关联性,在研究过程中,在CIFAR-100数据集上通过调整噪声比例进一步验证了这一假设。

在这里插入图片描述

TCKD的核心是表征训练样本难度;因此如果数据增强较少,则教师模型能获取的信息非常有限。

当数据增强操作次数较为有限时,在该情形下,NCKD可视为logits蒸馏方案的核心优势。若未引入TCKD机制,则模型性能仍有提升空间。

基于Imagenet数据集的实验结果表明,通过ResNet-34对ResNet-18进行蒸馏可达到71.7%的准确率,这一准确率也是当前该配置下蒸馏性能的最佳表现

在这里插入图片描述

5. 自己的一些心得

在之前的实验中发现,在这些模型中使用的soft标签包含了更多的潜在知识(dark knowledge)。此外,在这些模型中使用的soft标签包含了更多的潜在知识(dark knowledge)。对于该研究而言,过拟合的教师模型可能具备进一步提升潜力(ability),而这一提升空间可以通过与蒸馏知识 Distillation Knowledge Distillation (DKD)结合的方法不仅可行而且有效(feasible and effective)。通过与蒸馏知识 Distillation Knowledge Distillation (DKD)结合的方法不仅可行而且有效(feasible and effective)。

全部评论 (0)

还没有任何评论哟~