论文解读：Decoupled Knowledge Distillation

阅读量：

1. 论文基本信息

论文：Decoupled Knowledge Distillation 地址：https://arxiv.org/pdf/2203.08679.pdf 代码：https://github.com/megvii-research/mdistiller

2. 背景与摘要

在知识蒸馏领域呈现出多样化的特征，在基于教师模型框架下可以从响应、关联以及特征等多个维度展开深入研究，并构建相应的损失函数。值得注意的是，在本文的研究中，默认将最基础的知识蒸馏（Knowledge Distillation, KD）方法仍具有较大的提升空间尚未被充分挖掘。因此，在系统性地改进KD方法的过程中，我们通过将教师模型所携带的关键信息被系统性地分离出来，并被分别监督并被施加独立约束的方式实现了性能的显著提升——最终不仅达到了当前最优水平（State-of-the-Art, SOTA），而且该方法再次展现出显著的优势

3. 方法介绍

在KD框架下，教师模型通过提取dark knowledge来实现知识的传递。其中，在教师模型中引入OSFTLabel相较于hard label仅能提供类别归属信息而言，则能够提供更多关于样本特征的具体描述信息；然而，在实际应用中发现OSFTLabel存在一个显著的问题：即top-1 class id对应的得分接近于1（这一特性会导致其他类别的得分趋近于0），这会导致输出结果出现严重的类别不平衡现象；为了平衡各类别之间的输出分布差异，在这种情况下建议引入温度系数t来进行标签平滑处理

这种方法存在一个不足之处：在应用这一方法时,可能会有不同的温度调节参数设置需求,并且这些参数与教师模型本身的适应能力差异有关.这使得蒸馏过程变得更加复杂.

作者在研究的过程中，发现其实KD loss是可以解耦的，解耦为

target class knowledge distillation（TCKD），主要用于判断样本是否属于top-1类别；* non-target class knowledge distillation （NCKD），则用于分析样本不属于top-1类别时的知识残留情况。

最后对这两部分进行加权求和运算后，则可得到一个新的KD损失值；同时这种设计还具有无需调节温度参数的优势。

DKD算法的结构框架在文档中进行了详细展示。该算法的具体解耦过程可进一步查阅原始论文内容，并通过对比代码实现路径深入理解其工作原理。总体而言该算法的设计较为简洁明了。

4. 实验结果

基于CIFAR平台对TCKD与NCKD模块的影响分析测试表明，在多数情况下,TCKD几乎无正向影响,并且偶尔还可能出现负面作用;相比之下,NCKD则表现出持续的正面效果。

基于ImageNet的数据集，在采用自动数据增强技术的环境下对TCKD模型进行了实验研究，并取得了显著的提升效果。

基于此推测TCKD与数据增强之间具有较强的关联性，在研究过程中，在CIFAR-100数据集上通过调整噪声比例进一步验证了这一假设。

TCKD的核心是表征训练样本难度；因此如果数据增强较少，则教师模型能获取的信息非常有限。

当数据增强操作次数较为有限时，在该情形下，NCKD可视为logits蒸馏方案的核心优势。若未引入TCKD机制，则模型性能仍有提升空间。

基于Imagenet数据集的实验结果表明,通过ResNet-34对ResNet-18进行蒸馏可达到71.7%的准确率,这一准确率也是当前该配置下蒸馏性能的最佳表现

5. 自己的一些心得

在之前的实验中发现，在这些模型中使用的soft标签包含了更多的潜在知识（dark knowledge）。此外，在这些模型中使用的soft标签包含了更多的潜在知识（dark knowledge）。对于该研究而言，过拟合的教师模型可能具备进一步提升潜力（ability），而这一提升空间可以通过与蒸馏知识 Distillation Knowledge Distillation (DKD)结合的方法不仅可行而且有效（feasible and effective）。通过与蒸馏知识 Distillation Knowledge Distillation (DKD)结合的方法不仅可行而且有效（feasible and effective）。

全部评论 (0)

还没有任何评论哟~

论文解读：Decoupled Knowledge Distillation

1\.论文基本信息论文：DecoupledKnowledgeDistillation 地址：https://arxiv.org/pdf/2203.08679.pdf 代码：https://githu...

【KD】2022 CVPR Decoupled Knowledge Distillation

目录 1研究摘要 2研究动机 2.1符号定义 2.2重新推导KDLoss 3启发式探索 3.1单独使用TCKD/NCKD训练 3.2TCKD：传递样本难度相关的知识 3.3NCKD：被抑制的重要成分 ...

[论文阅读]Sequence-Level Knowledge Distillation

文章目录前言摘要一、Introduction 二、Distillation 2.1KnowledgeDistillation 2.2KnowledgeDistillationforNMT 2.2...

[读论文][backbone][DiffKD] Knowledge Diffusion for Distillation

DiffKD 摘要 TherepresentationgapbetweenteacherandstudentisanemergingtopicinknowledgedistillationKD. To...

Knowledge Distillation by On-the-Fly Native Ensemble论文解读

1\.网络结构： Gate为全连接网络，用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮？”，感觉很像bagging方法。 2.损失函数：训练时sof...

Focal and Global Knowledge Distillation for Detectors--FGD论文解读

论文：FocalandGlobalKnowledgeDistillationforDetectors 论文：https://arxiv.org/abs/2111.11837 代码：https://gi...

Knowledge Distillation with Conditional Adversarial Networks论文初读

目录摘要引言相关工作网络加速知识蒸馏 GAN 知识蒸馏的损失函数残差结构知识蒸馏用对抗网络学习知识实验实验设置 GAN学习的优势 GAN方法的分析分布可视化结论摘要提出了使...

Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

前言许久没写博客，今天趁着假期最后一天，分享下今天看到的一篇关于自蒸馏的论文。题目：StudentHelpingTeacher:TeacherEvolutionviaSelfKnowledgeDi...

Relational Knowledge Distillation——知识蒸馏论文阅读

文章目录一、Abstract 二、方法步骤 1.Introduction 2.Approach 1.距离上的蒸馏损失 2.角度上的蒸馏损失 3.RKD训练三、实验四、总结一、Abstract ...

Scale Decoupled Distillation

摘要 Logit知识蒸馏因其实用性在近年来的研究中越来越受到重视。然而，与特征知识蒸馏相比，它的性能往往较差。在本文中，我们认为现有的基于Logit的方法可能是次优的，因为它们只利用了耦合多个语义知识...

是否确定退出登录?

论文解读：Decoupled Knowledge Distillation

1. 论文基本信息

2. 背景与摘要

3. 方法介绍

4. 实验结果

5. 自己的一些心得

全部评论 (0)

相关文章推荐

论文解读：Decoupled Knowledge Distillation

【KD】2022 CVPR Decoupled Knowledge Distillation

[论文阅读]Sequence-Level Knowledge Distillation

[读论文][backbone][DiffKD] Knowledge Diffusion for Distillation

Knowledge Distillation by On-the-Fly Native Ensemble论文解读

Focal and Global Knowledge Distillation for Detectors--FGD论文解读

Knowledge Distillation with Conditional Adversarial Networks论文初读

Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

Relational Knowledge Distillation——知识蒸馏论文阅读

Scale Decoupled Distillation