【知识蒸馏】知识蒸馏(Knowledge Distillation)技术详解
参考论文:Knowledge Distillation: A Survey
1.前言
近年来,在学术界与工业界的深度学习领域取得了显著的成功。这一成就源于其良好的扩展性及其处理大规模数据的能力。然而,在资源受限的设备上部署深度神经网络仍面临诸多挑战。例如嵌入式设备与移动设备等受限环境难以有效运行复杂的神经网络架构。鉴于此,在研究者们的探索下发展出了一系列模型压缩及加速技术,并逐渐形成了一个完整的体系框架。其中一种极具代表性的是知识蒸馏技术它能够有效地从大型教师模型中提取小规模学生模型所需的知识并将其转化为更高效简洁的小型网络结构。目前关于这一领域的研究已较为完善可以从多个维度对其进行系统梳理包括但不限于知识分类机制训练模式优化师生结构设计以及性能评估等多个方面展开深入探讨
近年来,在计算机视觉、强化学习以及自然语言处理等领域中对深度学习的发展进行了深入报道,并明确指出了当前面临的主要挑战——大模型的实际应用部署问题。为了构建高效的深度学习系统,在过去的研究中已经将重点集中在了对深度模型的开发上:包括(1)基于计算效率的设计理念构建高效性能的深度神经网络;(2)采用先进的算法进行模型压缩和加速技术。
- 参数修剪与共享:本研究则致力于精简模型架构并采用低秩分解策略以减少不必要的参数数量。
- 通过系统性地分析模型权重分布特征并结合矩阵及张量运算特性 本研究则提出了一种基于知识蒸馏技术的新方案以实现对现有过滤器组件的有效提取与优化设计。
- 转移浓缩型卷积滤波器:本研究则提出了一种基于知识蒸馏技术的新方案以实现对现有过滤器组件的有效提取与优化设计;
- 知识蒸馏(KD): 本研究则提出了一种基于知识蒸馏技术的新方案以实现对现有过滤器组件的有效提取与优化设计。

为了解决大模型的线上部署问题,Bucilua et al. (2006)首先提出了模型压缩,在不显著降低精度的情况下,将大模型或模型集合中的信息转换为训练小模型。在半监督学习中,引入了完全监督的教师模型和使用无标记数据的学生模型之间的知识转移。从小模型到大模型的学习后来被正式命名为为知识蒸馏(Hinton )。知识蒸馏主要思想是:学生模型模仿教师模型,二者相互竞争,是的学生模型可以与教师模型持平甚至卓越的表现 。关键问题是如何将知识从大的教师模型转移到小的学生模型。知识蒸馏系统由知识、蒸馏算法和师生架构三个关键部分组成。如上图所示。
虽然在实践中取得了巨大的成功,但无论是理论还是经验上对知识蒸馏的理解都不多。关于知识蒸馏的原理,Urner等利用无标记数据证明了从教师模型到学生模型的知识转移是PAC可学习的;Phuong & Lampert通过在深度线性分类器场景下学习蒸馏学生网络的快速收敛获得了知识蒸馏的理证明,这个论证回答了学生学习的内容和速度,并揭示了决定蒸馏成功的因素,成功的蒸馏依赖于数据的分布、蒸馏目标的优化偏差和学生分类器的强单调性;Cheng等人量化了从深度神经网络的中间层中提取视觉概念,以解释知识蒸馏;Ji和Zhu分别从风险界、数据效率和不完善教师三个方面对广义神经网络知识蒸馏进行了理论解释;Cho和Hariharan对知识蒸馏的功效进行了详细的实证分析;Mirzadeh et al.的实证结果表明,由于模型能力差距的存在,模型越大的教师未必就越优秀;Cho and Hariharan (2019)的实验也表明,蒸馏对学生的学习有不利影响。知识蒸馏的不同形式对知识、蒸馏和师生互动的经验评价不包括在内;知识蒸馏也被用于标签平滑、评估教师的准确性和获得最佳输出层参数分布先验。
知识蒸馏与人的学习过程类似,基于此,近年来的一些研究拓展了教师—学生模型,发展为mutual learning、lifelong learning和self-learning 。同时受到知识蒸馏在模型压缩中的影响,知识迁移已经被用在了压缩数据上,如dataset distillation。
文章结构图

2.知识(Knowledge)
在知识蒸馏过程中, 知识类型、蒸馏策略以及师生架构对学生模型的学习效果起到关键作用. 原始知识蒸馏方法采用大深度模型输出对数形式作为教师知识(Hinton 2015), 并非只有中间层的激活、神经元活动或特征能成为指导学生学习的有效知识, 而是不同激活模式、神经元活动或成对样本间的关联包含了教师模型所学到的重要信息. 此外, 教师模型中的参数配置(或各层之间的联系)也蕴含着另一种形式的知识, 本节将重点探讨以下四种类型的知识: 基于响应的知识(response-based knowledge)、基于特征的知识(feature-based knowledge)、基于关系的知识(relation-based knowledge), 并附有不同知识类别类型的示意图.

2.1. 基于响应的知识(Response-Based Knowledge)
Response-Based Knowledge一般指教师模型输出层的神经活动或反应特征。其核心概念在于让学生模型完全复制教师模式的最终预测结果(logits),假设对数向量Z代表全连接层的最终输出,则基于响应的知识蒸馏形式可被描述为:

LR(.) 代表散度损失(在此处还可以使用交叉熵损失来实现);如图所示的内容为Response-Based 知识蒸馏模型图。

基于反应的知识可用于多种模型预测。其中,在目标检测任务中,响应可能涉及bounding box偏移量的logits;而在人体姿态估计领域中,则涉及关键点位置的热力图。以反应为基础的知识通常被称为软标签(soft target)。通常是通过Softmax函数来估算输入类别概率的一种方法。

Zi代表第i个类别对应的logit值;温度因子T则用于调节各软目标的影响程度;其背后的软目标不仅涵盖了教师模型中提取的深层知识(deep knowledge),还包括其潜在的学习结果(latent learning outcomes)。基于此,在这种设定下,软logits的蒸馏损失函数可以被重新表述为:

一般情况下,LR(.)基于KL散度损失(Kullback-Leibler divergence)进行设计。通过优化该等式能够使生成模型的学习结果与教师模型的结果保持一致。下图为基准知识蒸馏的具体架构。

然而,在应用基于响应的知识时通常依赖于模型输出的最后一层,并且难以应对来自教师模型中间层级的学习监督。这对于深度神经网络进行表示学习具有重要意义。由于logits实际上是类别概率分布,在这种情况下,“基于响应”的知识蒸馏方法受限于监督学习框架。
2.2. 基于特征的知识(Feature-Based Knowledge)
深度神经网络具备多层次特征提取的能力,在教师网络与学生网络之间实现了各层次信息的有效传递。通过这种方式,在教师模型中生成的各类激活(包括最后一层以及中间各层产生的激活)均可作为学生模型监督学习的知识来源。其中,中间层特征激活与响应激活之间的关联性具有很好的补充作用。其核心理念在于通过教师网络与学生网络在特征激活上建立对应关系以实现有效的知识蒸馏过程。数学公式...表示为:

其中ft(x)、fs(x)分别代表教师模型与学生模型的中间层特征图。这种变换方式仅在教师与学生模型的特征图尺寸不一致时被采用。LF(.)是用来评估两个特征图之间相似性的指标,在实际应用中通常会选用L1范数、L2范数或交叉熵等方法进行计算。如图所示为基于特征知识蒸馏的典型架构设计。


尽管基于特征的知识迁移在学生模型学习中提供了良好的信息,但如何有效地区分教师模型中的提示层与学生模型中的引导层,仍需进一步探讨.鉴于提示层与引导层在规模上存在显著差异,如何准确匹配教师与学生的特征表示也值得深入研究.
2.3. 基于关系的知识(Response-Based Knowledge)
教师模型中特定层的输出被用于提取响应型知识和特征型知识。通过分析不同层级或数据样本之间的相互作用,我们深入探讨了基于关系的知识。通常情况下,在蒸馏损失函数的过程中,我们主要关注的是从特征图中提取出与关系相关的知识。

其中,ft和fs分别表示教师模型和学生模型的特征图,ft^、ft 和 fs^、fs~分别是教师模型和学生模型的特征图组(pairs)。函数表示特征组的相似性函数,
传统的知识迁移方法往往涉及到单个知识蒸馏,教师的软目标被直接蒸馏给学生。实际上,蒸馏的知识不仅包含特征信息,还包含数据样本之间的相互关系。这一节的关系涉及许多方面,作者的设计很灵活,建议看原论文更清楚。

3. 蒸馏机制(Distillation Schemes)
基于教师模型与学生模型同步更新的情况,知识蒸馏的学习方案可划分为非同步更新阶段的蒸馏方法、基于实时数据的动态调整方法以及自蒸馏技术。

3.1.离线蒸馏(offline distillation)
传统知识蒸馏方法多为离线式
离线方法的优点是简单、易于实现
进一步研究表明这种方法难以充分挖掘模型潜力
这也表明这种方法仍有较大的改进空间
3.2.在线蒸馏(online distillation)
为了应对离线蒸馏的局限性, 我们提出了一种新的在线蒸馏方法, 以显著提升学生模型在资源受限条件下的性能. 在线蒸馏过程中, 教师模型与学生模型同步更新, 并通过一个端到端可训练的知识蒸馏框架实现这一目标. 这一方法特别适用于在缺乏大型高效教师模型的情况下进行优化. 在线蒸馏作为一种基于高效并行计算的单阶段端到端训练方案被提出作为在线蒸馏的核心技术. 然而, 在现有技术中(例如基于相互学习的方法), 在处理高容量教师的问题上存在不足. 这促使研究者们开始深入探讨教师与学生模式之间的关系.
3.3.自蒸馏(self-distillation)
在自蒸馏机制中,教师模型与学生模型采用了相同的网络架构,在线蒸馏可被视为其特例形式。例如Zhang等(2019b)提出的机制实现了将深层网络的知识有效传递至较浅层网络的能力。从师生互动的角度来看,在线、离线及自蒸馏分别对应了不同的学习场景:离线情形下教师独立传授知识;在线情形下师生共同参与学习过程;而自我情形则体现了学生成长的过程。值得注意的是这些机制间具有相似的学习机理因而能够相互补充完善
4.教师-学生结构(Teacher-Student Architecture)
在知识蒸馏过程中,师生架构是构建知识转移基础载体,换一种方式说就是,师生结构决定了学生模型从教师模型中提取知识的质量,这可以用人类学习过程来比喻,我们希望学生能够获得一个合适的老师来进行有效的知识获取。因此,在提炼知识的过程中,如何选择或设计适宜的师生结构,是一个关键而棘手的问题。最近研究表明,教师与学生之间的模型大小与结构基本上是固定的,这种做法容易导致模型容量出现明显差异;然而,特别设计适合教师与学生的体系架构以及探讨其体系架构为何由这些固定配置决定等问题却鲜有涉及;两者之间在设置上存在一定的关联性:

在知识蒸馏技术的发展历程中,在Hinton等人(Hinton, G., Vinyals, O. & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.)的研究中,在压缩深度神经网络集合方面进行了创新性的设计与探索。而深度神经网络体系本身的复杂度,则主要体现在其深度与宽度这两个关键维度上:通常情况下,在进行知识迁移时需要将深层、宽广的教师模型的知识转移到浅层、窄小的学生模型中;学生模型的设计方案主要包括以下几种可能性:其一是采用教师网络简化版的设计理念,在减少层数的同时降低每层通道的数量;其二是维持教师网络原有的架构布局,在此基础上构建量化版本的学生模型;第三种方案则强调通过优化基本运算单元来构建小型化的小型化学生网络;第四种方案则注重对整体网络架构进行优化设计;第五种方案则坚持与教师网络架构保持一致的设计原则
在大网与小网之间存在容量差异这一问题背景下,在知识迁移效率方面仍存在诸多制约因素:为了有效实现学生网络对教师知识的有效继承与融合,在现有研究中提出了多种控制手段:其中一种创新性方法是Mirzadeh等提出的教师助理概念(Mirzadeh, S. I., Farajtabar, M., Li, A. & Ghasemzadeh, H. (2020). Improved knowledge distillation via teacher assistant. In AAAI.),该方法通过引入辅助模块来缩小教师学生模型间的训练差距;另一种方法则是借助残差学习框架进一步缩小两者的差距:通过设计辅助结构来学习残留连接部分;此外还有其他一些研究关注于从架构层面减少教师学生模型之间的差异度:例如通过结合量化技术来进行针对性的知识蒸馏操作
以往的研究工作多集中于从结构设计层面或者从知识转移方案层面展开探讨:而在现有研究中并未深入关注如何让规模较小的学生模型能够充分匹配较大规模的教师模型以实现高效的知识蒸馏过程:为此需要建立一种自适应性的师生学习结构框架
在这一研究 hotspot 的指引下 近年来基于 teacher-guided 的神经结构搜索思想逐渐成为研究热点 即在保持教师指导作用的前提下 同时联合搜索最优学生架构以及最优知识转移路径 这一方向正在逐步得到广泛认可
5.蒸馏算法
该简单的有效知识迁移方案通过直接比较响应型、特征型以及教师与学生模型之间在特征空间内的表示分布来实现。多个算法已被开发出来旨在提升复杂环境下知识传递的效果。
5.1.对抗性蒸馏(Adversarial Distillation)
在知识蒸馏过程中,在当前的研究条件下与背景下,在现有资源与技术限制下,在深度学习领域中

在对抗性生成器的过程中(即通过对抗性算法不断优化)的情况下(即通过不断迭代和调整参数)****的情况下(即在每次迭代中)进行数据合成(即利用深度学习模型进行图像或序列数据的伪造),并将这些合成数据直接作为原始数据集使用(即将其加入到现有数据集中)或也可以用来辅助提升训练集的多样性(即为模型提供额外的数据来源以改善其泛化能力)。

其中,Ft(.)和Fs(.)分别代表教师模型与学生模型的输出结果; G(z)表示基于随机输入向量z由生成器G产生的训练样本; LG为蒸馏损失函数,旨在使预测的概率分布与真实概率分布达到最佳匹配; 蒸馏损失函数一般会选择交叉熵损失或KL散度作为衡量标准。
b)使用鉴别器,利用logits或特征来分辨样本来自教师或是学生模型。
基于以下代表性研究论文(Wang et al., 2018f; Wang, Y., Xu, C., Xu, C., & Tao, D.)在AAAI会议上发表的Adversarial学习算法,在计算过程中能够被建模为一个数学表达式。

其中,在生成器领域中(G),属于一种基于深度学习的学生网络系统;而LGAN(Loss GAN)则是生成对抗网络中被广泛采用的一种损失函数;其目的是使模型在训练过程中能够模仿真实场景中的行为模式,并尽量减少预测与实际数据之间的差异。
c)在线方式进行,在每次迭代中,教师和学生共同进行优化。
基于这种基于 teacher 的 knowledge transfer 方法设计的 GAN 模型,在提升 student 网络的学习能力方面表现出显著效果。从上述基于对抗训练的知识蒸馏方法中可以获得三个关键发现:第一点表明该方法在提升 student 网络的学习能力方面表现出显著效果;第二点指出通过结合 GAN 和 knowledge distillation 方法可以在有效缓解数据获取受限问题的同时提升 student 网络性能;第三点则证明这种方法不仅能够实现 student 模型与 teacher 模型之间的高效 knowledge transfer,并且能够有效降低 GAN 的复杂度
5.2.多教师蒸馏(Multi-teacher Distillation)
多样化的教师架构能够为学生网络提供其自身独有的知识。
在进行一个教师网络的训练过程中
多种教师网络既可以单独运用也可以集体运用以实现蒸馏。
在一个典型的师生框架中
被设计为单个大型模型或多个大型模型集合的教学者。
整合来自多个教师的知识相对直接且有效的方式是从所有
教学者那里获得平均响应作为监督信号。
多老师蒸馏的整体架构如图所示

多个教师网络通常采用logits和特征表示来体现知识。此外,在平均logits之外还存在其他变体。文献(Chen, X., Su, J., & Zhang, J. (2019b))采用了双师架构,在双师蒸馏过程中分别由两位不同的老师分别进行两种不同的任务:一位老师负责基于响应的知识迁移给学生;另一位则基于特征进行知识传授。另一文献(Fukuda et al., 2017)在每次迭代过程中随机选取一位老师来进行蒸馏任务。通常而言,在多老师蒸馏过程中能够获得丰富多样的知识储备,并据此定制一个全面的学生模型。然而如何有效地整合来自多位老师的异质化知识仍需进一步探索
5.3.跨模态蒸馏(Cross-Modal Distillation)
在训练或测试过程中某些模式的数据或标签可能不可用因此需要实现不同模式间的知识迁移在教师模型预先训练的过程中某一种模式(例如RGB图像)拥有大量注释良好的数据样本(Gupta S Hoffman J & Malik J 2016 Cross modal distillation for supervision transfer In CVPR)通过将教师模型的知识迁移到学生模型的方式利用新的未标记输入模式如深度图像(depth image)与光流(optical flow)来进行监督学习具体而言所提出的方法基于未标记的成对样本即RGB图像与深度图像通过对教师从RGB图像中获得的特征进行监督学习来提升学生性能这些成对样本的核心思想在于利用成对样本进行标注或者标签信息的迁移并已在多个跨模式应用中得到了广泛的应用

跨模态分析框架总结如下:其中ResK代表响应型知识、FeaK代表特征型知识、RelK代表关系型知识。

5.4.基于图的蒸馏(Graph-Based Distillation)
多数知识蒸馏算法注重从教师那里获取个体实例的知识,并将其传递给学生这一过程被广泛研究。然而最近提出的若干方法则通过构建和分析特定类型的网络结构来深入探究数据内部的关系

1)使用图作为教师知识的载体
在研究(Zhang与Peng, 2018)中提出了一种方法用于视频分类。文中提到,在这种方法中,每个节点代表一种自监督学习任务。通过提取logits层和各层的中间特征构建两幅图。从这些自 supervision学习任务中获取知识并传递给主任务模型。
2)使用图来控制知识迁移
该研究通过引入一种有向图结构,在 privilege 信息的框架下分析不同模态间的互动关系。其中每个节点代表一种特定的模态类型,并通过边的形式量化各类型间的关系强度。
5.5. 基于注意力的蒸馏(Attention-Based Distillation)
注意机制主要表征了神经网络中神经元的激活情况。因此,在知识蒸馏过程中采用了该机制,并增强了学生模型的能力。以注意力机制为核心的知识迁移方式主要是定义了一个特定的注意力图,并将特征嵌入分配到了神经网络的不同层次。具体而言,在迁移过程中使用了该函数来转移特征嵌入的知识。
5.6.无数据的蒸馏(Data-Free Distillation)
无数据蒸馏方法的研究背景旨在解决源于隐私性、合法性、安全性及保密性等多方面因素导致的数据缺失问题。“data free”指的是并未拥有训练数据的情况,并说明所使用的数据来源于生成或综合合成的过程。在这一过程中,新生的数据可以通过GAN技术来进行生成。合成的数据通常基于预先训练好的教师模型提取出的特征表示来进行生成。

虽然无数据蒸馏在数据稀缺的情况下展现了显著的优势,在提升模型性能方面展现出巨大潜力。然而,在生成高质量且多样的训练数据以提升模型泛化能力方面仍面临着诸多困难
5.7. 量化蒸馏(Quantized Distillation)
量化过程将高精度神经网络(例如基于32位浮点运算)转换为低精度版本(如采用2位或8位定点表示),从而降低了计算复杂度。
知识蒸馏旨在训练小型模型以模仿复杂模型的表现。
在教师-学生框架中运用量化技术开发了一些KD方法(如图所示);

5.8.终身蒸馏(Lifelong Distillation)
终生成员涵盖持续性学习、持续性学习以及元学习,并致力于模仿人类的学习方式。它沉淀了以往获得的知识,并将其转化为未来的学习路径。知识蒸馏提供了系统性地保存和转移知识的有效途径,从而避免了知识长期使用后突然遗忘的风险。最近的研究和发展中不断涌现出了多种KD变体技术方案
5.9.基于神经架构搜索的蒸馏(NAS-Based Distillation)
NAS被公认为自动机器学习领域(或称为AutoML)中最具代表性的技术之一。其核心目标在于通过自动化过程识别适合的深度神经网络模型及其适应性学习架构。在知识蒸馏过程中,知识转移的成功不仅受教师所掌握的知识影响,还受到学生架构设计的影响。值得注意的是,在大教师模式与小学生模式之间存在显著的能力差距,这种差距可能导致学生难以有效模仿老师的技能表现。通过利用 NAS技术进行优化选择与配置以解决这一挑战。
6.性能比较(Performance Comparison)
为了验证知识蒸馏技术的有效性并提供理论支持, 本研究系统地归纳分析了几种典型的方法, 并将这些方法应用于两个广受欢迎的数据集上, 即CIFAR-10与CIFAR-100. 这两组数据集均包含5万张训练样本与1千张测试样本, 每个类别所拥有的训练与测试样本数量均相等. 为确保实验结果的一致性和可比性, 所有实验中涉及的关键参数取值均直接来源于对应领域的原始研究文献. 研究成果表明, 在采用不同类型的蒸馏方案以及教师与学生网络架构配置情况下, 各种方法表现出各自的性能特点. 括号内的准确率指标分别反映了教师网络与学生网络在各自完成训练后所达到的分类能力.

从上表性能比较中,可以总结出以下几点:
- 知识蒸煮可在多个不同深度层面上应用;
- 利用知识蒸煮技术可实现各层结构间的压缩优化;
- 在协作学习框架下进行在线性知识蒸煮时可显著提升整体性能表现;
- 自监督型知识蒸煮方法有助于加强网络能力表现;
- 离线与在线两种类型的知识蒸煮方式通常分别采用基于特征与响应的学习机制进行信息传输;
- 其轻量级版本(学生)的能力得以显著增强。
通过对不同知识蒸馏方法的性能进行系统性对比分析后可知, 经研究发现, 知识蒸馏在深度模型压缩技术方面展现出良好的压缩效率与较快的压缩速度
7.应用(Applications)
知识提取作为一种实现深度神经网络压缩与加速的关键技术,在人工智能领域得到了广泛应用。它不仅包括视觉识别、语音识别等基础任务,在自然语言处理(NLP)以及推荐系统等领域也展现出显著的应用潜力。此外还能够实现其他功能如数据隐私保护以及对抗攻击的防御机制本节旨在概述其主要应用方向。
KD in NLP
传统的语言模型(例如BERT)架构复杂,在训练与部署过程中消耗大量时间和资源。知识蒸馏作为一种在自然语言处理领域中被广泛研究的方法,其目标在于获取轻量级、高效且实用的语言模型。随着KD方法越来越多地提出,它们被用来解决大量复杂的NLP任务。在这些基于知识蒸馏的方法中,默认情况下大多数都属于自然语言理解(NLU)领域;其中许多基于自然语言理解的任务被设计成特定蒸馏和多任务蒸馏方案。
以下是自然语言处理中知识蒸馏的一些总结。
- 知识蒸馏生成了性能优越的轻量级深度学习架构。
- 通过大量复杂语言数据中的知识实现小规模学生模型的构建的大容量教师架构能够帮助学习者快速完成多种任务。
- 基于多语言体系的知识迁移机制能够有效整合不同领域信息的学习者能够轻松应对多种任务的情境。
- 在深度学习体系中序列信息可以从大型网络迁移到小型网络以提高效率这样的设计有助于提升整体性能。
8.总结和讨论(Conclusion and Discussion)
本文系统地探讨了涉及的知识领域包括知识、蒸馏方案、师生体系结构、蒸馏算法以及性能比较和应用等多个方面的问题,并对知识蒸馏展开了全面梳理。在下文部分中深入探讨了知识蒸馏所面临的主要问题,并对未来研究方向提出了几点见解。
8.1.挑战(Challenges)
- 不同知识来源的价值及其整合路径,在同一个协调且互补的体系中对不同类型的知识进行建模仍面临诸多挑战;
- 为了提升知识转移效率的研究工作应进一步探讨模型复杂度与现有蒸馏方案及新型蒸馏方案之间的联系;
- 构建一个有效的学生模型或合适教师模型的过程仍是实现知识提炼中的关键问题之一;同时需要关注知识蒸馏方法的可解释性问题。
尽管有关知识蒸馏的方法与应用已取得诸多进展...但对于就其本质而言仍有许多尚待深入探索的问题...基于教师与学生模型线性化假设...这不仅有助于简化问题的研究框架...也使得利用蒸馏技术探究学生的学习特征成为可能...然而就如何全面把握知识蒸馏的本质及其评估标准而言...这一领域仍面临着巨大的挑战
8.2.未来方向(Future Directions)
在提升知识蒸馏性能方面,主要关注点在于不同师生网络架构的设计、教师网络所传授的知识内容以及如何有效地将这些知识融入学生网络体系中。
- 在现有的知识蒸馏方法中,讨论知识蒸馏与其他各种压缩方法相结合的相关著作很少;
- 知识蒸馏除了用于深度神经网络加速的模型压缩外,由于师生结构中知识传递的自然特性,知识蒸馏也可用于其他问题。比如,数据隐私、数据扩充、对抗训练和多模态。
