Advertisement

【论文阅读】Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model(2021)

阅读量:

摘要

Knowledge distillation (KD 知识蒸馏) 是一种有效的方法用于加速 深度神经网络 (DNN),通过模仿 高容量 老师网络 (Teacher) 的 softmax 输出来训练 紧凑网络 (Student)。 在传统上而言,在知识蒸馏中通常依赖于获取 训练样本 和 白盒教师 的参数来迁移知识。 然而,在实际应用中这些前提并不总是现实的,因为它们受到 存储成本 或 隐私问题 的限制。 我们提出了一种基于决策的黑箱 (DB3) 知识蒸馏概念,在这种情况下 学生 可以通过从只能返回类别的 黑箱 教师 中提取知识来进行训练(参数不可访问)。 我们从 训练集 可访问 的情况 开始考虑。 我们通过计算 样本 对其他类别的鲁棒性 来表示每个样本,并将其构建为软标签用于 训练学生 。 接着我们将其扩展到 访问训练数据 也不可行 的更复杂情况,并提出了一种生成 伪标签 的方法以构建转移集来替代真实数据集,并使用这些转移集进行迁移学习评估我们的方法在 各种基准网络 和 数据 上的表现表明其有效性

方法

在这里插入图片描述

DB3KD方法:

  1. 假设训练数据集是可访问的,则通过计算每个样例与其教师模型决策边界之间的距离来量化其对其他类别别的鲁棒性程度,并基于这些度量值生成相应的soft labels。
  2. 在无法获得训练数据集的情况下,则提出了一种基于生成对抗网络(GANs)的方法来合成伪样本(pseudo samples)。这种合成方法能够使得生成的伪样本能够最大限度地区分DB3教师模型的分类边界,并利用这些伪样本生成相应的soft labels用于迁移学习过程。

具体实现步骤

DB3KD(基于决策的黑箱知识蒸馏)是一种创新性的知识蒸馏方式,它使学生成员能够从仅输出类别标签的黑箱式教师网络中提取知识。该方法的具体实施流程如下所述:

样本鲁棒性的定义

样本距离(Sample Distance, SD):通过计算样本与其他类别样本之间的最小欧几里得距离来评估该样本对其他类别的鲁棒性。
边界距离(Boundary Distance, BD):采用二分搜索方法确定样本至教师模型决策边界的最邻近点。
最小边界距离(Minimal Boundary Distance, MBD):基于零阶优化技术估计边界梯度方向,并沿此方向引导样本远离决策边界直至找到最小化该距离的点。

软标签的构建

基于样本鲁棒性评估机制,在每个训练样本上构建软标签分布。这种软标签反映了样本对所属正确类别分类的概率分布情况。

通过预设操作将样本鲁棒性转化为预预测层激活值,并通过softmax函数将其转换为软标签分布。

在学生模型的训练过程中,我们采用构建的软标签分布与知识蒸馏损失函数相结合的方式进行优化。

零样本DB3KD(Zero-shot DB3KD, ZSDB3KD)

当训练数据缺失时以迭代优化随机噪声产出伪样例这些样例模仿了原始训练数据集的空间分布通过对边界梯度进行计算并推动样本远离其所在区域从而产出具有显著边界间距的新伪样例

实验设置

探究基于不同DNN架构及数据集的组合对DB3KD方法有效性的影响。
系统性地分析并比较了各类样本鲁棒性计算策略的基础上,
同时展示了DB3KD方法在多维度条件下的应用效果。

性能评估

通过系统性分析与其他知识蒸馏方法的对比实验, 研究证实了DB3KD方法的显著优势

总结

DB3KD方法的核心基于样本至决策边界的距离进行样本类别概率分布的估计,在无需访问教师模型参数或训练数据的前提下即可实现有效的知识转移。该方法已在理论上及实验中展现了其有效性与潜力。

论文链接

Zero Shot Knowledge Distillation Process Derived from a Decision-Based Black-Box Learning Framework

笔记

以往的KD的成功有三个因素:

  1. 该系统能够对教师提供的训练数据集进行获取操作(主要使用开源的数据集)。
  2. 该系统能够对白盒教师模型中的参数进行分析。
  3. 该系统能够根据评分机制计算每个训练样本被分类到各个类别的概率。

本文首次引入了基于决策的黑箱教师。

全部评论 (0)

还没有任何评论哟~