【零样本知识蒸馏】(十)CVPR 2021:Large-Scale Generative Data-Free Distillation
【零样本知识蒸馏】(十)CVPR 2021:Large-Scale Generative Data-Free Distillation
- 论文链接:
- 研究的核心难点在于:
- 针对上述难点,本文提出了一种创新性的解决方案:
- 具体实现如下:
-
在Inception损失度量方法中采用
-
通过计算目标分布与生成分布的矩匹配来定义损失函数
-
引入多组生成器以提升生成质量
-
实验结果:
-
论文地址:
https://arxiv.org/abs/2012.05578v1
主要问题:
最近的研究探索了若干解决零样本蒸馏问题的方法。然而,这些方法中有的则效率低下,并不能适应大规模的数据集。
主要思路:
本文探讨了基于教师网络内嵌归一化统计量建立生成图像模型的方法。
这种机制使得我们能够无需对数据进行训练即可建立一个生成器集合。
内嵌归一化统计量提取出的数据样本能够有效地为后续蒸馏过程提供替代输入

具体实现:
Inceptionism loss:
从形式上来看,在给定条件下(即基于预设的目标类别\hat{y}以及经过训练的教师模型T),我们通过训练模型发现输入x使得分类分布\hat{p} = \text{OneHot}(\hat{y})与预设目标之间的交叉熵达到了最小值。
\mathcal{L}_{\mathrm{CE}}(x, \hat{y})=H(\hat{p}, p)=-\sum_{i} \hat{p}_{i} \log p_{i}
在实践中,在单独优化该目标方面存在不足,在此情况下通常会采用其他策略以弥补其局限性。具体来说,在这种情况下还需要施加一种先验约束条件。具体而言,在生成合成图像时需模仿自然图像中的一些统计特性。例如相邻像素之间的特定相关性模式即是其中之一。
Incremental Loss Function \mathcal{L}_{\text {Inc }}(x, \hat{y}) 等于符号连接着 Cross Entropy 损失函数 \mathcal{L}_{\mathrm{{CE}}}(x, \hat{{y}}) 和 Regularization Term \mathcal{{L}}_{\operatorname{{Reg}}}(x)
Moment matching loss:
已有研究表明,深度卷积网络各层可能承担不同的功能。其中较低层次的网络倾向于识别基本特征如边缘与曲线等低级特征,而较高层次的网络则擅长识别更为复杂的特征模式。从而作者建议通过中间BN层的统计特性来限制数据生成过程
对于给定的均值和方差估计\hat{\mu}和\hat{\sigma}^{2}相对于真实分布\mathcal{N}\left(\mu, \sigma^{2}\right)而言,其Kullback-Leibler散度计算为D_{\mathrm{KL}}\left(\mathcal{N}\left(\hat{\mu}, \hat{\sigma}^{2}\right)\right.\|\mathcal{N}\left(\mu, \sigma^{2}\right)\right)等于\log\frac{\sigma}{\hat{\sigma}}减去二分之一乘以括号内的内容
或者:
\|\mu-\hat{\mu}\|_{2}+\left\|\sigma^{2}-\hat{\sigma}^{2}\right\|_{2}
Using multiple generators:
当模式崩溃发生时,在众多生成模型中

被建议采用带有 k 个生成器的配置方案,并将各类别在各生成器之间进行分配。
实验结果:


