Advertisement

论文讲解:Knowledge distillation: A good teacher is patient and consistent

阅读量:

前言

论文地址:https://arxiv.org/abs/2106.05237

  • google的文章向来是不差钱,这篇文章也是如此,把ImageNet1k数据集的蒸馏做到了1W epoch,而且还做了大量的对比实验。虽然无法复现,不过能直接用结论也是ok的。
  • 量化裁剪和蒸馏是模型轻量化三板斧,裁剪可能会带来通道不平衡的问题,量化的收益稳定,这篇文章主要是对蒸馏展开研究。
  • 作者发现,只要给蒸馏足够的时间,他是能带来足够的惊喜的,最终只是基于该数据集,将ResNet50在ImageNet1k上的结果刷到了82.8%。

实验设置

简单起见,作者主要分析了以下4种蒸馏的方式

  • 固定教师:对于同一幅图片,在Student处应用随机裁剪,在Teacher处应用中心裁剪操作后(即对应于Noisy Student方法),因此在Teacher端得到的结果将是完全固定的。
  • 独立噪声模型:在独立噪声模型中(即两者的预测区域不重叠),Teacher和Student分别从同一幅图片中提取出不同区域并生成各自的预测结果。
  • 一致教学策略:在一致教学策略下(即从同一幅图片中提取出一个子区域),Teacher与Student各自从该子区域做出预测分析。
  • 函数匹配方法:基于一致教学策略的应用场景(即通过混合增强技术进一步提升模型性能),结合函数匹配方法实现更好的学习效果。
在这里插入图片描述

在损失函数部分中采用KD损失函数,并未对student的预测结果施加gt监督。然而由于hard label会导致模型过拟合的问题,在SSLD知识蒸馏方法中也指出采用softlabel的效果会更好。

主要的消融实验

作者发现,在知识蒸馏过程中采用系统性教学方法能够显著提高模型效果,并具有较低的过拟合风险。通过系统性教学改造得到的函数匹配方法进行参数训练时精度将进一步提升。

在这里插入图片描述

The core significance of "patient" teaching lies in its ability to consistently enhance learning outcomes through long-term, structured training. From the graph, it is evident that achieving 30,000 to 1,000,000 epochs demonstrates a sustained improvement trend. This improvement is not merely coincidental; it stems from the dynamic nature of teacher logits. Students are therefore compelled to develop and refine their capacity to learn and adapt from increasingly complex inputs.

在这里插入图片描述

在不同分辨率层上实施蒸馏,在采用更高分辨率作为 teacher 的模型参与蒸馏过程时,我们预计系统性能将得到进一步优化;然而值得注意的是,在此过程中计算资源的需求量也会相应上升。

在这里插入图片描述

Optimization techniques: A second-order preconditioner named Shampoo significantly enhances the training efficiency of deep neural networks compared to traditional methods. By adopting the Shampoo second-order optimizer, the model achieves comparable precision to the baseline model after just 1200 epochs, effectively accelerating convergence without compromising performance.

Optimization: 良好的初始化能够在短轮次中表现出色但最终被随机初始化超越:加载预训练模型时相较于随机初始化具有更好的收敛性经过大量迭代后随机初始化的精度显著高于其他方法

Performing distillation on out-of-domain datasets is generally considered superior. However, even though it's true that out-of-domain datasets can still benefit from distillation, this approach often requires more computational resources. Interestingly, when the distilled dataset shares a strong correlation with in-domain datasets, the performance can be comparable to that of in-domain-only models. However, one might mistakenly think this requires longer and more time-consuming processes; but actually, this is not always the case.

采用硬标签策略(gt hard label),即便在数据增强规模大幅扩展的情况下,在经过充分的模型训练后(即训练时间足够长),仍然不可避免地会导致模型出现过拟合现象。相比之下(即从另一个方法论角度来看),函数匹配方法(function matching)则能够有效避免这一问题(即其验证准确率将保持稳定的提升趋势)。

在这里插入图片描述

结论

通过大量实验,作者总结了几个蒸馏中比较有意义的结论

为了使学生与教师在接收输入方面保持一致,请采用一致教学法进行操作。
对于较大的模型而言,可以通过引入更为丰富的数据增强手段来提升数据多样性。这不仅有助于扩展数据覆盖范围,还能有效提升模型的泛化能力。
建议延长训练周期以充分利用资源。基于ground truth标签的训练容易导致模型过拟合问题,在实际应用中需权衡各因素以达到最佳性能平衡。
通过引入随机噪声进行学习优化过程,在每一轮次中都会动态调整目标函数以适应变化的需求。

针对ImageNet 1k分类数据集,在经过600个epoch后使用transformer方法表现极为出色;而通过蒸馏技术实现了长达一万epoch的效果。研究表明,在机器学习领域不仅人类需要不断进化以适应复杂环境的变化,“模型也需要持续地进行学习”。

全部评论 (0)

还没有任何评论哟~