知识蒸馏论文的一些自己总结
本文仅是对论文内容的一个简要回顾,并未涉及深入探讨任何具体细节或公式。其主要目的在于帮助读者快速 grasp 研究的核心理念。如果有兴趣或时间允许的话, 我会开设详细的博客对部分论文进行深入分析与讨论, 以期为读者提供更多有价值的内容。如有任何意见或建议, 欢迎随时联系我并提出, 这将有助于改进文章质量并促进进一步交流。
一. Attention Transfer
Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer:https://arxiv.org/abs/1612.03928
该文章借鉴了CNN中的注意力机制,并通过teacher模型中间层输出生成空间注意力图(spatial-attention),属于一种热力图类型,在图像中显示越感兴趣区域的颜色偏深红色。

在多数知识蒸馏方法的基础上, 教师网络利用生成的关注机制来引导学生网络的学习过程. 通过注意力转移技术, 教师网络能够减少自身与学生网络之间注意力映射之间的差距. 这样一来, 学生就能模仿教师构建出具有相似特征的空间表达.
在此处提出一点,在研究中间层的特征图时(包括热力图、注意力机制和普通特征图),这两个网络在这一区域的尺寸相同。从而可以通过距离度量来计算各特征图之间的距离。
该文提出两类空间注意力机制,在具体实现上可分为两步:第一步主要关注特征提取过程中的关键点定位;第二步则着重于特征融合阶段的情感分析任务处理。
(一个小疑问:使用热力图与直接使用特征图有何区别?是否其中哪一个起到了关键作用? hint loss结果尚未得到实验验证)
二.object detection distillation
Developing Efficient Object-Detection Models via Knowledge Distillation
该研究探讨了将分类问题的知识提取技术推广至目标检测领域的可能性,并在此过程中整合基于知识蒸馏的基础机制。在上述方法中构建了基于知识蒸馏的基础框架。
- 特征蒸馏与hint learning结合应用。
通过教师模型提取的高阶抽象特征求导学模型生成层的目标特征求索。
随后计算两网络间目标特征求差值并据此优化学模参数,
以确保其生成的图像表征能够充分模仿教师网络的行为模式。
2.基于分类任务的设计中采用了交叉熵损失函数来衡量教师与学生预测结果之间的差异过程。通过这种设计实现的学生能够模仿教师行为并学习到bounding box的具体类别特征以及复杂的数据分布模式。

本文虽然采用了bounding box回归信息这一技术手段,但对模型性能的提升效果并不显著;因此无需进一步展开讨论。
未完待续。。。。。。
