Knowledge Distillation and Student-Teacher Learning for Visual Intelligence
本文属于蒸馏学习综述系列的第四篇,Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks的一个翻译。
视觉智能的知识蒸馏与学生-老师学习:回顾与新展望
摘要
-
引言
-
什么是KD?为什么值得我们关注?
-
KD的理论分析
-
基于教师数量的KD
4.1 从一位教师进行蒸馏
4.1.1 来自logits的知识
4.1.2 来自中间层的知识- 4.2 从多个教师进行蒸馏
-
- 4.2.1 从logits集合中进行蒸馏
- 4.2.2 从特征集合中进行蒸馏
- 4.2.3 通过统一数据源进行蒸馏
- 4.2.4 从单教师到多个子教师
- 4.2.5 从异构的老师中定制学生
- 4.2.6 与同伴共同学习
-
5 基于数据格式的蒸馏
-
- 5.1 无数据蒸馏
-
- 5.1.1 基于元数据的蒸馏
- 5.1.2 基于类相似性的蒸馏
- 5.1.3 通过生成器进行蒸馏
- 5.1.4 无数据蒸馏面临的关键挑战
-
-
5.2 采用少量数据样本进行蒸馏操作
- 5.2.1 基于伪实例进行蒸馏
- 5.2.2 基于分层估计方法进行蒸馏
- 5.2.3 探讨其面临的挑战与潜在应用前景
- 5.2.1 基于伪实例进行蒸馏
5.3 跨模态蒸馏技术
5.3.1 基于监督的跨模态蒸馏
5.3.2 无监督学习框架下的跨模态蒸馏
5.3.3 基于单一教师模型的蒸馏过程
5.3.4 基于多教师集成的蒸馏策略
5.3.5 蒸馏技术的潜力及其面临的公开挑战
-
6 在线和无教师蒸馏
- 6.1 在线蒸馏技术
- 6.1.1 个别学生之间相互协作
- 6.1.2 学生之间共享学习材料
- 6.1.3 学习小组
- 6.1.4 总结与实践挑战
-
6.2 无教师蒸馏
-
6.2.1 基于再生机制的蒸馏
- 6.2.2 依赖深度监督的蒸馏
- 6.2.3 结合数据增强技术的蒸馏
- 6.2.4 框架调整型蒸馏
- 6.2.5 总结分析与公开挑战探讨
-
7 标签需要或无标签蒸馏
-
-
7.1 标签需要的蒸馏
-
- 7.1.1 原始标签的KD
- 7.1.2 伪标签的KD
-
7.2 无标签蒸馏
-
- 7.2.1 知识渊博的KD
- 7.2.2 创造元知识
-
7.3 潜力与挑战
-
-
-
8 基于新学习度量的KD
- 8.1 通过对抗学习进行知识蒸馏
-
8.1.1 基于GAN的KD基本公式
- 8.1.2 GAN在KD中的作用体现在何处?
- 8.1.3 总结与公开挑战
-
8.2 图表示的蒸馏
-
- 8.2.1 符号与定义
- 8.2.2 基于图的蒸馏
-
8.3 半监督、自监督学习的蒸馏
-
- 8.3.1 半监督学习
- 8.3.2 自监督学习
- 8.3.3 潜力与公开挑战
-
8.4 小样本学习
-
- 8.4.1 挑战是什么?
-
8.5 增量学习
-
- 8.5.1 从单教师蒸馏
- 8.5.2 从多教师蒸馏
- 8.5.3 公开挑战
-
- 8.1 通过对抗学习进行知识蒸馏
-
8.6 强化学习
- 8.6.1 协同蒸馏
- 8.6.2 基于强化学习的模型压缩
- 8.6.3 随机神经网络蒸馏
- 8.6.4 强化学习蒸馏技术的潜力
9 视觉智能技术的应用
9.1 语义分割与运动检测
9.2 基于知识图谱的视觉检测与行为追踪系统
9.2.1 通用目标检测算法
9.2.2 行人检测技术
9.2.3 人脸识别技术
9.2.4 车辆检测与自动驾驶技术
9.2.5 姿态估计技术
* 9.3 领域自适应
* * 9.3.1 半监督DA
* 9.3.2 无监督DA
-
9.4 深度感知与场景流量检测技术的结合
-
9.5 基于图像翻译的自动语义转换方法
-
9.6 知识蒸馏在视频理解中的应用
-
- 9.6.1 基于深度学习的视频分类与目标识别算法
-
9.6.2 基于深度学习的视频标注技术及其优化方法
-
10 讨论
-
10.1 规模更大的模型,是否就意味着更强大的教师能力?
-
10.2 经过预训练的模型在知识传递中是否具有显著优势?
-
10.3 是否可以通过自蒸馏技术进一步提升再生模型的效果?
-
10.4 在单教师模型与多教师模型之间,哪种设计更为合理?
-
10.5 无数据蒸馏技术在实际应用中是否仍然保持较高的有效性?
-
10.6 在蒸馏过程中,Logits与特征之间的关系如何?
-
10.7 知识蒸馏过程中,知识转移的可解释性是否有所提升?
-
10.8 不同网络结构对知识蒸馏过程的影响及其有效性如何?
-
11 新角度与观点
-
11.1 NAS的潜力所在
-
11.2 GNN的潜力所在
-
11.3 非欧几何度量的蒸馏效果
-
11.4 更优的特征表示能力
-
11.5 更具建设性的理论分析
-
11.6 特殊视觉问题的潜力所在
-
11.7 视觉、语音以及NLP的集成应用
- 12 结论
