Advertisement

Knowledge Distillation and Student-Teacher Learning for Visual Intelligence

阅读量:

本文属于蒸馏学习综述系列的第四篇,Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks的一个翻译。

视觉智能的知识蒸馏与学生-老师学习:回顾与新展望

摘要

  1. 引言

  2. 什么是KD?为什么值得我们关注?

  3. KD的理论分析

  4. 基于教师数量的KD
    4.1 从一位教师进行蒸馏
    4.1.1 来自logits的知识
    4.1.2 来自中间层的知识

    • 4.2 从多个教师进行蒸馏
      • 4.2.1 从logits集合中进行蒸馏
      • 4.2.2 从特征集合中进行蒸馏
      • 4.2.3 通过统一数据源进行蒸馏
      • 4.2.4 从单教师到多个子教师
      • 4.2.5 从异构的老师中定制学生
      • 4.2.6 与同伴共同学习
  • 5 基于数据格式的蒸馏

      • 5.1 无数据蒸馏
        • 5.1.1 基于元数据的蒸馏
        • 5.1.2 基于类相似性的蒸馏
        • 5.1.3 通过生成器进行蒸馏
        • 5.1.4 无数据蒸馏面临的关键挑战
  • 5.2 采用少量数据样本进行蒸馏操作

    • 5.2.1 基于伪实例进行蒸馏
      • 5.2.2 基于分层估计方法进行蒸馏
      • 5.2.3 探讨其面临的挑战与潜在应用前景

5.3 跨模态蒸馏技术
5.3.1 基于监督的跨模态蒸馏
5.3.2 无监督学习框架下的跨模态蒸馏
5.3.3 基于单一教师模型的蒸馏过程
5.3.4 基于多教师集成的蒸馏策略
5.3.5 蒸馏技术的潜力及其面临的公开挑战

  • 6 在线和无教师蒸馏

    • 6.1 在线蒸馏技术
    • 6.1.1 个别学生之间相互协作
    • 6.1.2 学生之间共享学习材料
    • 6.1.3 学习小组
    • 6.1.4 总结与实践挑战
  • 6.2 无教师蒸馏

    • 6.2.1 基于再生机制的蒸馏

      • 6.2.2 依赖深度监督的蒸馏
      • 6.2.3 结合数据增强技术的蒸馏
      • 6.2.4 框架调整型蒸馏
      • 6.2.5 总结分析与公开挑战探讨
    • 7 标签需要或无标签蒸馏

      • 7.1 标签需要的蒸馏

        • 7.1.1 原始标签的KD
        • 7.1.2 伪标签的KD
      • 7.2 无标签蒸馏

        • 7.2.1 知识渊博的KD
        • 7.2.2 创造元知识
      • 7.3 潜力与挑战

  • 8 基于新学习度量的KD

    • 8.1 通过对抗学习进行知识蒸馏
      • 8.1.1 基于GAN的KD基本公式

        • 8.1.2 GAN在KD中的作用体现在何处?
        • 8.1.3 总结与公开挑战
      • 8.2 图表示的蒸馏

        • 8.2.1 符号与定义
        • 8.2.2 基于图的蒸馏
      • 8.3 半监督、自监督学习的蒸馏

        • 8.3.1 半监督学习
        • 8.3.2 自监督学习
        • 8.3.3 潜力与公开挑战
      • 8.4 小样本学习

        • 8.4.1 挑战是什么?
      • 8.5 增量学习

        • 8.5.1 从单教师蒸馏
        • 8.5.2 从多教师蒸馏
        • 8.5.3 公开挑战
  • 8.6 强化学习

    • 8.6.1 协同蒸馏
    • 8.6.2 基于强化学习的模型压缩
    • 8.6.3 随机神经网络蒸馏
    • 8.6.4 强化学习蒸馏技术的潜力

9 视觉智能技术的应用
9.1 语义分割与运动检测
9.2 基于知识图谱的视觉检测与行为追踪系统
9.2.1 通用目标检测算法
9.2.2 行人检测技术
9.2.3 人脸识别技术
9.2.4 车辆检测与自动驾驶技术
9.2.5 姿态估计技术

复制代码
* 9.3 领域自适应
* * 9.3.1 半监督DA
  * 9.3.2 无监督DA
  • 9.4 深度感知与场景流量检测技术的结合

  • 9.5 基于图像翻译的自动语义转换方法

  • 9.6 知识蒸馏在视频理解中的应用

    • 9.6.1 基于深度学习的视频分类与目标识别算法
  • 9.6.2 基于深度学习的视频标注技术及其优化方法

  • 10 讨论

  • 10.1 规模更大的模型,是否就意味着更强大的教师能力?

  • 10.2 经过预训练的模型在知识传递中是否具有显著优势?

  • 10.3 是否可以通过自蒸馏技术进一步提升再生模型的效果?

  • 10.4 在单教师模型与多教师模型之间,哪种设计更为合理?

  • 10.5 无数据蒸馏技术在实际应用中是否仍然保持较高的有效性?

  • 10.6 在蒸馏过程中,Logits与特征之间的关系如何?

  • 10.7 知识蒸馏过程中,知识转移的可解释性是否有所提升?

  • 10.8 不同网络结构对知识蒸馏过程的影响及其有效性如何?

  • 11 新角度与观点

  • 11.1 NAS的潜力所在

  • 11.2 GNN的潜力所在

  • 11.3 非欧几何度量的蒸馏效果

  • 11.4 更优的特征表示能力

  • 11.5 更具建设性的理论分析

  • 11.6 特殊视觉问题的潜力所在

  • 11.7 视觉、语音以及NLP的集成应用

    • 12 结论

摘要

1 引言

2 KD是什么?为什么要关注它?

3 KD的理论分析

4 基于教师数量的KD

4.1 从一个老师进行蒸馏

4.1.1 来自logits的知识

4.1.2 来自中间层的知识

4.2 从多个教师进行蒸馏

4.2.1 从logits集合中进行蒸馏

4.2.2 从特征集合中进行蒸馏

4.2.3 通过统一数据源进行蒸馏

4.2.4 从单教师到多个子教师

4.2.5 从异构的老师中定制学生

4.2.6 与同伴共同学习

5 基于数据格式的蒸馏

5.1 无数据蒸馏

5.1.1 基于元数据的蒸馏

5.1.2 基于类相似性的蒸馏

5.1.3 使用生成器进行蒸馏

5.1.4 无数据蒸馏面临的开放挑战

5.2 使用少量数据样本进行蒸馏

5.2.1 通过伪实例进行蒸馏

5.2.2 通过分层估计蒸馏

5.2.3 挑战和潜力

5.3 跨模态蒸馏

5.3.1 监督的跨模态蒸馏

5.3.2 无监督的跨模态蒸馏

5.3.3 从一个教师学习

5.3.4 从多个教师学习

5.3.5 潜力和公开挑战

6 在线和无教师蒸馏

6.1 在线蒸馏

6.1.1 个别学生同行

6.1.2 学生之间共享块

6.1.3 同学组合

6.1.4 总结和公开挑战

6.2 无教师蒸馏

6.2.1 再生蒸馏

6.2.2 通过深度监督蒸馏

6.2.3 基于数据增强蒸馏

6.2.4 框架改变的蒸馏

6.2.5 总结与公开挑战

7 标签需要或无标签蒸馏

7.1 标签需要的蒸馏

7.1.1 原始标签的KD

7.1.2 伪标签的KD

7.2 无标签蒸馏

7.2.1 知识渊博的KD

7.2.2 创造元知识

7.3 潜力与挑战

8 具有新学习度量的KD

8.1 通过对抗学习进行蒸馏

8.1.1 KD中的GAN的基本公式

8.1.2 GAN如何帮助KD?

8.1.3 总结和公开挑战

8.2 图表示的蒸馏

8.2.1 符号与定义

8.2.2 基于图的蒸馏

8.3 半监督、自监督学习的蒸馏

8.3.1 半监督学习

8.3.2 自监督学习

8.3.3 潜力与公开挑战

8.4 小样本学习

8.4.1 挑战是什么?

8.5 增量学习

8.5.1 从单教师蒸馏

8.5.2 从多教师蒸馏

8.5.3 公开挑战

8.6 增强学习

8.6.1 协作蒸馏

8.6.2 基于RL蒸馏的模型压缩

8.6.3 随机网络蒸馏

8.6.4 基于RL蒸馏的潜力

9 视觉智能的应用

9.1 语义和运动分割

9.2 KD用于视觉检测与追踪

9.2.1 通用目标检测

9.2.2 行人检测

9.2.3 人脸检测

9.2.4 车辆检测与驾驶学习

9.2.5 姿态检测

9.3 领域自适应

9.3.1 半监督DA

9.3.2 无监督DA

9.4 深度与场景流量检测

9.5 图像翻译

9.6 KD用于视频理解

9.6.1 视频分类与识别

9.6.2 视频标注

10 讨论

10.1 更大的模型就是更好的老师吗?

10.2 预训练老师的重要性?

10.3 再生自蒸馏会更好吗?

10.4 单教师与多教师

10.5 无数据蒸馏是否足够有效?

10.6 Logits与特征

10.7 KD的可解释性

10.8 网络结构与KD的有效性

11 新角度与观点

11.1 NAS的潜力

11.2 GNN的潜力

11.3 非欧蒸馏度量

11.4 更好特征表示

11.5 更具建设性的理论分析

11.6 特殊视觉问题的潜力

11.7 视觉,语音和NLP的集成

12 结论

全部评论 (0)

还没有任何评论哟~