Advertisement

20-CVPR-Distilling Knowledge from Graph Convolutional Networks

阅读量:

知识蒸馏

知识蒸馏属于模型压缩的一种方法,在深度学习领域具有重要意义。
该研究首次在文献中探讨了知识蒸馏的概念,并将其作为一种有效的技术手段提出。
主要的技术路线包括两种方法:一种是基于标签平滑(Label Smoothing)的技术;另一种则是基于特征提取(Feature Distillation)的方法。
其中一种方法(Label Smoothing)通过使用经过平滑处理的教学辅助分布来指导学生的学习过程。
另一种方法则利用了中间层节点输出所携带的关键语义信息。

knowledge type

响应式知识(Response-based knowledge):教师网络顶层神经活动的核心思想在于模仿教师网络在处理问题时所作出的最佳预测结果。
特征式知识(Feature-based knowledge):中间层输出的结果直接反映了师生网络在特征激活上的差异性表现。
关系式知识(Relation-Based Knowledge):进一步探讨了各层次之间以及不同数据样本间的相互关联情况。

Distillation Schemes

在离线知识蒸馏(Distill_KD)中(Distill_KD),大部分知识蒸馏任务采用离线模式进行,并且教师模型通常基于预训练技术构建。
在线知识蒸馏(Distill-online)尤其适用于大规模高性能教师模型不可用的情况,在此场景下,在线蒸馏过程中教师与学生模型会同步更新。
在自蒸馏(Self-Distill)机制中,默认情况下教师与学生模型由同一个神经网络架构构成。

20-CVPR-Distilling Knowledge Representation from Graph Convolutional Networks of Extracting Knowledge of Graph Data Analysis Techniques

摘要

现有的知识蒸馏方法主要基于卷积神经网络(CNN),其核心假设是输入样本如图像属于该网络的处理范畴,并却忽视了处理非网络数据的图卷积网络(GCN)。本文提出了一种专门的方法用于从预训练GCN中提取知识。为此设计了一个局部结构保留机制,并在此模块中明确地解析了教师网络中的拓扑语义信息。具体而言,在这一模块中将来自教师和学生的局部特征分布作为转移依据,并通过最小化这些分布之间的差异度实现了拓扑感知的知识从教师模型向学生成员的有效转移。此外所提出的方法具备良好的扩展性特点即允许在动态图模型下实现教师与学生之间的适应性迁移,在这种情况下两者可能采用不同的输入图表示形式。我们在不同架构包括ResNet与DenseNet等主流CNN模型上分别使用两个具有代表性的数据集开展实验研究并证明所提出的方法能够实现当前研究领域内最优的知识蒸馏性能。

Motivation

在GCN中使用的关键策略是通过聚合策略来生成顶点特征向量的同时也是模型需要学习的重要参数。我们的目标是将教师网络中已掌握的聚合函数相关知识传授给学生网络。直接对聚合函数进行蒸馏操作较为困难为了缓解这一挑战我们转而关注其输出结果——嵌入化的拓扑结构特征随后在知识传递过程中学生网络将通过对比自身嵌入与教师嵌入的空间结构来完成对知识的学习与更新

Local structure preserving

Each node possesses a local structure, specifically referring to the distribution of distances from the adjacent vertices to the central vertex.

在这里插入图片描述

对于每一个顶点而言,在其局部结构中生成了一个向量表示(服从某种分布)。通过计算学生网络与教师网络所提取的局部结构分布之间的KL散度值来评估它们的一致性。然后将所有顶点计算所得局部结构相似性的平均值作为保持局部结构损失函数的基础。

在这里插入图片描述
在这里插入图片描述

Dynamic Graph

动态图:顶点特征或边连接状态发生演变的图示。DGCNN获取新特征后将进行重构更新。每一层中都会依据每个顶点寻找其K个最近邻进行重构优化。
针对动态图中的局部结构保持机制,在教室与学生模型间添加虚拟边以整合两者的特征联系。这样我们考虑的边集即为两个生成图边集的并集。

全部评论 (0)

还没有任何评论哟~