Advertisement

【KD】2022 KDD Compressing Deep Graph Neural Networks via Adversarial Knowledge Distillation

阅读量:

目录

1 摘要

2 方法

2.1对抗性知识蒸馏图神经网络框架

2.2 节点表示对抗

2.3 输出分数对抗

3 实验结果

4 参考


0 简介

中国科学技术大学人工智能研究所王杰教授团队发表在KDD 2022上关于图神经网络的文章:《Compressing Deep Graph Neural Networks via Adversarial Knowledge Distillation》。深度图神经网络(GNN)已被证明在建模复杂图结构数据方面具有很强的表现力。然而,这种过度堆叠的架构使其难以在移动或嵌入式系统上进行部署和快速测试 。为了压缩 over-stacked GNN,通过师生架构进行知识蒸馏被证明是一种有效的技术, 其关键步骤是使用预定义或固定的的距离函数来衡量教师和学生GNN之间的差异,但在结构、大小不同的网络数据中,这种距离(如KL散度、欧氏距离)不能很好地衡量教师和学生GNN学习的差异。因此,作者提出了一种新型的对抗性知识蒸馏框架GraphAKD,通过对抗性训练判别器和生成器来自适应地检测和减少差异 。在节点级和图级 分类基准数据集上的实验表明,GraphAKD可以将知识从复杂的教师GNN转移到紧凑的学生GNN,显著提高了学生GNN的表现。

1 摘要

深度图神经网络(GNN)在建模大规模图结构数据方面具有很强的表现力。下图反映了模型性能与图大小(即图中的节点数)的关系。可以发现,在大规模图上,深度、复杂的GNN明显优于浅层模型,反映了过度参数化 GNN的优越性能。然而,这种过度堆叠架构不可避免地会降低GNN的参数和时间效率,使得它们不适用于计算受限的平台,如移动或嵌入式系统 。为了压缩深度GNN并保持其表达能力,作者探索了图域中的知识蒸馏技术。知识蒸馏将复杂的模型(教师)的学习行为转移到较小的模型(学生),教师产生的输出被用作训练学生的“软目标”,一般用KL散度等预定义的距离函数监督学生学习教师的概率分布。传统的 知识蒸馏框架强迫学生GNN使用固定的距离函数来模仿教师GNN,但对各种结构的图使用相同的距离可能不合适 ,且难以确定最佳的距离公式。为了解决这一问题,作者提出了一种对抗性的知识蒸馏框架GraphAKD,将学生GNN作为生成器,教师GNN的输出作为正样本,构造一个辨别器判断学生GNN的输出是否与教师GNN的一致,用生成对抗损失代替KL散度使得学生GNN能够生成更接近教师GNN的表示。 此外,作者使用了可训练的拓扑感知判别器同时批评来自节点级和类级视图的继承知识。

2 方法

2.1对抗性知识蒸馏图神经网络框架

GraphAKD的模型框架如下图所示。通过对抗性地训练学生GNN模型对抗拓扑感知辨别器,这里学生GNN用作生成器并生成类似于教师GNN输出的节点嵌入和 logits(预测分数\概率),而判别器旨在区分教师输出和生成器生成的内容。这种极小极大博弈确保了学生GNN通过对抗性损失可以很好地模拟教师GNN知识的概率分布。

2.2 节点表示对抗

通过对目标函数进行最大化和最小化的交替操作,最终得到了收敛时具有表现力的学生GNN。这里,

相当于一个双线性评分函数计算两个表示的相似度,

为图级表示(summary)和节点级表示(patch)之间互信息的最大化。Max: 让判别器能够最大化地判别出生成器的节点表示是来自于教师GNN还是学生GNN;Min: 要求生成器能够最小化教师表示与生成表示(学生)的差异。

2.3 输出分数对抗

除了节点级别的生成对抗,作者基于输出的类别概率也设计了生成对抗 。概率logits是通过对最后一个全连接层的输出应用softmax得出的。通过利用对抗训练,旨在将类间相关性从复杂的教师GNN转移到紧凑的学生GNN,而不是KL散度完全强制学生模仿老师。由于残差链接可以减少教师GNN和学生GNN之间的差距,使用带有残差连接的MLP作为logit的鉴别器

,输出为一个C+1维向量,C等于logits的类别数,1用于揭示得到的logits是来自教师GNN还是学生GNN。为了使教师GNN和学生GNN的输出类别对齐,保证学生GNN的预测结果与教师GNN的一致,优化如下目标函数:

此外,为了使教师GNN和学生GNN的输出在实例级别对齐,保证教师和学生的预测结果与真实标签一致,还设计了一个损失函数:

3 实验结果

实验环节中,作者选取GCNII作为教师网络模型,简单的GCN、GIN作为学生网络模型,在3个公开图数据集上与多种先进知识蒸馏方法进行了对比,结果验证了GraphAKD 的先进性能,且通过这种方式训练的学生GNN获得了比教师图模型更有竞争力甚至更好的结果,而具有更少比例的参数和更少的时耗。

更多更详细的实验结果和方法推导请查看原文。

文章地址

https://arxiv.org/abs/2205.11678

代码地址

TencentYoutuResearch/HIG-GraphClassification

4 参考

通过对抗性知识蒸馏压缩深度图神经网络

全部评论 (0)

还没有任何评论哟~