【KD】2022 ICLR Cold brew
目录
简介
Introduction
本文主要的方法
TEACHER MODEL
STUDENT MLP MODEL
从标签平滑的角度解释模型
实验
结论
参考
简介
「题目」 :COLD BREW: DISTILLING GRAPH NODE REPRESENTATIONS WITH INCOMPLETE OR MISSING NEIGHBORHOODS
「作者」 :Wenqing Zheng, Edward W Huang, Nikhil Rao, Sumeet Katariya, Zhangyang Wang, Karthik Subbian
「论文链接」 :https://openreview.net/forum?id=1ugNpm7W6E
「代码」 :https://github.com/amazon-research/gnn-tail-generalization

图 1:顶部:节点可能表现出长尾分布特征,其中大部分节点(以黄色表示)几乎未连接。底部:在真实世界的数据集中,长尾分布的特性限制了现有图神经网络在尾部/冷启动节点上的适用性。
Introduction
图神经网络 (GNN) 在多种关键任务中展现出卓越的效果。大多数 GNN 主要基于消息传递机制,通过从每个节点的(多-hop)邻域聚合特征来完成任务。其成功得益于网络中存在密集且高质量的连接。
但是,许多现实世界图中都存在长尾节点的度分布问题。具体而言,节点的度分布呈现出幂律分布的特征,其中大部分节点的连接数量相对较少。在信息检索和推荐等应用领域中,会遇到严格的冷启动问题,即某些节点缺乏连接边。值得注意的是,预测这些节点相较于图中的尾节点更具挑战性。「在这些情况下,由于邻域的稀疏性或缺失,现有的GNN模型在处理这些节点时效果欠佳。」
在本文中,研究者开发出了一个具有强大归纳能力的图神经网络(GNN)模型:该模型能够为图中的独立节点生成可靠的节点表示。这一能力对于充分利用具备长尾分布和大量孤立节点的现代工业规模数据集的潜力至关重要。
该方案通过解决两个核心问题实现了教师知识的有效提炼与学生知识的获取。具体而言,该方案通过提取教师的知识以支持尾部和冷启动任务,以及帮助学生更好地利用这些知识进行学习。研究者采用知识蒸馏技术学习潜在的节点嵌入,这一方法既避免了'过度平滑'现象,又成功发现了潜在的邻域结构。值得注意的是,**SCS节点在这一过程中缺乏这些关键特征。**与传统的知识蒸馏方法(Hinton et al., 2015)相比,本文的研究目标并非训练一个更为简单的学生模型来模仿教师的执行能力。相反,我们致力于构建一个能够超越教师模型,在泛化能力(包括尾部任务或SCS样本)方面表现更优的学生模型。
此外,为了辅助选择适合冷启动的模型架构,作者提出了一个指标,称为特征贡献率 (FCR),用于评估节点特征在特定下游任务数据集中对邻接结构的贡献程度。FCR不仅反映了推广到尾节点和冷启动节点的难度,还指导了在 Cold Brew 中教师和学生模型架构的选择原则。
本文主要的方法
本文的核心观点在于:GNN 通过将节点特征映射到 d 维嵌入空间,尽管节点数量 N 远大于嵌入维数 d,这使得该空间成为一个过完备的集合,其中嵌入被视为基础元素。这表明,每个节点的表示都可以表示为 K 个现有节点表示的线性组合,其中 K 远小于 N。本文旨在训练一个学生模型,该模型能够精确识别出目标孤立节点的最优 K 个现有节点嵌入。将这一过程命名为潜在或虚拟邻域发现,并指出其等同于使用多层感知机(MLP)来模仿教师 GNN 学习的节点表示方式。
该研究团队开发了一种知识蒸馏程序,致力于优化尾部节点和冷启动节点的嵌入性能。通过教师 GNN 模型,借助图结构将节点嵌入映射到低维流形。学生模型的目标是学习从节点特征到该流形的映射关系,无需关注教师所拥有的图结构。此外,目标是使学生模型能够应用于教师模型失败的 SCS 案例,而不仅仅是在标准知识蒸馏框架下模仿教师行为。

冷启动设置下Cold Brew框架的师生知识蒸馏

决定 GNN 输出的四个 GNN 原子组件,用于 FCR 分析
TEACHER MODEL

GNN 通常会经历过度平滑现象,导致节点表示之间变得过于相似。受 Transformers (Vaswani et al., 2017) 中位置编码的启发,本文通过训练教师型 GNN 学习一组附加的额外节点嵌入,命名为结构嵌入 (SE)。结构嵌入 (SE) 通过梯度反向传播机制,不仅学习原始节点特征(如半监督学习中的节点标签),还捕获了额外的信息。结构嵌入 (SE) 的存在有效避免了 GNN 中的过度平滑现象,因为每个节点的变换过程均基于其独特的 SE,从而确保了特征变换的多样性。

SE-GNN 使节点能够通过编码自身标签信息及其邻居标签信息来生成节点嵌入。本文采用Kipf与Welling提出的Graph Convolutional Networks,并结合了最新文献中提出的几个关键组件,具体包括:第一类是初始连接、密集连接和跳跃连接,第二类是批处理归一化、对齐归一化、节点归一化和组归一化,这些技术构成了冷 brew风格的图神经网络教师型模型。在模型训练过程中,作者引入了正则化项以优化损失函数,最终形成了以下损失函数:

STUDENT MLP MODEL
本文将学生建模为由两个MLP模块构成。对于任意一个目标节点,第一个MLP模块能够生成与GNN教师相似的节点嵌入。随后,对于任意节点,从图中提取该节点的一组虚拟邻居。最后一步,第二个MLP结构同时考虑目标节点及其虚拟邻域,并将这些信息转换为所需的嵌入表示。
从标签平滑的角度解释模型
(Wang & Leskovec, 2020)定理1表明,标签预测的误差与邻域聚合后特征的差异程度密切相关:当差异程度较大时,标签预测的误差也会显著增大,反之亦然。具体而言,该定理可以表示为:误差的大小取决于差异的大小,即差异越大,误差越大,反之亦然。具体定理如下:

从该定理的角度来看,我们也能看出引入类似 Cold Brew 学生模型的邻域聚合机制具有必要性。
实验

选择用于评估的数据集的统计数据
GNN在"头/尾"和"头/孤立"分割方式上的性能表现差异。具体而言,"尾部/孤立"节点特指图中10%度数最低且高度隔离的节点。

对不同数据集进行隔离和尾部分裂的性能对比分析,附录C详细列出了头、尾、隔离以及整体数据的完整对比。GCN+SE双层结构被设计为Cold Brew教师模型的基础架构。Cold Brew教师模型在隔离拆分任务中表现优异,尤其在某些尾部拆分任务中达到最佳性能,显著优于GNN架构和其他MLP基线模型。
结论
本文探讨了将图神经网络(GNN)推广至尾部节点和严格冷启动节点的问题,这些节点的邻域信息要么稀疏/嘈杂,要么完全缺失。作者构建了一个师生知识蒸馏过程,以期更有效地推广到孤立节点。在GNN层中,引入了一组独立的结构嵌入以缓解节点过度平滑问题,并为学生模型构建了一个虚拟邻居发现机制,以聚焦潜在邻域。此外,提出了FCR指标,用于量化真正归纳表示学习的难度,并在此基础上优化了模型架构设计。实验结果表明,提出的方法在公共基准数据集和专有数据集上均展现了显著的优越性能。
