【论文阅读|ICLR2020】Strategies for Pre-training Graph Neural Networks
代码位置: https://github.com/snap-stanford/pretrain-gnns/
论文链接:https://arxiv.org/abs/1905.12265v2
0 摘要
机器学习在许多实际应用场景中都依赖于一个模型来提供精确的预测结果,在面对分布于训练样本之外的测试样本时表现出色。然而,在训练过程中若特定任务的标注信息极为有限,则这一挑战就显得尤为突出。针对这一问题提出的一种有效策略是,在数据资源丰富的相关领域中进行预训练工作,并将这种经过广泛学习的知识转移至选定的目标下游任务上去进行微调优化。尽管这种预训练方法在语言处理和视觉分析等多个领域都取得了显著成效,但将其成功地应用到图数据集上仍然是一个亟待解决的关键难题。
本文:
提出了一种新的策略和自监督方法来预训练图神经网络 (GNN)
针对每个单独节点以及整体图结构进行训练,从而构建一个具有效应iveness的GNN模型,这样该模型能够有效地提取局部特征信息的同时也能捕捉到全局语义特征
在这种图或单个节点级别的GNN预训练策略仅能带来有限效果,并可能引起许多下游任务中负面迁移的结果。然而我们提出的新策略成功地抑制了负迁移现象 并明显提升了 downstream 任务的整体泛化能力 通过与非预训练模型相比 实现了一项重要突破 ROC-AUC指标绝对提升了9.4% 并达到了分子特性和蛋白质领域中最先进性能预测的标准
1 介绍
预训练方法可能通过两种图数据集上的基础学习问题提供有吸引力的解决方案。
特定任务的标注数据可能存在严重短缺。
来自实际应用的图数据常包含分布在外的样本,
这表明训练集中的图在结构上与测试集中的图存在显著差异。
本文:
- 我们对GNN的预训练策略展开了首次全面的研究。
- 我们开发出一种高效的GNN预训练方案,并经实验验证其有效性及在复杂迁移学习中的分布外泛化能力。其核心理念在于利用易于获取的节点级别的特征信息,并促进模型同时捕捉节点与边域内的专门领域知识以及图结构的整体特征。
该GNN模型在全局层与局部层都能够提取出有实用价值的表征(图 1 (a.iii))。此外,生成稳定的且能够在不同下游任务中表现稳定的图级表示是一个关键目标(图 1)。相比之下,我们提出的方法与仅基于图层属性或节点层属性的方法有着显著的不同

3 图神经网络预训练的策略
我们的预训练策略的核心机制是基于单个节点及全局图层次对GNN概念进行系统性预训练。该概念通过多级编码机制促使GNN在不同层次上提取领域相关的语义信息。此方法与传统直接式有限域的GNN架构存在显著差异,在对比中展现出更为全面的能力框架。具体而言,在这一框架下有两种不同的实现路径:一种是基于全局属性预测的整体图属性分布模型(如图1(a.ii)所示),另一种则是基于局部节点属性预测的单体化模型设计(如图1(ai)所示)。
3.1 节点级别预训练
在GNN的节点级预训练任务中,我们提出了一种创新方法,基于易于获取的无标签数据来提取图中的领域知识和规则。这种方法通过提出两个方案——上下文预测和属性mask——实现了对图结构信息的有效学习。
3.1.1 上下文预测:利用图结构的分布
在上下文中进行预测时, 我们基于子图来分析其周围的图结构. 我们的目的是先对GNN进行预训练, 并使位于相似结构背景下的节点能够被映射到邻近的嵌入空间中.
Neighborhood and context graphs
我们定义了节点的context graph为在其邻域范围内围绕着v的图结构。这些超参数通过r_1和r_2来表征,在其周围区域跨越从v出发到经过$r_1步扩展到r_2`步的距离。

我们称同时存在于相邻节点及其所属上下文图中的那些共同节点为context anchor nodes(上下文锚节点)。这些锚点承担了关于相邻体系及其与上下文图之间互动的关键角色。
Encoding context into a fixed vector using an auxiliary GNN
为了实现对context graph的理解并生成其固定的向量表示,在本研究中我们开发出了一种辅助模型 termed as context GNN. 通过聚合其对应的锚点表示来计算其上下文特征. 在该框架下, 我们将图中的每个节点v在该图中的上下文特征定义为其对应的锚点表示集合经过聚合操作的结果.
Learning via negative sampling
基于上下文的预测目标是将某个领域中的特定context graph归类于该节点。
\sigma(h_v^{(K)T} c_{v'}^{G'}) \approx 1 \{ v \ and \ v' \ are \ the \ same \ nodes \}
正样本:v' = v, \ G' = G
负样本:随机选择节点v'和随机选择图G'
我们采用1:1的负样本采样比例,并以负对数似然作为损失函数进行训练。经过预训练后,继续沿用主图神经网络作为我们的预训练模型。
3.1.2 属性掩蔽:利用图的属性分布
在进行图结构的研究时,在属性掩蔽中我们关注的是节点和边的各种特性
Masking node and edges attributes
为了实现对节点及其关联属性的有效预测,在此研究中采用了一种掩蔽机制。具体而言,在实验过程中采用随机的方式对输入数据中的节点及其关联边的特征进行掩盖处理。其中,在实验过程中采用随机的方式对输入数据中的节点及其关联边的特征进行掩盖处理。随后通过构建基于图神经网络的方法模型框架……
不同于Devlin等人(2019)不仅在句子层面进行处理,并且在标记的全连接图框架内实施消息传递机制,在非全连接图架构中我们则选择进行相应的处理
此外,我们允许屏蔽边缘属性,超越了屏蔽节点属性的范围。
3.2 图级别预训练
我们的目标是通过预训练GNN生成高质量的图嵌入这些嵌入由先前获得的重要节点特征构成我们致力于使节点与图的整体达到高水准从而保证了模型在各种下游任务中的适用性从两个角度开展预训练工作:一方面关注整个图在特定领域的属性预测;另一方面则聚焦于整体结构的学习
3.2.1 有监督的图级别属性预测
考虑到图级别表示h_G在下游预测任务中的微调应用效果显著,在此背景下为了更好地实现这一目标,我们建议尽可能地将特定领域的信息更有效地编码到h_G中。
在该研究中我们通过构建一个基于有 supervision学习的任务框架 并在此过程中融入领域特定的知识信息 在模型的预训练嵌入阶段实现了这一目标 我们开发了一种实用且高效的多任务 监督学习框架 即用于同时优化多个与单个图表相关联的任务指标 该框架旨在针对优化多个与图表相关的 二元分类目标的需求 在该表征空间下 在每个独立的任务指标上分别采用线性分类器进行判别分析
本文提出的预训练方法论主要包含两个阶段:首先是基于节点级别的预训练步骤;接着是按照图级别逐步推进的过程。该方法能够生成更具跨领域适应性的图表示形式,并且具备抗干扰能力;从而显著提升了下游应用任务的表现水平;无需依赖人工选择传统的监督式预训练方案。
3.2.2 相似性结构预测
我们的目标是建立两个图之间结构相似性的模型。这类建模任务不仅涉及通过编辑距离量化差异(即计算两幅图像之间的最小修改次数),还关注于预测两幅图像间是否存在高度相似的子结构。然而,在大规模数据集上准确估计真实的图形间距离仍然面临诸多挑战,并且需要处理大量节点组合的可能性。尽管这一预训练方法虽然简单直观,并不在这篇文章的研究范围内;但超出了当前研究范畴;我们将其留作未来研究的方向。
3.3 概述:预训练GNN和针对下游任务的微调
总体而言,在进行预训练任务时,我们首先采用了节点级别的自监督学习方法。随后,在这一基础上进一步实施了图级别上的多任务监督学习策略。完成这一系列的预训练工作后,在后续的研究过程中我们发现,在下游应用中对经过全面优化的GNN模型进行参数微调能够显著提升其泛化性能。为了使模型能够更好地识别下游任务中的图标签特征,在处理过程中我们增加了线性分类器这一关键组件。然而需要注意的是,在执行GNN前向计算的过程中所消耗的计算资源非常有限。
预训练的时间复杂度
在这里
4 进一步相关工作
关于图内单个节点的无监督表示学习有丰富的文献,大致分为两类。
- 该方法不仅依赖于局部随机游走的目标方法,还结合了重建图邻接矩阵的技术。
- 设计一个节点编码器,使其间的信息互惠达到最大值。
这些方法都促使附近节点生成类似的嵌入表示,在最初的目的是为了解决节点分类和链接预测问题的基础上被提出并进行了评估。然而,在图级预测任务中这可能不是最佳选择,在这种情况下捕捉局部邻域的结构性相似性往往比捕捉全局拓扑结构中的位置信息更为关键。
近期研究也深入分析了节点嵌入在跨任务学习中的应用。
该文提出的方法通过针对GNN预训练任务的有效应对各种挑战。这些任务通过共享参数的方式表示或处理包括图结构特征在内的图级别与节点级别的依赖关系与组织架构。
5 实验
5.1 数据集
数据集预训练
两个领域数据集:
-
化学领域内的分子特性分析
-
基于ZINC15数据库提取了200万个未标注的分子样本,并对该集合进行了节点级别的自我监督预训练
-
在图级别的多任务监督预训练过程中,我们采用了ChEMBL数据集作为基础,并构建了一个包含456,000个不同类型的分子的数据库。该数据库涵盖了广泛且多样化的生物活性测定指标。
-
生物信息学领域中对蛋白质功能的预测研究
-
基于图神经网络架构,在包含约39.5万个节点(protein ego networks)的无标签蛋白相互作用网络中进行无监督学习以实现蛋白质功能预测
-
通过在包含约8.8万个节点(protein ego networks)的小样本、高保真标签蛋白相互作用图中执行有监督学习任务以实现图层面多任务预测,并可推导出粗粒化生物功能类别
