图神经网络(二十四) STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS, ICLR 2020
本文作者分别来自斯坦福大学、爱荷华大学以及哈佛大学。
类似于Bert的方法, 该研究通过分别对单个节点和整个图进行预训练来构建一个GNN模型, 从而让GNN能够同时捕捉到局部和全局的信息, 并针对后续的任务进行优化。
然而, 在对整个图或单个节点进行gnn预训练时, 所获得的改进有限, 并可能对许多后续任务产生负面影响。
我们提出了一种同时对节点及其关联图进行联合预训练的方法, 这种方法能够有效避免负迁移现象, 并显著提升了 downstream任务的表现。

(a.i)仅采用基于节点级别的预训练策略时,则能够有效地区分具有不同语义特征的不同形状之下的所有类型之别;然而由于单个嵌入层无法实现特征间的组合运算,则基于池化操作得到的所有嵌入信息(此处用+表示增益与-表示损失)将形成一个不可分割的整体结构。类似地,在(a.ii)所讨论的方法中同样存在模型难以区分不同类型之现象;本文则提出了一系列创新性的监督学习方案:即Context Prediction、Attribute Masking以及附带监督属性预测等技术框架;这些方法不仅支持基于单个节点级别的预训练任务;还进一步拓展至整个图结构层面的支持机制。
具体而言:
-
本文的主要贡献包括:
- 提出了一种新的监督学习框架;
- 提出了另一种有效的属性预测方法;
- 建立了多模态数据处理的新思路。
-
具体来说:
- 本研究工作主要围绕以下两个方向展开:一是探索如何通过多模态数据融合提升模型性能;二是优化现有监督学习框架以适应复杂数据场景的需求。
-
开发出两个大规模的预训练数据库,并将其无私地奉献给学术界;其中一个是包含200万幅化学图像的数据库;另一个则包含了39.5万幅生物图像的数据集;此外我们发现;高度特化的领域数据对于预训练研究至关重要;而现有的下游基准数据量过小;无法提供足够的统计支持。
-
提出一种创新性的预训练策略,并成功验证了其在迁移学习中的有效性以及在外部分布下的泛化能力。
STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS
NODE-LEVEL PRE-TRAINING
基于节点数据的预训练任务中,该研究引入了两种新方法:上下文预测和属性遮蔽。

Context 被定义为从中心节点到r_1和r_2 hop之间的图结构(从图中可以看出就是不同子图),并在实际应用中设定r_1 = 1和r_2 = 4。在实际训练过程中,要求r_1 < K以便于在邻居节点与上下文图之间共享一些节点(称为上下文锚点)。这些锚点提供了关于相邻子图与其关联的上下文信息。为了实现基于Context的知识推理,在这里我们使用ContextGNN模型获取上下文子图中的节点表示;随后将这些锚点的表示进行加权平均以生成context embedding,并将其记为c_v^G。具体而言,在学习目标方面,我们需要对特定邻域大小K以及特定上下文子图是否与同一个中心节点相关联进行二分类判断。

其中h_v^K是在图上执行了K次卷积操作后的表示,并且该表示代表了节点v周围范围为K的邻域特征进行聚合。通过比较节点vtj$k阶邻域特征与整体上下文特征之间的相似度关系来判断两个节点是否相同:处理不仅依赖于相同的结点属性值,并且还考虑到了来自不同图中节点的情况。为了平衡正样本和负样本之间的差异,在负抽样过程中将负抽样比例设置为1:1的比例关系:也就是用一对真实存在的节点作为正样本,并用一对非相同节点作为负样本来进行对比学习;之后利用交叉熵损失函数来进行优化计算:在完成整个预训练过程后将主要关注点放在训练得到的K邻域信息提取器上;该提取器被成功地保留下来并作为我们后续研究的核心组件。
GRAPH-LEVEL PRE-TRAINING
在图级预训练中存在两种主要选择:一种是基于领域特定属性(如监督标签)的任务进行全局性预测;另一种则是直接对图结构进行建模与分析。
EXPERIMENTS



实验的结果如下:
- 表2的数据表明,在经过了系统的预训练阶段后,在GIN架构中获得最佳性能是最优选择。相比之下,在GIN架构下的预训练表现虽然良好但因为所使用的gnn(包括GCN、GraphSAGE和GAT)质量较低而带来的收益不如前者显著(表2)。
- 从表1倒数第五行以及图3的第一幅图突出显示区域来看,在仅进行图级别预训练的情况下效果并不理想甚至可能导致负面迁移。
- 表1上半部分及图3左面板中可以看出另一个基准策略即仅进行节点级别的自我监督预训练其在性能提升方面也只能提供有限改善与基于图级别的多任务监督策略相当。
- 结合型预训练策略不仅避免了下游数据集间的负面影响还能达到最佳性能水平。
- 此外从表1和图3左面板的数据可以看出我们的方法在预测性能上不仅优于上述两种基准预训练策略以及未进行任何预训练模型而且在实际应用中表现出更强的优势。
- 除了预测性能上的提升之外图4清晰展示了我们的方法相较于传统非预训练模型在收敛速度上有着显著的优势例如在MUV数据集上未经任何优化处理的传统GNN需要耗费一个小时内才能达到74.9%的验证集ROC-AUC值而经过我们系统的优化后只需5分钟即可轻松突破85.3%的验证集ROC-AUC值类似的趋势也体现在附录I中的其他数据图表中值得注意的是我们强调的是一次性完整的预训练工作一旦完成该模型便能够无缝衔接并支持任意数量后续任务从而实现少量迭代后的显著性能提升。

