【论文解读|AAAI2021】HGSL - Heterogeneous Graph Structure Learning for Graph Neural Networks 图神经网络的异构图结构学习
文章目录
-
1 摘要
-
2 引言
-
相关工作
-
3 方法
-
-
3.1 特征图产生器
-
- 3.1.1 特征相似图
- 3.1.2特征传播图
-
3.2 语义图生成器
-
-
4 实验
-
5 结论
论文链接: http://shichuan.org/doc/100.pdf
代码链接: https://github.com/Andy-Border/HGSL
作者:来自北京邮电大学的研究人员赵建安等
参考阅读: https://mp.weixin.qq.com/s/hAmJdKItK8BljVGEtnU7AA
作者另一篇: [Citation data="100"]
另一篇关于图结构学习的方法 [Citation data="HGSL"]
1 摘要
异构图神经网络(HGNNs)近年来受到越来越多的关注,并在许多任务中取得了优异的性能。现有人类神经网络的成功依赖于一个基本假设,即原始的异构图结构是可靠的。然而,这种假设通常是不现实的,因为现实中的异构图不可避免地会有噪声或缺失的问题。因此,如何为异质图神经网络学习一个合适的图结构而不是依赖于原始图结构是一个关键问题 。为解决这一问题,本文首次研究了异质图结构学习(Heterogeneous Graph Structure Learning)问题,并提出了HGSL框架来联合学习适合分类的异质图结构和图神经网络参数。HGSL 通过挖掘特征相似性、特征与结构之间的交互以及异质图中的高阶语义结构来生成适合下游任务的异质图结构并联合学习 GNN参数。三个数据集上的实验结果表明,HGSL 的性能优于基线模型。
2 引言
许多真实世界的数据具有图结构,例如社交媒体图、文献引用图。图神经网络(GNN)作为一种处理图数据的强大深度表示学习工具被广泛地应用于节点分类、图分类以及推荐等下游任务中。最近,随着真实世界中异质图应用的激增,学者们提出了异质图神经网络(HGNN),并在一系列应用上取得了优越的效果。
大多数HGNN遵循一种消息传递(message passing)机制,其中节点的表示通过聚合和转换其原始邻居或基于元路径邻居 的信息来学习。然而,这些方法依赖于一个基本假设,即原始异质图结构良好且适合下游任务。然而,这种假设因为以下原因经常不成立。首先,由于异质图通常是根据一些预先定义的规则从复杂的交互系统中提取得出,这些交互系统本身不可避免地包含了一些不确定的信息或错误。以推荐中的用户-物品图为例,用户可能会误点一些不需要的物品,给图带来噪声信息。其次,异质图的提取通常要经过数据清洗、特征提取和特征转换等过程,这些过程通常与下游任务无关,导致提取的图结构与下游任务之间存在差距。因此,为GNN学习适合下游任务的异质图结构是一个重要的问题。
最近,为了自适应地学习gnn的图结构,图结构学习(GSL)方法(Franceschi et al. 2019;Jiang et al. 2019;Chen, Wu, and Zaki 2019;Jin等人2020)提出,其中大部分对邻接矩阵进行参数化,并将其与GNN参数一起对下游任务进行优化。然而,这些方法都是针对同构图设计的,不能直接应用于异构图,面临以下挑战:(1)异构图中的异构性当学习只有一种关系类型的同构图时,我们通常只需要参数化一个邻接矩阵。然而,异构图由多个关系组成,每个关系反映异构图的一个方面。因为统一对待这些异质关系必然会限制图结构学习的能力。如何处理这种异构性是一个具有挑战性的问题。(2)异构图中的复杂交互。不同的关系和节点特征具有复杂的交互作用,这推动了不同类型的底层图结构的形成(Zhang, Swami, and Chawla 2019)。此外,不同关系的组合进一步形成了大量语义各异的高阶关系,这也意味着不同的图生成方式。这些因素都会影响异构图结构,因此在异构图结构学习中必须充分考虑这些复杂的交互作用。
在本文中,我们首次尝试研究图神经网络的异构graphstructurelearning,并提出了一个新的框架HGSL。在HGSL中,联合学习异构图和GNN参数,以提高节点分类性能。特别是在图学习部分,为了捕获不同关系生成的异构度量,对每个关系子图分别进行学习。具体来说,对于每个关系,通过挖掘异构节点特征和图结构中的复杂关联,生成三种类型的候选图,即特征相似图、特征传播图和语义图。学习到的图进一步融合为异构图并馈给GNN。对图学习参数和GNN参数进行联合优化,达到分类目标。我们的主要贡献如下:
- 恰当的异构图结构是HGNN成功的基础保障。
- 我们首次系统性研究了如何通过GNN优化下游任务所需的最优异构图结构。
- 提出了一种新型异构图神经网络,在其架构中整合了特征相似图、特征传播图以及语义图等三种典型结构。通过这种多维度融合方式优化GNN性能。
- 通过在三个真实世界数据集上的系统性实验评估表明,在保持模型复杂度的同时显著提升了HGSL性能。
本文首次系统性地开展异质图结构的学习研究,并提出了一种创新性的异质图结构学习框架HGSL。基于下游任务对异质图结构与GNN模型参数展开协同优化策略设计。在具体的图结构学习模块中,在每一种关系子图的学习过程中都进行了深入的探索与优化。具体而言,在每一种特定的关系类型中均通过深入挖掘节点间复杂关联信息并提取多维特征表征的基础上生成特征子图以及语义子图,并结合原始全局拓扑关系构建可适应性增强的融合表示空间作为输入信号供 downstream GNN模型进一步训练完成特征提取与预测任务。最终通过整合优化策略实现节点分类目标
相关工作
图神经网络(GNN)
目前的GNNs一般可以分为两类:光谱GNNs和空间GNNs(吴等2019b)。具体来说,谱GNNs基于图谱理论学习节点表示。例如,(布鲁纳等人2014)通过图拉普拉斯算子设计了傅立叶域中的图卷积运算。然后,ChebNet (Defferrard,Bresson,and Vandergheynst 2016)利用切比雪夫多项式作为卷积滤波器来提高效率。GCN (Kipf和Welling 2017)通过使用其一阶近似简化了ChebNet。此外,(Wu等人,2019a)将图形卷积简化为线性模型,并且仍然获得竞争性能。空间神经网络直接在图上定义卷积运算,利用空间上的近邻。例如,GAT (Velickovic等,2018)用注意机制聚集邻域表示。GraphSAGE (Hamilton,Ying和Leskovec 2017)通过聚集来自采样邻居的信息来执行归纳图卷积。为了提高效率,FastGCN(陈、马和肖2018)对每个卷积层执行重要性采样。读者可以参考这些详细的调查(张,崔,朱2018;吴等2019b)进行了彻底的审查。
异构图神经网络(HGNN)
异构图神经网络是为处理无处不在的异构数据而提出的。一些HGNNs直接在原始异构图上进行图卷积。HGAT用注意机制聚集节点和类型层次信息进行短文本分类。HetGNN通过随机游走对异构邻居进行采样,然后聚合节点和类型信息。为了解决元路径选择难题,HetSANN利用注意机制聚集投影节点的多关系信息。NSHE(赵等2020a)保留了两两和网络模式结构。HGT(胡等,2020)采用基于元关系的相互注意来实现信息传递的异源图和元路径。其他HGNN方法使用元路径生成图,然后应用GNN。GraphInception(张等,2018)将图卷积应用于基于元路径的同构图,以执行集合分类。HAN(王等,2019b)将节点级和语义级注意力应用于基于元路径的图。(云等,2019)通过堆叠多个图形转换器层来执行元路径生成,然后执行图形卷积。MAGNN (Fu等人,2020)对元路径实例应用元路径内和元路径间聚合。
图结构学习(GSL)
为了减轻GNNs依赖于原始图结构的良好质量的限制,已经做了一些努力(张等2019b郑等2020;杨毅、纪2019;赵等2020b王等. 2020cPei等人,2020年)。除了这些努力之外,最近还提出了图结构学习。GSL方法旨在联合学习图结构和GNN参数。为了说明,LDS (Franceschi等人,2019)将邻接矩阵内的每条边建模为一个参数,并以双层方式将它们与GNN参数一起学习。(姜等,2019)从节点特征生成基于相似度的图结构。IDGL(陈,吴,扎基2019)迭代地学习这些度量以从节点特征和嵌入生成图结构。ProGNN(金等2020)联合学习参数和具有图性质的鲁棒图结构。然而,前面提到的这些GSL方法都是为同构图设计的。
3 方法

3.1 特征图产生器
由于原始图在下游任务中可能并非最佳选择

3.1.1 特征相似图
基于特征相似性的图...通过计算节点之间的相似度来构建为一个图结构...表示任意一对具有较高相似度的节点之间可能存在一条潜在连接。

3.1.2特征传播图
通过特征与拓扑之间的互动构建特征相似图,在此过程中我们选取了一个具体的案例来进行深入剖析以助于理解这一机制。具体而言当用户A看过电影X且与用户B具有较高的相似度时,则推测用户A可能会对与电影X相关的其他电影产生兴趣这种潜在关系即形成了一条潜在边基于此我们可以分步构建这一潜在关系网络首先找出所有具有较高相似度的节点对随后利用拓扑信息进行传播从而完成整个构建过程类似地在HGSL模型中也是遵循这一流程以构建特征传播关系

3.2 语义图生成器

基于HIN的高级拓扑架构构建语义网络,并深入揭示了节点间复杂的多层连接关系。值得注意的是,在异构图中这些高级关联呈现出独特性——由于元路径所定义的不同语义特征,在异构图中这些高级关联呈现出独特性

4 实验
数据集 :
DBLP
ACM
Yelp

Baseline
四种同态图嵌入技术:DeepWalk、GCN、GAT和GraphSage
四种异态图嵌入技术:MP2Vec(Heterogeneous Graph Neural Network) 1, HAN(Heterogeneous Attention Network) 2, HeGAN(Graph Energy Generative Adversarial Network) 3 和 GTN(Gated Transformer for Network Representation) 4
三种基于图结构的学习算法:LDS(Locality and Spectral Diffusion), Pro-GNN(Progressive Graph Neural Networks) 和 Geom-GCN(Geometric Graph Convolutional Networks)
节点分类结果

消融实验

参数分析

5 结论
在本文中, 我们首次进行了一项系统性探讨关于面向神经网络的异构图结构学习, 并开发出了一种创新性框架命名为HGSL。该框架通过有机整合异构图结构与神经网络参数来实现对分类目标的学习, 并且在此过程中我们充分挖掘了异构图内部复杂的相互作用关系。值得注意的是, 在此过程中我们系统性构建并综合运用了三种关键类型的图表: 特征相似度图表、特征传播图表以及语义关联图表, 从而有效地构建出最优适应于分类任务的最佳构造模式。进行了大量实验, 包括节点分类实验、消融研究以及模型性能分析, 验证了该方法的有效性和可靠性
总结
本文还是比较有创新性的,首次研究了异构图结构学习
