【论文翻译】KDD2019 - HetGNN - Heterogeneous Graph Neural Network 异质图神经网络
文章目录
-
Abstract
本研究综述了异质图建模与学习领域的最新进展及其在实际应用中的潜力。 -
1 Introduction
本文旨在探讨基于异质图的数据建模与学习方法及其在复杂系统分析中的应用前景。 -
Problem Formulation
第二章详细阐述了本文所研究的问题及其数学建模框架。
2.1 The Content-associated Heterogeneous Graphs
为解决上述问题,在第二小节中我们引入了The Content-associated Heterogeneous Graphs模型。
2.2 A Heterogeneous Graph Representation Learning Mechanism
该模型通过A Heterogeneous Graph Representation Learning Mechanism实现了对异质图数据的高效处理。-
3 HetGNN
-
- 3.1 采样异构邻居
- 3.2 编码异质的内容信息
-
4 实验
-
5 相关工作
-
6 结论
-
论文题目:异质图神经网络模型Heterogeneous Graph Neural Network
论文来源:第25届国际知识发现与数据挖掘会议(KDD) 2019
代码链接:
关键词:HIN, GNN, Graph Embedding
注
注
注
摘要
在异构图中进行表示学习的任务旨在通过为每个节点生成有意义的向量来实现对复杂网络结构的理解,并为多种下游应用如链接预测、个性化推荐以及节点分类提供有效的分析工具。然而这一任务具有显著难度不仅在于整合由不同类型的节点及其关联关系所构成的多元结构信息(图)而且还需要综合考虑与每个节点相关联的具体属性或内容信息(例如文本或图像)。尽管在同质化(或异构)图嵌入属性图嵌入以及图神经网络领域已取得诸多研究进展但现有研究往往难以同时有效融合考虑每个节点自身的异构结构信息以及与其相关的异构内容信息这一关键挑战本文提出了一种名为HetGNN的新异构图神经网络模型来解决这一难题具体而言我们首先引入了一种基于重启策略的随机游走算法用于对每个节点的强相关异构邻居进行固定大小采样并根据节点类型将其划分为若干组其次我们设计了一个包含两个模块的神经网络架构用于聚合采样邻近节点特征信息第一个模块负责对异构内容进行深度特征交互编码生成针对各节点的内容嵌入第二个模块则用于整合不同邻域组(类型)的内容(属性)嵌入并对不同组的影响进行综合考虑最终得到各节点的最终嵌入最后我们通过构建一个包含上下文丢失机制的小批量端到端训练框架来优化模型参数经过大量实验验证HetGNN在多种图挖掘任务中均显著优于现有的最先进的基准模型包括链路预测推荐任务以及各种形式的节点分类任务
1 引言
异构图(HetG)囊括了多类型节点及其间的连接关系(边)信息,并整合了与每个节点相关的非结构化内容信息。
这种传统的基于预设规则的手工特征提取方式,在计算各种统计特性和内在属性时存在明显的局限性
这一趋势从早期基于同构图[6,20,29]的研究逐渐扩展到了异构图[1,4]、属性图[15,34]以及特定图[22,28]等多个领域
其中一些典型的方法包括:最初的目的就是为SkipGram模型[19]提供一组适合在异构环境下运行的随机游走采样策略
这些方法的主要特点都是直接关注于单个节点及其邻域信息的学习过程,并未充分考虑复杂的全局拓扑关系所带来的潜在影响
- 在Heterogeneous Graph (HetG)中存在多个限制性条件:一方面许多实际场景中的实体难以被建模为一个单一的统一类型;另一方面传统的深度学习模型难以处理多样化的特征类型。
- 为了更好地适应复杂的现实需求,HetG中的各个实体不仅需要能够承载不同类型的内容(如属性、文本或图像等),还需要考虑到与不同实体之间关联的具体内容类型也存在差异。
- 这就要求我们解决第二个问题:即如何设计一种既能有效捕捉不同类型信息特征又能在复杂场景下实现稳定性能提升的数据表示方法。
- 从实验结果来看,现有的基于图神经网络的方法主要针对的是同质化的场景,这种假设在面对异质性数据时往往会导致性能下降。
- 因此,第三个关键问题就是:如何设计一种能够有效融合异构关系信息并实现自适应推理能力的方法。

为了应对这些挑战,在Heterogeneous Graph领域中开发了一种称为HetGNN的新模型
- 首先引入了一种具有重启机制的随机游走策略,并从HetG中为每个节点有目的地采集固定数量强关联的不同源邻居。
- 接着构建了一个由两组组件组成的异质图神经网络(Heterogeneous GNN),用于整合各层异质图数据特征。
第一个组件 通过递归神经网络(RNN)编码各节点异质内容间的深度特征交互信息,并生成每个节点的内容(content)嵌入表示。
第二个组件 通过另一个递归神经网络(RNN)整合不同类别邻居节点嵌入时采用了注意力机制,在此过程中对不同类型邻居分配不同的权重系数值,并最终生成完整的表示向量。
通过/采用基于图上下文的损失函数loss进行建模,并结合小批量梯度下降算法进行优化训练
- 综合考虑了图结构异质性与节点内容异质性的交互机制,系统地阐述了异质图表示学习问题的本质特征。
- 针对HetG网络,提出了一种创新性模型HetGNN,该模型能够在表示学习过程中有效整合异构结构特征与内容特征,并支持直推式任务和归纳式任务的联合处理能力。
- 实验研究表明,HetGNN方法在多个图数据挖掘领域取得了最先进的成果。

2 问题定义
本节将阐述将在本文中采用与内容相关联的异构图概念,并明确阐述异构图表示学习问题。
2.1 内容相关的HetG (Content-associated Heterogeneous Graphs)
C-HetG 被定义为 G = (V, E, O_V, R_E),
G = (V, E, O_V, R_E) 分别表示节点类型集合与边类型集。
每个节点都包含多种类型的信息,例如属性信息、文本内容以及图像资料等。
2.2 异质图表示学习
基于C-HetG模型G = (V, E, O_V, R_E)以及节点内容集合CC的目标是学习参数θ(θ)表示为F_θ以便于从每个节点提取d维表示。为了后续多个 downstream tasks进行建模该模型具备异质图结构信息编码能力和异质无结构内容信息提取能力;同时能够处理不同域的数据特征。
3 HetGNN
在当前章节中,我们将详细阐述一种名为 HetGNN 的方法,以解决第 1 章所提出的三个核心挑战.该方法主要包含四个关键组成部分:(1)构建异构领域关系网络; (2)提取节点领域的特征表示; (3)整合异构领域信息; (4)设定目标并构建模型训练流程.具体架构如图 2 所示.

3.1 采样异构邻居
大多数图神经网络(GNNs)的主要设计理念是通过从单个节点的一阶邻居(例如GraphSAGE[7]或GAT[31])中聚合特征信息来实现对节点表示的学习。然而,将这些方法 naively applying 到异构图中可能会导致性能下降等问题:
- 它们未直接从不同类型的邻居中提取特征信息。
为解决这些问题,我们旨在应对挑战C1而设计了一种基于带重启的随机漫步(RWR)异构邻居采样策略。该策略由两个连续的过程构成:
-
步骤1 使用RWR采样固定长度的路径
从节点v开始进行随机游走,在每一步中向其邻居节点移动或者以概率p返回到起始节点,并持续迭代直至收集到预定数量的路径为止。生成的序列记为RWR(v) 。同时确保RWR(v)包含了所有类型节点。 -
此过程 将这些采样到的邻居节点按照类别进行分类。
对于每一种node type t来说,在计算出的结果中占据较高频率的部分会被筛选出来。
基于其在RWR(v)中的出现频率,在结果中占据最高频率的部分会被筛选出来。
对于每一种node type t来说,在计算出的结果中占据较高频率的部分会被筛选出来。
最后输出的就是与当前目标点v具有相同类别的邻居点集合。
最后输出的是与当前目标点v具有相同类别的邻居点集合。
该策略能够避免上述问题,因为:
- 对于每一个单独的节点而言,在其邻接关系中包含了其各类别的关联对象;
- 每个单独的样本在建立邻接关系时所涉及的数量都是固定的,并且在这些邻接对象中被筛选出出现频率最高的那些对象作为核心关联对象;
- 通过将同类别的关联对象进行归类处理,并采用基于类别的方式进行聚合计算。
此外, 我们构建了一个异构图神经网络架构. 该架构由两个核心模块组成, 负责收集并融合每个节点的异构邻居采样特征信息.
3.2 编码异质的内容信息
4 实验
实验目的
回答4个问题:
- HetGNN与现有的先进基准方法相比,在链接预测、个性化推荐、节点分类以及聚类任务方面表现出色。
- HetGNN在Inductive图挖掘领域内展现出显著的优势,在Inductive node classification以及聚类方面的表现与现有的先进基准方法相当。
- 通过编码节点的不同异质内容信息以及聚合其异质邻居信息的过程,在某种程度上影响了该模型的表现。
- 不同超参数的选择(如嵌入空间维度及采样邻居数量)会对该模型的表现产生显著影响。
数据集
使用了两种HetG,学术图和评论图。

对比方案
实验结果
(1)链接预测

(2)推荐实验结果

(3)节点分类和聚类

(4)inductive的节点分类和聚类

(5)消融实验

(6)超参数设置对模型效果的影响

5 相关工作
相关研究包括:(1)异构图挖掘;(2)图表示学习;(3)图形神经网络。
异构图挖掘 。已有大量研究致力于在异构图(HetG)中提取特征用于多场景应用[2, 25, 33, 35]等。例如, 孙等人[25]利用基于元路径的方法提取拓扑特征并预测引用关系;陈等人[2]设计了一种匿名论文作者排名模型基于HetG;张等[36]提出了深度卷积分类模型用于集体分类任务。
图表示学习 。作为一种新兴的数据挖掘方向, 图表示学习[3]已获得广泛关注。基于图结构的模型[4, 6, 20, 29]被提出用于生成节点向量表示, 这种方法可进一步应用于多种图挖掘任务的研究。例如, 受类似于word2vec的思想启发,Perozzi等人[20]提出了创新性的DeepWalk算法,该算法引入了节点上下文概念(类似于单词上下文),并将一组随机行走(类似于"句子")输入SkipGram模型以获得节点嵌入。
此外, 针对异构性问题, 董等人[4]引入了元路径引导行走机制并提出了一种元路径2vec方法用于GraphSAGE框架下进行表示学习。
图形神经网络 。随着深度学习的发展,GNNs [5,7,12,16,24,31]获得了广泛的关注与研究兴趣。与传统的图嵌入模型不同,GNNs的核心思想在于通过聚合来自节点本地邻居的信息来生成节点表示。例如(GraphSAGE [7])利用神经网络聚合邻居信息; GAT [31]采用自注意力机制衡量不同邻居的影响并结合其影响生成节点嵌入。
6 结论
本文阐述了异构图表示学习问题,并提出了HeterGNN模型来解决这一挑战。HeterGNN不仅考虑节点特征编码、类型相关的邻居信息融合以及异构关系组合。在训练过程中采用全局语义损失与优化算法步骤相结合的方法来学习模型参数。通过大量实验研究发现,在链接预测、推荐系统中的个性化能力提升明显;同时在节点分类与聚类任务中也展现出良好的性能表现。
