【KD】2022 WWW CKD
目录
1、动机
具体阐述
相关工作
2、方法
具体阐述
符号定义
组成部分1-语义上下文子图采样
组成部分2-异构知识建模
组成部分3-协作知识蒸馏
训练
3、创新
4、结果
数据集
基准模型
实验
节点分类
链接预测
消融实验
参数敏感性分析
节点可视化
1、动机
近年来,异构信息网络的低维表示学习因其在实际应用中的显著效果而获得了越来越多的关注。与同构信息网络相比,HINs具有连接不同语义类型节点的元路径特征。现有方法主要是在独立学习元路径嵌入的基础上,将其整合为一个统一的嵌入模型。然而,HIN中的元路径具有内在的相关性,因为它们反映了同一物体的多维度视角。如果将每条元路径单独作为独立的语义数据资源处理,而不考虑它们之间的内在联系,则无论是基于元路径的嵌入方法还是最终的嵌入结果都会表现出次优性。
具体阐述
相较于节点和边类型单一的同构网络,HINs的显著特征是节点之间的连接模式呈现多样性。通常以元路径[34]的形式表示为节点类型和边类型的有序序列,节点通过多个具有不同语义意义的元路径进行连接。以书目网络为例,一个书目网络(图1)通常由三类节点构成:作者节点(a)、论文节点(P)和地点节点(V)。两个作者节点通过Author-Paper-Author(APA)和Author-Paper-Location-Author(APL)元路径进行连接,分别描述了作者之间的合著关系和共同地点关系。现有的大多数HIN嵌入方法[18,30,39]通常独立地从每个元路径学习嵌入表示,并将这些表示融合生成一个统一的嵌入作为最终输出。

尽管有效果,但我们坚信这些方法尚不能充分生成令人满意的成果。每个元路径都承载着HIN的特定语义,尽管它们均源自同一对象的不同视角,但这种关联性源于它们反映了同一对象的不同维度。例如,两名共同撰写论文的研究人员(使用meta-path APA)往往具有相似的研究兴趣,并更倾向于将论文提交至同一地点(使用meta-path APVPA)。显然,这两种元路径之间存在密切关联,从其中一种元路径获得的知识将显著提升另一种元路径学习其嵌入的效果。 然而,现有方法论将每个元路径孤立处理,**** 在学习元路径嵌入过程中忽视了数据资源间的内在联系。尽管元路径嵌入最终将被整合[9,32,47],但中间环节的不足会导致最终表示的性能下降。
相关工作
在HINs的学习过程中,Metapath2Vec通过元路径引导的随机游走方法保留了节点间的邻近关系。HIN2Vec[11]、HGT[18]和HAN[39]作为异构图神经网络(Heterogeneous Graph Neural network, HGNN)的代表,将异构网络投影到同构网络中,并在此基础上应用图神经网络技术。近年来,无监督HIN嵌入方法取得了新的进展。其中,HDGI[30]通过在每个同构图元路径上应用Infomax原则[16]来最大化信息提取,而mg2vec[44]则通过融合一阶和二阶邻近信息,将节点和元图共同嵌入到同一空间中。尽管这些方法在处理异构网络方面取得了显著成效,但它们各自独立地处理了元路径,这种处理方式在一定程度上忽略了元路径之间的相关性,这种相关性对于深入理解语义信息具有重要的价值。
2、方法
为解决此问题,我们提出了一种以协同知识蒸馏为基础的异构信息网络嵌入方法(CKD),首次对元路径间相关性进行显式建模。具体而言,我们采用两种粒度方式对元路径中的知识进行建模:区域知识和全局知识。通过协同提取元路径内部及元路径间的知识,我们成功学习出一种基于元路径的嵌入方法。
CKD方法主要由三个组成部分构成:语义上下文子图采样、异构知识建模和协作知识蒸馏。 一种基于元路径的节点嵌入方法可以通过整合所有元路径信息来提取全局模式。图3详细展示了我们CKD模型的正向传播过程,并对节点嵌入、子图级嵌入和元路径级嵌入的定义进行了说明。

具体阐述
尽管这一问题具有重要意义,但同时需要在每个元路径的语义和不同元路径之间的相关性上保持一致,这是一项挑战,因为它们的本质是相互冲突的。首先,我们提出了一种新的协作知识蒸馏(Collaborative Knowledge Distillation, CKD)框架,以显式保存元路径之间的语义和相关性。该框架首先采用图扩散和上下文子图抽样策略来解决不同元路径的稀疏性问题。我们通过区域知识和全局知识两种不同的粒度对每个元路径中的知识进行建模。每个元路径中的知识被协作地提炼,以相互增强。在元路径内和元路径间使用互信息作为度量,指导学习的精馏,以更好地嵌入学习。
符号定义

组成部分1-语义上下文子图采样
图神经网络(GNNs)的实践证实了通过聚合邻域节点信息来实现节点嵌入的有效性。然而,将图神经网络简单地应用于不同元路径进行嵌入学习在HINs场景中显得不够完善,主要原因在于
(1) 稀疏性问题值得深入探讨。在某些元路径中,尽管节点间的关系具有重要价值,但这些关系往往呈现稀疏状态。例如,共同作者关系在作者分类中起着关键作用,然而,大多数作者通常仅与有限数量的共同作者保持联系。基于元路径APA的图神经网络在处理有限邻域时往往难以获取足够的信息。
(2)冗余现象。在某些元路径中,节点间的关系既丰富又可能存在冗余。例如,每个作者可能通过共同地点与其他数千名作者建立联系,但仅有少数人之间具有相关性。在处理元路径APVPA的图神经网络中,可能会整合冗余邻域中的大量噪声信息。
图2呈现了三个真实世界HINs的数据集分析结果。X轴代表数据集中选择的元路径,Y轴则代表元路径在同质信息网络中的平均节点度。通过分析不同元路径的同质信息网络,我们发现它们在同一个HIN中呈现出显著的密度差异。在ACM数据集中,Paper-TermPaper(PTP)与Paper-Author-Paper(PAP)的节点度差异达到了惊人的300倍。

为此,我们通过图扩散技术对不同元路径对应的图的邻域进行平滑处理。随后,我们从一个固定大小的子图中进行采样,该子图包含了足够的结构信息,用于进行基于元路径的嵌入学习。
组成部分2-异构知识建模
基于meta-path m在G = {V R E}上定义,可以映射到一个具有语义含义的齐次信息网络G。为了明确提取异构信息网络的嵌入知识,我们首先在每个语义空间中构建了两个粒度的异构知识模型。
具体而言,区域知识指的是在每个语义空间中,将区域知识建模为围绕其的子图级别嵌入表示。全局知识则通过元路径级嵌入来表示,尽管区域知识展示了每个节点的局部连接模式,但它无法保持HIN在所有位置共享的全局连接模式。通过元路径级嵌入,我们可以更有效地捕捉和表示这些全局连接模式。
组成部分3-协作知识蒸馏
鉴于上述异构知识建模,基于良好的metapath嵌入,预计提取区域知识和全局知识meta-path M。这表明,知识蒸馏问题通常涉及元路径内和元路径间的蒸馏。我们利用互信息(MI)作为测量蒸馏,已广泛应用于捕获变量间的非线性统计依赖性。将知识蒸馏任务划分为内部和外部路径的蒸馏。

元路径内协同精馏
主要致力于同时提取每个元路径内的区域知识和全局知识,以提升节点嵌入的质量。蒸馏过程分别评估节点与subgraph-level嵌入以及meta-path-level嵌入之间的关系。将元路径内协同精馏的目标定义为目标:通过优化特定的损失函数,实现元路径内嵌入表示的协同提升。

跨元路径协同精馏
主要致力于同时获取不同元路径间的局部和全局特征。采用与之相似的技术来实现内部元路径的协作精炼,其区别在于主要整合不同元路径的信息。元路径间协同精馏旨在明确其目标。

互信息度量(JSD)

注意

训练

3、创新
- 基于现有信息,我们首次采用协同知识精馏框架来建模HIN中元路径嵌入之间的相关性。
- 在每个元路径中,我们对区域知识和全局知识进行建模,并通过元路径间的协同精化和元路径内的知识精炼,成功在最终嵌入中保持了局部与全局模式。
- 我们对六个真实世界的HIN进行了全面实验,涵盖节点分类、链接预测以及消融研究,验证了我们所提出的框架的有效性。
4、结果
在六个真实的人工智能网络数据集上进行了系统性评估,结果显示CKD方法在节点分类任务、关系预测任务以及消融研究中均展现出显著优势,这进一步验证了我们所提出的框架的有效性和实用性。
数据集
Pubmed, DBLP, DBLP2,ACM ACM2和Freebase

基准模型
DeepWalk,Metapath2Vec,HIn2Vec,HAN,HDGI,HGT,NSHE,MAGNN,HetGNN,HeCo
基于我们实验中采用的基线方法,我们借助作者提供的开源代码实现了模型构建。在建模过程中,为了提升性能,我们采用了前人工作中广泛采用的流行元路径,并通过系统测试验证了该策略的有效性。在我们的实验平台上,代码和数据集已发布于Github 1。
实验
节点分类

链接预测

消融实验

图5展示了对CKD框架变量在链接预测任务上的消融研究。结果显示:CKD的表现优于CKD- lo、CKD- go、CKD- io,这表明有必要通过协同蒸馏的方式对区域知识和全球知识进行提取。比较CKD-LO和CKD-GO的表现,我们可以发现不同HIN数据集在区域和全局知识上具有各自的独特特征。这进一步验证了在统一框架内提取区域和全球知识的有效性。综上所述,消融研究验证了CKD框架中所设计模块的有效性。

参数敏感性分析
上下文子图的大小。
在慢性肾病模型中,一个核心参数是上下文子图的大小m。我们通过在不同上下文子图尺寸m(从5到50)的范围内进行实验,并结合图6(a)进行展示,观察到实验结果。在较小的数据集中,如Freebase、ACM和Pubmed,当K超过20时,性能趋于稳定。而在DBLP数据集中,当K超过40时,性能趋于稳定,这可以归因于DBLP数据集较高的数据密度。当m较小时,模型涉及的参数数量较少,训练速度更快。自从小m的引入,模型不仅参数数量减少,而且训练速度显著提升,CKD框架因此能够实现良好的性能与上下文子图抽样计算复杂度的最低水平。
嵌入维数。
我们还通过调节维度范围25至125来考察嵌入维度对CKD任务的影响。如图6-(b)所示,在设置维度约为50时,CKD模型表现出稳定的性能,这与以往网络嵌入研究中常见的做法一致。

节点可视化
图7清晰地展示了实验结果。从图中可以看出,所提出的CKD框架的结构设计具有良好的可解释性,因为相同类别的节点(以颜色标记)之间的距离相对较近,而不同类别的节点之间具有显著的区分度。这些实验结果进一步验证了该方法在实验中展现出良好的分类性能。

https://zhoushengisnoob.github.io/papers/WWW2022.pdf
https://github.com/zhoushengisnoob/CKD
Collaborative knowledge distillation techniques for embedding heterogeneous information networks
