【论文解读|KDD2021】HeCo - Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

对比学习
基于对比学习的自监督异构图神经网络
文章目录
- 摘要部分
-
引言部分
-
相关工作综述
-
HeCo架构设计
- 节点特征提取模块
- 网络结构编码器模块
- 元路径信息整合模块
- � 抵mask生成机制模块
- 协同优化策略模块
-
5 实验
-
6 结论
-
摘要
异构图神经网络(HGNNs)作为一种新兴技术,在处理异构信息网络(HIN)方面展现了卓越的能力。尽管大多数HGNN采用半监督学习方式,在实际应用中由于标签数据稀缺性而导致其广泛应用受限。近年来,对比学习作为一种无监督的学习范式取得了显著进展,并在无需标签的情况下展现出强大的潜力。针对自监督HGNN问题展开研究,并提出了一种名为HeCo的新机制。与传统的对比学习仅关注正样本与负样本的对比不同的是,HeCo采用了跨视图对比机制来提升性能。具体而言,在HIN分析中分别从网络模式视图和元路径视图两个维度提取节点嵌入,并同时捕获节点间的局部特征及全局关系特征。在此基础上提出了跨视图对比学习与视图掩码机制相结合的方法:该机制不仅能够有效提取出节点嵌入中的积极样本与消极样本信息,并且能够实现两组嵌入之间的相互协作与相互监督作用。为了进一步提升模型性能,在所提出的HeCo基础上又设计了两种增强型HeCo方案:通过引入更具区分度的负样本生成策略使得模型具备更强的抗干扰能力以及更高的收敛速度特性。通过在多个真实场景下的大量实验验证表明:所提出的方法较现有技术表现出显著的优势。
1 引言
在现实中广泛存在的异构信息网络(HIN)或异构图(HG)[30]具有普遍性特征,在其架构下能够有效建模多种类型的节点及其间的复杂互动关系。例如,在书籍推荐系统[15]中可见这一模式的应用潜力,在生物医学领域[3]亦展现了显著价值。近年来的研究表明,在处理HIN数据方面存在一种极为有效的工具体系——Heterogeneous Graph Neural Networks(hgnn),它们成功地将消息传递机制与系统的复杂多样性相结合,在捕捉深层结构特征的同时也能充分挖掘丰富的语义内涵。当前研究趋势显示hgnn方法已在多个实际应用场景中取得显著成效:如推荐系统[6]与安全系统[7]等服务领域得到了广泛应用。
大多数HGNN研究仍停留在半监督学习框架内:即通过设计多样化的异构消息传递机制来生成节点嵌入表示,并基于部分已标注节点来进行监督学习训练过程。然而这一前提条件往往难以满足现实需求:因为某些关键节点的真实标签获取往往涉及大量专业知识与实践技能的要求,在许多实际场景中这一限制显得尤为突出——例如基因标识过程通常需要深厚的分子生物学知识支持。
相比之下自监督学习作为一种无标签数据驱动的学习范式逐渐成为研究热点:它旨在从数据自身中提取有效的监督信号从而规避明确标注依赖的问题[24]。对比学习作为典型的自我监督学习方法已引起广泛关注[2,12,13,25,33]:其基本思路是通过从数据中提取正样本对负样本对并设定目标使正样本间相似度最大化而负样本间相似度最小化从而实现无监督嵌入学习。
尽管对比学习方法已在计算机视觉与自然语言处理等多个领域展现出良好效果但目前对其在HIN领域潜力的研究却相对较少:这种现象的原因在于设计适合对比学习的HGNN架构并非易事——我们需要深入探讨HIN特有的特点以及对比学习的独特优势。
上述探索涉及三个根本性问题:
- 如何设计异构对比机制 。(How to design a heterogeneous contrastive mechanism.)HIN由多种类型的节点与关联组成,这自然形成了其复杂的架构特征。例如,metpath,即多重关系构成的方法,通常用于捕捉HIN[31]中的长程结构关系。由于每个元路径都代表不同的语义概念,每一个都反映了HIN的一个重要维度。仅在单个元路径视图[26]上进行对比学习是远远不够的,因此研究HGNN的异构跨视图对比机制具有重要意义。
- 应如何在HIN中选择适当的视图 。如前所述,HGNN需要通过跨视图对比学习来提取嵌入表示。尽管由于异质性,HIN可以从多个角度提取丰富的视图信息,但基本要求是所选视图需涵盖局部与高阶结构特征。网络模式作为HIN[30]的核心模板,能够反映节点之间的直接连接关系,从而有效捕捉局部结构特征。相比之下,元路径方法则更多地用于高阶结构信息的提取。因此,应仔细权衡网络模式与元路径结构的关系。
- 如何设置一个具有挑战性的对比任务 。众所周知,恰当地设计对比任务将有助于生成更具鉴别力的嵌入表示[1-32].如果两种观点过于相似,则会导致监督信号不足[2],进而影响嵌入质量的提升效果.因此,我们需要使这两种观点间的对比更加复杂化.一种可行策略是增强信息多样性以提高区分度;另一种则是通过生成高质量难分类样本来提升模型鲁棒性.综上所述,HGNN中合适的对比任务设计对于模型性能提升至关重要.
本研究聚焦于异构网络(HIN)上的自监督学习问题,并提出了一种创新的协同对比学习异质图神经网络HeCo。具体而言,在传统的基于原始网络与受损网络对比的学习框架下进行改进与突破性探索的基础上
据我们所知,
这是首次探索基于交叉视图对比学习的无监督异质图神经网络 。借助跨视图对比学习的方法,
能够有效提取高阶特征信息,
从而使得异构图神经网络(HGNN)能够更加高效地应用于实际场景,
而无需依赖标签辅助。
2 相关工作
本节中回顾了相关领域的研究工作,在此基础上分析了异构图神经网络与对比学习的相关性。
异构图神经网络 。作为一种重要的深度学习模型,在复杂数据建模方面展现出显著的优势...等
4 HeCo模型
本节我们提出了一种新型异质图神经网络HeCo
4.1 节点特征转化
4.2 网络模式视图编码器
4.3 元路径视图
4.4 视图掩码机制
4.5 协同对比优化
5 实验
6 结论
在研究领域中
本文采用的是当前最前沿的对比学习方案。通过构建基于元路径的子图与基于网络模式的子图之间的跨视图对比学习,在多模态数据融合方面取得了显著进展。建议在课后进一步补充对SimCLR等前沿算法的理解与掌握。
研究者指出:"通过对比不同数据实例间的相似性与差异性来优化模型性能"这一思路相较于传统的监督式预训练方法具有显著优势。
该方法凭借强大的特征表达能力,在图像分类等典型应用场景中取得了显著的效果。
