Graph Contrastive Learning with Adaptive Augmentation
摘要
对比学习在无监督图表示学习中展现出显著的效果。
然而目前的研究多采用均匀化处理手段如统一去边或特征扰动等较为简单的策略来实现 enhance effect, 这种方法难以充分捕捉到数据内在规律, 因而效果往往只能达到次优水平。
本文创新性地提出了一种基于先验知识的自适应 enhance 策略, 该策略不仅能够有效提升模型鲁棒性, 还能更好地平衡不同子任务间的冲突关系以获得更有竞争力的表现结果。
引言
现有增强策略存在明显的局限性。就结构或特征层面而言,单纯强化措施难以产生丰富的邻居;这使得优化过程面临诸多挑战。另一个问题是现有方法对节点及其关联边的影响程度存在显著差异;例如,在现有的均匀化处理策略中,“去噪”操作可能导致关键性的边缘被舍弃而出现系统性能下降的情况。因此,在设计新的强化机制时需要更加谨慎:具体来说就是应当建立一种更智能的概率分配策略,在强化学习过程中‘去噪’并优先保留重要边缘,则能够使模型更好地适应噪声干扰并提取核心特征。通过这种主动筛选机制的应用不仅提升了模型对关键信息的学习能力而且有效降低了冗余数据所带来的负面影响
我们提出了一种自适应增强的图对比学习方案。随后利用随机扰动生成两个相互关联的特征空间。进而旨在最大化这两个视图中节点表征间的互信息度量。为此我们构建了一个集成化的自适应数据增强框架。首先在拓扑层面删除边以减少直接连接关系;其次在属性维度进行遮蔽处理以引入潜在关联性。最终通过优化对比目标实现各子任务间的协同学习。

模型

基于常规图对比学习框架设计的GCA模型旨在使不同视角下的数据表示具有一致性。针对每个节点i,在其所属各视角下其特征向量被认定为正样本;而其余节点在各视角下的特征向量则被视为负样本。参考InfoNCE损失函数,在多模态数据对比学习领域中,针对每一对正样本(u_i, v_i),我们构建了分级的目标函数表达式

θ(u,v)=s(g(u),g(v))其中s(·,·)表示余弦相似度g(.)是一个非线性转换器,在设计discriminative函数时增强了其表达能力具体地,在判别函数设计中我们采用了两层感知机来实现这一目标在每个视角中,默认其他节点被视为负样本实例因此,在视角对中涉及的两类关系(inter-view关系和intra-view关系)将被纳入考虑由于各视角之间的对称性$最终的目标函数被定义为所有正样本对的均值

这个训练算法总结如下

Adaptive Graph Augmentation
对比学习旨在获取不被扰动影响的关键信息特征,在GCA方法中则通过学习关键架构元素与固有属性来实现目标。在面对随机扰动时,我们赋予不重要的节点或特征更高的丢弃或遮盖几率,并特别关注关键架构元素与其固有属性,在随机扰动的不同视图下强调这些重点部分。从而确保基础拓扑与语义模式得以保留。
1)Topology-level augmentation
在拓扑级别的增强操作中,通过在输入图上引入随机边移除操作来增强其结构特性。具体而言,在保持图连通性的前提下,按照预设的概率从边集E中随机选取一个子集E’进行删除处理。

Puv代表移除的概率(记作p),E’是生成结果中的边集(记作edge set)。其中Puv表征了边(u,v)的重要性程度,在增强过程中会对不重要的边进行过滤,并以保持关键的连接关系的方式保留重要结构。
节点中心性是一种用于评估节点重要程度的方法,在计算边的重要性时,则采用两个邻接节点各自的中心性值来进行平均计算。具体而言,在给定某种节点中心性的计算方法f(.)之后,每条边的重要程度定义为其两端节点对应的f(.)值之和的一半即Wuv=(f(u)+f(v))/2。对于有向图而言,在计算边的重要性时,默认仅考虑末端节点对应的数值作为依据。
在获得边的中心性值之后, 通过特定方法可以计算出边对应的概率值. 由于各节点之间存在不同的连接强度等级差异, 因此必须执行标准化处理. 其中Pe和Pt分别代表控制边移除的概率参数和整体丢弃的比例系数, 当移除比例过高时可能会对图的整体结构产生负面影响.


2)Node-attribute-level augmentation
如同图像领域中的加性噪声处理机制,在本研究中我们采用一种名为"随机二值掩码"的方法,在节点属性空间中引入噪声干扰。具体而言,在实验过程中首先生成一个随机向量m(Random Mask Vector),其各个维度元素均遵循伯努利分布特性;随后通过该随机向量对节点属性进行操作以达到增强效果的目的。进而得到节点属性矩阵经过处理后的版本作为后续模型训练的基础输入数据源。


类似拓扑层级的增强措施下

其中第一项Xui是一个二元变量,在第i个位置上取值为1或0以指示第i个特征是否存在于节点u中;第二项则用于评估各特征的重要性程度,在引用网络中该变量值越高表明该节点所具有的核心地位越显著。直观上而言,在引用网络中节点各个维度上的特征代表了关键词汇。那些在重要文献中频繁出现的关键字通常是具有重要性的。
当节点特征呈现稠密且连续属性时,在这种情况下我们引入Xui变量来表示第i维特征的具体数值表现。其中Xui定义为第i维特征的数值化指标。由于我们难以精确记录每个one-hot编码所对应的频次信息,在这种情况下我们需要转而采用另一种度量方法:基于各特征值绝对数值进行加权处理。

最后,在拓扑学框架下进行提升的过程中,我们通过标准化的方法评估特征重要性的概率。


GCA中每一个视图都是通过综合利用拓扑结构与节点特征两个维度的空间信息来实现增强效果的。该方法能够通过生成两个不同的视角为对比学习提供丰富的上下文信息。


其中,两个视图的概率分别表示为

注意,所有的中心性和权重都是在原始输入图中计算的。
实验



