【GNN】2021 WWW Interpreting and Unifying Graph Neural Networks with An Optimization Framework报告
《同源共流:基于优化框架的图神经网络统一与解释》(Interpreting and Unifying Graph Neural Networks with An Optimization Framework)
目录
0、框架
1、概述
什么是广义组合操作?
2、统一的优化目标框架
那么,上图中两项表示的是什么?
首先以 PPNP 为例。
继续以比较类似的思路去分析其它的经典图神经网络。
我们接着介绍两个深层图神经网络与优化目标之间的关系。
3、新的 GNNs 设计
即也设计了一个转移概率 α,来设计整个的优化目标。
具体是怎么回事?
4、实验内容
首先是节点分类实验。
第二个实验基于我们在之前研究的平滑化问题,进行了深入设计,以评估传播深度的性能。
第三个实验是模型分析实验。
5、总结
参考
总结
0、框架
北邮朱美琪:同源共流 | 一个优化框架统一与解释图神经网络


摘要
图神经网络(gnn)在图结构数据学习方面受到了广泛关注。经过大量实验和验证,有效的传播机制经过优化后能够显著提升网络性能。尽管大多数gnn遵循消息传递机制,但研究者们仍在探索不同传播机制之间的内在联系。在本文中,我们提出了一种统一的优化框架,能够建立不同传播机制之间的紧密联系, 这表明尽管各种gnn在扩散过程中存在差异,但它们提出的传播机制本质上都是优化特征拟合函数的最优解。在这一框架下,我们总结了当前最具有代表性的gnn模型共性,不仅为研究不同gnn之间的关系提供了宏观视角,也为设计新的gnn架构提供了新的思路。在实验部分,我们发现现有研究多采用naïve图卷积核作为特征拟合函数,为此我们提出了两个新的目标函数,分别从可调图核的低通滤波和高通滤波能力角度进行了扩展。此外,我们还对所提出模型的收敛性进行了严格证明,并对表达能力进行了全面比较。在多个基准数据集上的实验表明,该算法在性能上优于现有方法,同时展现出良好的抗过平滑能力,这进一步验证了所提出统一优化框架的有效性。
动机
到目前为止,研究者们通过不断探索与创新,已在图神经网络领域构建了多个具有代表性的模型,其中包括注意力机制[30]、个性化PageRank[14]以及跳跃连接[38]等创新性设计。这些精良设计的传播机制构成了网络结构的基础。尽管这些机制千差万别,但它们本质上都建立在对网络拓扑结构与节点特征的分析之上,并通过沿着网络拓扑进行特征聚合来完成信息传递。由此而引发的一个重要问题自然浮现:尽管传播策略各异,是否存在一个统一的数学准则,能够从根本上规范各类图神经网络的传播机制?如果存在,又是什么?对这一问题的准确回答将提供一个宏观视角,从而以系统性的方式梳理不同图神经网络之间的联系与差异。一旦这种数学指导得以发现,不仅能够帮助我们识别现有模型的局限性,还能激发更多创新的图神经网络模型的涌现。
贡献
我们构建了一个综合了特征拟合机制与图正则化策略的统一优化框架。通过理论分析,我们证明了该框架能够整合多种gnn传播机制,为深入理解gnn模型提供了宏观视角。该框架为开发新型gnn架构提供了新的思路。在一定程度上,我们开发的两组具有灵活的低频和高频滤波能力的新型深度gnn模型能够缓解过平滑现象。我们对这两个模型的收敛性及其表达能力进行了系统性分析。在多个基准数据集上进行的大量实验结果表明,我们开发的gnn架构在性能上优于现有最先进的gnn模型。这些实验结果进一步验证了基于统一框架设计gnn模型的可行性。
1、概述
图神经网络是一种专门处理和训练图数据的神经网络体系。近年来,图神经网络在图分析领域受到了广泛关注,展现出显著的应用价值。其应用涵盖节点分类、图分类、链路预测以及推荐等多个领域。
大多数图神经网络及其变体,基于消息传递机制,即通过网络拓扑传播节点特征并进行特征聚合。
虽然传播方案多种多样,但它们的最终目标都是为了利用节点特征信息和网络拓扑信息这两部分。实验结果表明,图神经网络所设计的这类传播机制具有较高的有效性,同时也是图神经网络的核心组成部分。
我们以以下三个经典的工作,来了解图神经网络的传播机制到底是什么。
(1)GCN
(2)简化 GCN(SGC)。Simplified GCN (SGC) propagates information by aggregating one-hop neighbors along the network topology. While it slightly simplifies the propagation process by avoiding nonlinear activations, nonlinear transformations have minimal impact on model performance. The core functionality remains propagating through the network and aggregating node features.

(3) PPNP 。PPNP主要参考了Personalized PageRank算法,即个性化PageRank的思想,突显了自身特征信息的关键作用,因此在传播机制中特别注重融合原始特征表示,即上图中的H。
在上图中展示的公式,这三个模型在经过两次传播后,其表达形式是对应的。
为了阐述我们的研究内容,首先对传播机制进行简要概述,随后给出一个形式化的定义,以便后续分析研究。
首先,将K层的传播过程归纳成以下形式,其主要包含三个要素:网络的节点特征X、网络的拓扑结构G以及传播机制的传播次数K。在此基础上,重点分析沿着网络拓扑传播节点特征K次后的输出结果。
对应地分成两种情况 ,
在传播过程中,每一层都会执行聚合操作并施加非线性变换,且这两种操作是连续的聚合操作。此外,还有一类情况,类似于简化GCN和APPNP这类深度图神经网络,它们主要以连续的聚合操作为主,而没有进行每层的非线性变换。

直观理解上图中三个符号含义:Agg代表在网络拓扑结构中传播并聚合第K层网络输出Z。Trans即每层的特征变换操作,包含非线性激活和分层可学习的权重矩阵W。第三个即K层卷积后的广义组合操作。
什么是广义组合操作?
举例来说,针对GCN、SGC、APPNP等图神经网络,它们直接将图神经网络最后一层的输出作为传播后的结果,因此,这种组合操作实际上就是取最后一层的输出结果。针对JKNet、DAGNN等卷积网络,它们可能通过对来自部分或全部层的每一层的输出进行拼接、加权求和等操作来实现功能。由此可知,K组合操作的定义因不同的图神经网络而异。
在上述形式化定义的基础上,我们再次重新思考图神经网络的传播过程。
图神经网络的传播机制呈现出多样化的特征,尽管各个研究者设计了不同的方案,但这些方案在本质上却是一致的,其主要目标是充分利用网络拓扑结构和节点特征这两种关键信息。同时,这些传播过程和表达式都可以归入我们所描述的统一的模式之下。进一步探讨发现,图神经网络的不同传播机制是否能够借助统一的理论体系或统一的规则来进行解释?
数学公式G=(V,E,A),其中V代表顶点集合,E代表边集合,A代表邻接矩阵。
如果能对这些图神经网络进行深入解释的话,这不仅有助于重新理解现有的模型,还能为设计新的图神经网络提供思路。
详尽且系统的解答这些问题,有助于我们从一个宏观视角重新审视图神经网络之间的联系以及它们之间的差异。
我们这项研究,正是以问题为导向,深入剖析了若干具有代表性的图神经网络的传播机制,提炼出它们的共同特征,并将其传播过程成功整合到一个统一的优化目标框架中。
在确定优化目标框架后,进一步在此框架下深入探索新的研究方向,例如,可以设计新型的图神经网络。
接下来,具体介绍我们提出来的统一框架。
2、统一的优化目标框架

发现
令人惊讶的是,我们发现它们可以从根本上概括为一个具有灵活的图卷积核的统一优化框架 。传播后的学习表示可以隐式地看作是相应优化目标的最优解。
该统一框架由两个项组成**: 特征拟合项和图拉普拉斯正则化项**。
- 特征拟合项是指建立节点表示与原始节点特征之间的关系,用于满足特定gnn的不同需求。图拉普拉斯正则化项在拓扑结构中起到平滑特征的作用,是所有这些gnn共有的。
- 例如,GCN的传播只能用图拉普拉斯正则化项来解释,而PPNP需要另一个拟合项来约束节点表示与原始特征的相似性
我们提出的统一优化目标框架由两个主要部分构成,其中一项是带有灵活卷积核的特征拟合项,左边部分,而右边部分则由图拉普拉斯正则项构成。这两个部分共同构成了该优化目标框架。
其中,H 是输入特征 X 的某种变换,既可以是非线性变换,也可以是线性变换。Z 是想要学习或说是想要得到传播后的节点表示。L 即为拉普拉斯矩阵,通常在提及 L 时,我们也会加入 self-loop(并进行了归一化处理)。即为加 self-loop 的邻接矩阵所对应的图拉普拉斯矩阵。
对于优化目标,旨在最小化。即当该优化目标达到最小值时,此时,z即为我们所学习的节点表示。换言之,图神经网络传播后的节点表示 Z 可以被视为该优化目标的最优解。
那么,上图中两项表示的是什么?
该约束项是特征拟合约束项,其名称来源于对节点特征进行调整的意图,即通过调整节点特征,使得其能够反映表示Z与现有特征H之间的关系特征。这种调整过程被设计为对Z和H之间的关系进行控制,具体实现方式是通过定义一系列灵活的卷积核,从而决定Z与H之间应满足的具体关系类型。
F1和F2则代表灵活的卷积核,它们可以从图的单位矩阵、邻接矩阵或拉普拉斯矩阵中选择。这些矩阵在图的谱域具有特定的性质:I矩阵对应全通滤波器,归一化后的A矩阵对应低通滤波器,而拉普拉斯矩阵则更倾向于高通滤波特性。通过利用这些特性,可以设定Z和H之间的某种关系。值得注意的是,这一项前面有一个系数,该系数仅考虑取值0或1(即是否启用,而不考虑放大倍数)。
右边的O_{reg}项是图拉普拉斯正则项。它主要约束了邻接矩阵中相互连接的两个点,它们的特征表示z需要保持相似。这实际上实现了对网络拓扑结构的平滑特征映射,即相邻节点的特征表示z保持高度相似性。
这就是我们提出的目标的主要组成部分,我们进一步分析发现,这个目标函数可以从本质上解释节点特征和网络拓扑这两种信息在图神经网络消息传递过程中的具体作用机制。
例如,就节点特征而言,节点的特征信息本身就包含丰富的内涵,通过观察可以看出,其主要作用是初始化表示为 Z,并在此基础上进一步通过特征 H 对传播过程中的 Z 进行约束,以优化和学习其在哪个方向上对 Z 的影响。而网络的拓扑结构则主要旨在平滑相邻边两端节点的特征信息,从而使我们所获得的最终表示 z 能够更好地反映网络结构的同质性。
下面是对我们优化目标的全面概述。随后,我们将会对几个具有代表性的图神经网络进行深入探讨,将它们归类于我们的优化目标之下,认为这些网络可以认为是我们优化目标的特例,从而证明该优化目标能够统一这些不同的图神经网络。

首先以 PPNP 为例。
简要回顾PPNP和APPNP的基本概念。PPNP是一种以个性化PageRank算法为基础构建的图神经网络模型。其基本数学表达式如图所示(左边部分)。将PPNP的传播机制纳入我们定义的传播模式框架中,其数学表达式可表示为:
可以观察到,PPNP方法对应的传播结果,实际上等同于经过反复迭代,当k趋近于无穷大时的收敛过程中的传播结果。在这里,我们将其称为闭式解或收敛过程中的解。同时,PPNP方法具有一个显著特点,即它需要先进行特征变换,随后进行传播。具体而言,该方法首先对特征X进行非线性变换,得到中间变量H,然后沿着传播矩阵,即逆矩阵(I-(1-a)A)^{-1}对H进行传播,这构成了PPNP传播过程的完整机制。
就而言之,ppnp在逆矩阵求解方面确实存在一定的复杂性。因此,它提出了一种迭代形式的解决方案。通过k次迭代运算,逐步逼近收敛后的结果表达。这也就相当于进一步发展形成的APPNP传播模式。
可以观察到尖括号内的内容。在传播过程中,APPNP首先完成了AZ的计算,即沿着网络拓扑A将表示Z进行聚合。同时,它还加入了特征H,以突出初始特征的重要性,经过k次迭代后的输出结果即为APPNP的传播结果。
APPNP 研究了当 k 趋近于无穷大时,PPNP 和 APPNP 的传播效果一致,因此,我们采用一个优化目标来解释这两种变体,具体而言,这个优化目标即为图中圈出的区域。
我们通过定义 F1 和 F2 等相关系数,可以建立一个优化目标表达式,这些系数的取值范围需要在特定条件下才能被确定下来。通过最小化这个优化目标,可以得到最优解 z,这对应于 PPNP 传播后的结果。
这个证明过程相对简洁明了。在优化目标下最小化,对变量z求偏导数,从而得到一个关于变量z的方程。通过移项变形处理这个方程,可以得到一个带有逆矩阵形式的表达式,这与我们之前提到的PPNP传播结果相一致。因此,我们成功证明了PPNP传播结果,这与优化目标下的最优解完全一致。

继续以比较类似的思路去分析其它的经典图神经网络。
GCN和SGC代表了图神经网络领域的经典模型。在GCN框架下,主要可分为两种类型,其中一种类型是通过连续传播k次来实现信息的扩散,其传播k次后所得到的输出结果即为模型的最终特征表示。
在K层传播过程中,GCN网络包含线性变换和非线性激活函数。相比之下,简化型GCN省去了每层的非线性变换,并通过缩减权重矩阵的维度来降低复杂度,具体用符号W*表示权重矩阵。
考虑到 GCN 和 SGC 两者之间关系密切,其传播机制具有高度相似性,均遵循 AXW 模式。值得注意的是,SGC 对 GCN 的非线性变化进行简化分析,这一过程对模型性能的影响可以忽略不计。基于此,我们主要以 SGC 为核心,深入探讨两者的传播机制。它们的传播目标即位于此方框内所标示的目标。
该目标仅引入了一个图拉普拉斯正则项,这究竟表达了什么含义呢?它表明图卷积操作本质上是在图上进行的一种平滑操作,具体而言,如果我们将 z 初始化为 XW 并且沿着这个图结构扩散 k 层,并且当 k 趋于无穷大时,能够得到 GCN 或者 SGC 对应的传播结果,而这个传播结果正好对应着图拉普拉斯正则项所施加的平滑效果。综上所述,这就是GCN机制的解释。
从另一个视角来看,我们可以将GCN中的AXW操作重新表述为图卷积形式,并通过另一种近似方法得出另一个优化目标。这采用了另一种证明思路:我们采用了基于一阶近似的处理方法,从而得出了以下的优化目标。
上图中公式 12 对应的优化目标最优解,是在执行一个 GC(graph coalition)操作。具体来说,这个方法采用了一阶约减的近似,其规模较大。具体证明细节,建议参考文章中的相关内容。值得注意的是,文章的主要证明过程并未采用一阶约减的方法。

我们接着介绍两个深层图神经网络与优化目标之间的关系。
本研究分别阐述了JKNet和DAGNN在深层图神经网络中的应用。其中,JKNet作为一种经典的图神经网络模型,其核心优势在于充分挖掘了不同距离邻域的特征信息。通过图神经网络各层的迭代计算,JKNet能够生成多样化的节点表示。具体而言,各层的迭代次数输出信息不仅能够反映节点的局部特征,还能有效捕捉全局拓扑结构信息。在最后一层处理中,通过拼接、池化或注意力机制融合各层信息,能够显著提升节点表示的全局表达能力。
我们主要探讨了 attention 焦点的融合途径。在这一过程中,我们进行了化简工作,首先对每一层的非线性进行化简处理,共享的每一层的权重参数 W*,同时将 α 表示为不同层的融合权重,并将同一层的节点共用同一个权重。基于此,我们推断 JKNet 的传播机制可以被解释为以下传播目标。
中心思路是通过对目标求导数,从而得到最优解。这种最优解可以通过将问题表示为矩阵的级数展开来实现,而这种级数展开能够有效地模拟JKNet中各层求和的操作。
第二个工作是DAGNN,它发表在KDD2020的一篇工作,属于较为前沿的研究成果。与JKNet的传播机制具有相似性,主要区别在于其在初始化特征的处理上更为注重保留原始信息,同时避免了非线性变换模块的引入。通过选择各层的融合权重来构建组合方式,从而导出了相应的优化目标函数。

就目前而言,论文总结了不同图神经网络与其优化目标之间的关联。进一步探讨了不同图神经网络与其优化目标之间的关联,通过表格可以看出,基于框架设计,能够更直观地理解不同神经网络之间的关系。
通过分析SGC/GCN (第一行) 和PPNP (第三行) 的表达式,我们发现,SGC/GCN的这个公式仅包含后面的图正则项,而PPNP则同时包含前面的拟合项和后面的正则项。两者的显式目标函数差异,能够很好地解释APPNP在过平滑问题上优于SGC的原因何在?
该方法通过编码原始特征的额外信息,实现了对 z 的表达。旨在提取原始特征中的关键信息,从而使得缓解过平滑的效果更加显著。
再比如PPNP和DAGNN。尽管PPNP和DAGNN的设计思路存在差异,其中PPNP主要通过Personalized PageRank算法进行信息传播,而DAGNN则致力于整合多领域信息以提升传播效果。通过深入比较可以发现,两者的传播机制在本质上具有相似性,它们的传播目标本质上仅在传播权重参数上存在细微差异。具体而言,PPNP模型中所使用的转移概率参数α是人工设定的,而DAGNN则通过注意力机制动态学习传播权重,因此从传播效果来看,PPNP和DAGNN的输出结果具有较高的相似度。
举个例子,graph convolution的操作,也就是GC操作,可以被看作是图卷积操作。可以看出,它的公式与PPNP较为相似,可能仅相差一个系数。实际上,二者在本质上存在显著的区别。由于它们近似的机制不同,一个采用一阶近似,另一个采用k阶无穷近似,这导致了它们在传播机制上的本质差异。
框架作用
由于所提出的统一框架提供了对不同网络的宏观视角,使得现有网络的缺点很容易被识别。因此,该统一框架为设计新颖的导航网络提供了新的机遇。传统上,当我们提出一种新的GNN模型时,通常关注于设计特定的谱图滤波器或聚合策略。
现在,统一框架提供了另一种实现这一目标的新途径,即通过优化目标函数来获得新的GNN。这样,我们就清楚地知道了传播过程背后的优化目标,使得新的GNN更具有可解释性和可靠性。在本文中,我们发现现有的研究通常利用naïve图卷积核作为特征拟合函数,然后开发了两个具有低通和高通滤波能力的可调核的灵活目标函数。我们证明了两个相应的具有柔性图卷积核的图神经网络可以很容易地导出。此外,我们还对这两种网络的收敛能力进行了分析,并对其表达能力进行了比较
另一方面,我们可以继续深入探讨,这个框架不仅能够帮助我们更深入地理解不同图神经网络之间的关系,同时也为设计新的图神经网络提供了新的思路。这也是我们希望带给大家的另一个重要的视角:通过构建一个统一的优化目标框架,我们不仅能够更深入地理解现有图神经网络之间的关系,还能够为设计新的图神经网络提供新的思路。
现在的图神经网络,主要聚焦于聚合方式的设计,研究者普遍关注 aggregation 的实现方式,例如采用 attention 等方法进行聚合,或者利用 diffusion 矩阵进行聚合等,另一部分研究者则专注于谱域滤波器的设计与实现。
在提出优化目标后,我们期待能带给大家一个思考方向,即有了传播目标后,我们能更清楚地了解传播背后所涉及的具体行动。通过不同的场景设定相应的传播目标,并基于这些目标反推出适合的网络模式结构。
一旦传播目标得以明确确定,对应传播模式便能展现出更高的可解释性和可靠性特征。基于此,我们所设计的图神经网络模型,能够更清晰地了解其运行机制。
这是关于我们优化框架的两点思考。
3、新的 GNNs 设计

在此基础上,通过两个具体案例来说明如何利用该统一的优化框架进行新的图神经网络设计,以验证上文提到的核心观点。
简单介绍一下设计新图神经网络的流程,
- 首先重要一点是设计出传播目标,而且传播目标是我们能够理解的,即知道它背后到底在做一个什么样的事情,理解它的优势在哪里。
- 第二步就是基于优化目标,去反推应有的图神经网络模式。
改写说明
但是实际上,h 信息不可避免地包含一些噪音或不确定性。例如,在频域中,h 它可能包含低频信号、高频信号以及其他中间的噪声。
在编码信息时,确定是针对哪类信息进行编码,可能只能选择单一类型的信息,或者需要综合考虑所有信息,这样都难以满足各种需求。
在此,我们对滤波项进行了优化设置。定义为卷积 kernel F1F2,其等于 μ 倍的单位矩阵加上 1-μ 倍的 A 矩阵。这样的设计背后的意义是什么?
在滤波空间建模中,原始滤波空间中的I矩阵能够完整保留所有信息。同时,A矩阵在谱域中可能对应于低频滤波空间。这一目标的核心在于,通过同时考虑原始空间和低频滤波空间,要求Z和H保持高度相似,从而使得Z能够有效地建模到H在经过低频滤波后的有效信息。
同时,这里的 μ 我们设计的是一个平衡系数。
它的含义是限定原始空间 I 和低频滤波空间 a 之间的比例关系。通过调节参数 μ,可以明确地确定 a 和 I 在占比上哪一个更为突出,从而增强优化目标的灵活性。需要注意的是,μ具有明确的取值范围,具体范围确定为 1/2 到 1 之间,这种设定旨在限定前面滤波 kernel 这一项,它是一个对称的半正定矩阵。对称半正定矩阵开根号与不开根号的滤波性能具有相似性。同时,图拉普拉斯正则项采用了常规的 ppnp 设置。
即也设计了一个转移概率 α,来设计整个的优化目标。

设定优化目标后,接下来探讨如何根据这一目标去构建图神经网络。在图神经网络设计中,主要采用的方法是对其求解,具体实施方式是什么?
在优化过程中,我们首先对优化目标求取偏导数,从而获得了闭式解。具体而言,这个闭式解的表达式如图所示。其中,闭式解中包含了-1次方的逆矩阵,这个逆矩阵可以被理解为一种传播矩阵。进一步地,闭式解相当于在I和a分别进行滤波后的h进行传播,而传播矩阵或传播依据则建立在逆矩阵的基础上。
当然,闭式解存在明显缺点,具体而言,逆矩阵的计算涉及对一个 n×n 矩阵进行求逆运算,这可能导致计算效率受到显著影响。
我们下一步是通过一个迭代方案来趋近于闭式解。该迭代方案是上图右侧提供的一个具体方案,每层都需要执行以下操作:首先,计算 z 等于 az 加上 h,然后再加上 ah,这涉及卷积操作或传播操作。经过 k 次迭代后,其迭代结果即为我们所设计的第二个模型。
左边是一个闭式结构的模型,我们将其定义为闭式模型。第二个模型则属于迭代型的模型,采用迭代解进行网络设计。探讨这两个模型之间的关系,可以理解为当 k 趋近于无穷大时,迭代解的效果等价于闭式解的效果。进一步分析可知,迭代解在 k 趋近于无穷大时,其迭代效果与闭式解的迭代效果具有等价性。

换句话说,同一个优化目标,可以通过求解得出一个闭式解和一个迭代解,这两个解具有等价性。通过这两个解,我们可以分别设计新的图神经网络结构,从而形成了两种不同的图神经网络变体。这就是我们整个设计过程的核心逻辑。
类似的,我们这篇文章提出来第二个变体。
第一个变体关注的是低通滤波,即通过约束矩阵I和滤波矩阵A来实现的拟合项。第二个变体可能需要考虑对高通信息进行相应的处理。
现有研究发现,图神经网络中的高频信息未必都是噪声。若能有效利用高频信息,可能会显著提升模型的表达能力。与前述模型设计思路具有相似性,我们针对这一目标提出了一种改进方法。该方法通过结合原始滤波空间和高通滤波空间,试图减少变量z与h之间的相似程度。
在后续分析中,我们对前面的滤波项进行了化简处理,即β原本可以设计为α倍的单位矩阵I与1−α倍的拉普拉斯矩阵的组合,但为了简化起见,我们仅保留了拉普拉斯矩阵的这一项。同时,β作为一个平衡系数,其范围可能从0延伸至正无穷,这一设定有助于确保其成为一个对称半正定矩阵。
以类似的方法推导出它的闭式解和迭代解,同时进一步证明其收敛后具有相同的传播结果。
还有一点,这两个新方案在设计过程中可以集成经典的PPNP模型,因此,我们方案的效果预期应不低于PPNP模型。
将β参数设定为0,或者说将前面的μ参数设定为1,这样新的方案的优化目标就直接等价于原有的PPNP对应的优化目标。因此,新的方法相较于PPNP方案,虽然在原有的基础上增加了更多的考量因素,但其核心优化目标与PPNP方案具有完全一致的效果。

我们还进一步对谱域的分析进行了探索。
现在图神经网络领域开展的多种工作,可能需要在谱域上考虑其表达能力。其中,涉及低通、高通和全通的A矩阵、I矩阵,以及拉普拉斯矩阵\mathcal{L}等概念,这些均源自谱域相关研究。图神经网络本质上是通过归一化处理后的A矩阵来进行操作,这相当于对图上的信号进行低通滤波处理。而拉普拉斯矩阵则更倾向于高通滤波特性,以此为基础发展出一系列谱域上的方法。
这些可能源自或借鉴了谱域的一些信息或概念。一些研究指出,在图神经网络的谱域,其表达能力与过平滑问题存在直接关联。具体而言,该图神经网络所对应的多项式滤波器的表达能力越强,其缓解过平滑的能力也越强。
具体是怎么回事?
我们首先对图上的信号 x 进行分析。其中,信号 x 通过 f channel 进行处理,这相当于对特征矩阵 x 进行操作。其形式可表示为拉普拉斯矩阵的 k 阶函数,其中 ε 的系数则决定了多项式滤波器的能力,直接影响其对过平滑现象的抑制效果。因此,系数的选择及其灵活性对于滤波器的性能调节具有重要意义。
在图中,k层GCN等同于一个具有固定系数ε的结构,其系数构成一个固定的k阶多项式滤波器。此外,现有研究也指出,固定系数或常数系数的使用,实质上制约了GCN的滤波表达能力。因此,GCN容易导致过平滑现象。
在 appnp 和 ppnp 模型以及我们提出的方法中,ε 系数具有可调节参数,其 α 系数或 αμ 系数决定了其滤波器表达能力。这表明它们的滤波器表达能力相较于固定结构的 GCN 更为灵活。当引入可调系数时,这表明该系数会随着 α 或 αμ 的不同而发生变化。
当系数的灵活性得到增强时,它们的抑制过平滑的效果也随之提高。
进一步分析可知,与现有的ppnp模型相比,我们的模型在形式上极其丰富,主要可分为三种不同的表达方式。每种表达式的构建均基于参数α和μ的共同作用,通过两个独立调节的参数α和μ,我们的模型展现出显著的优势,其表达能力远超仅依赖单一参数的模型。相较于现有的ppnp模型,我们的模型在防止过平滑方面表现得更加出色。
针对平滑问题的处理,我们的模型采用了多个可调参数α、μ和β。其中,β参数对应于另一个变体的参数设置。通过这些可调系数,我们能够模拟出ε任意取值的效果。具体而言,通过同步调节α和μ,我们能够使系统逼近ε的任意取值状态。
在防止过平滑问题方面,我们的模型表现更优,而 ppnp 的性能则优于固定系数的 GCN。
以上就是对于过平滑的理解
4、实验内容

上面是理论证明部分,接下来是实验部分

实验部分主要对6个数据集上的4大类经典模型进行了比较分析,具体包括经典的图学习模型、基于频谱域和空域的模型,以及浅层和深层的图神经网络模型。同时,我们在这些数据集上引入了一个评价指标来进行评估。
首先是节点分类实验。

从实验结果来看,我们提出的方法在所有测试中表现最佳,经过实验验证,我们的方案在所有测试中表现最佳,这证明了其可靠性。
同时,我们的模型相较于 ppnp 性能有显著提升**,由于 ppnp 是我们方法的一个子集。此外,闭式解与迭代解均参与了评估,其中,迭代解采用了我们设计的迭代次数为10(即k=10)的方案,用于验证其迭代效果。
通过10次传播深度的传播,我们已经显著接近了闭式解。实验结果表明,这些方法之间的效果相当接近。
第三点结论涉及低通和高通,以及低频和高频信息。在分析中没有特别强调低频和高频的区别,因此结果也表明,无论是低频还是高频的这两种变体,目前尚无明确结论,这取决于所分析数据集的特性。
其他相关结论,例如 ppnp、GCN 还有 appnp 的模型之间的差异性结果,也可以在我们的表格中体现出来。
第二个实验基于平滑问题的讨论,研究了传播深度的验证。

我们考察了迭代次数的不同取值(具体为2至64次),并分析了在k取值为2至64的情况下,模型在三个数据集上的表现变化情况。观察发现,表现最佳的两条线属于我们的模型。值得注意的是,随着k值的增加,模型性能并未出现下降趋势,这表明其有效缓解了过平滑现象。
此外,基于之前的分析,我们的谱域滤波器的表达能力可能具有更强的灵活性,这些因素包括...等等,这些原因共同作用下,最终使得其在防止过平滑方面表现更为出色。同样地,可以观察到,简化 GCN 的一些性能表现明显下降,具体表现为...等等。
第三个实验是模型分析实验。

在这一实验中,我们投入了大量的人力和精力。主要目的是为了验证我们之前提出的αμ和αβ这两个可调系数对模型性能的影响。
这些系数可能包括平衡系数,还有转移概率系数。做法分为两种,
第一,上图彩色区域是我们对系数进行了一次全面的遍历,并绘制了一幅精细的等高线图。该等高线图准确反映了其节点分类的性能指标,而深红色区域应为效果最佳的区域。通过观察这幅图,我们可以直观地了解不同系数变化对模型性能的影响。总体而言,我们提出的方法在系数变化的较大范围内均展现出较为稳定的效果。
第二种属于一种小型分析,我们保持 α 不变,在转移概率固定时,α 通常具有一个常用取值范围,0.05 至 0.2 是其较为常见区间。**确定 α 后,我们进一步研究 μ 和 β 对模型性能的影响。**该曲线揭示了原始滤波空间与高频或低频滤波空间之间的关系,它们之间的比例决定了传播效果的最佳平衡。
5、总结

本文深入探讨了不同gnn传播机制之间的内在联系。通过构建不同网络之间的联系框架和一个灵活的目标优化模型,本文为深入理解与分析各种网络结构提供了一个全局视角。在此基础上,我们提出了一种具有可调节卷积核的新型gnn架构,并详细分析了其卓越的表达能力。通过一系列实验验证,该gnn模型在真实数据集上的性能显著优于现有最先进的模型。
这篇工作首先提出一个统一的优化框架,并从理论上证明了该框架能够整合多种图神经网络的消息传递机制。在此基础上,我们深入探讨了基于该框架设计图神经网络的可能性。具体而言,我们提出了两个创新性的图神经网络设计方案,并详细分析了其收敛性和谱域表达能力。最后,通过一系列实验验证了所设计模型的性能,并进一步论证了基于该统一框架构建图神经网络的可行性。
这篇文章仍是初步的研究,即图神经网络的传播机制到底有没有理论基础,或者能够如何从理论角度更深入地理解这些图神经网络。文章同时给大家提出了这样的探讨,即除了已有的两种设计图神经网络的方式,还可以以它的传播目标为出发点,通过设计传播目标或传播过程背后的模式,来设计新的图神经网络,从而使得图神经网络的可解释性与可靠性进一步提升。
我们通过举例说明两个设计新的图神经网络的方案,这些方案较为基础且未考虑特殊需求,通过这种方式,我们可以了解如何以这样的目标设计一个新的图神经网络。具体而言,根据实际应用场景,可以根据个人需求去设计新的图神经网络。这些设计方向为未来的研究提供了丰富的探索空间。
QA环节
1)单位矩阵I是全通滤波,H是低频滤波,这个依据是什么?
GNN一些谱域分析工作,SGC上对图卷积操作就做了一些低通分析。
2)A是低通,L是高通,这是为啥?
已经有一些工作分析了。A是加了self-loop归一化了的,因此具有低通性质;L是I-A因此具有高通性质
3)高通比低通好吗?
根据数据集特点+任务特点来说的
4)O_reg正则项解释
有边相连则相似-》图拓扑平滑作用
其他
1)实验、模型设计啥的都是仿照PPNP设计的实验和指标等
2)μ影响较小,α影响较大(6e-1=0.6)
参考
直播回放 | 同源共融:构建了一个统一且可解释的优化框架,为图神经网络的发展提供了新的思路。该框架通过整合多种先进的理论模型,实现了对复杂网络结构的精准分析与高效处理,为图神经网络的进一步优化和应用提供了理论支持。
AI Drive
Notes/GNN/WWW'2021
https://videolectures.net/www2021_zhu_optimization_framework/
总结
未完待续
