图神经网络论文阅读(二十) Towards Deeper Graph Neural Networks

阅读量：

本文三位作者均毕业于Texas A&M University。
在深度图神经网络领域方面，本文完成了多项重要工作：
研究者指出，在当前图卷积运算中，若表示变换与传播过程存在过度耦合现象，则会对算法性能产生显著影响。
通过分离这两种操作间的关联关系，在更大范围内的节点特征提取上取得突破性进展。
基于此研究框架的基础上，在信息提取机制上实现了进一步优化与创新。

Graph Convolution Operations

从以下角度简要介绍图神经网络中的运算符，并说明其主要分为传播（PROPAGATION）和变换（TRANSFORMATION）两大类。

传播过程涉及对邻域信息的聚合；而转换过程中更新中心节点的信息起关键作用。值得注意的是，在GCN架构中，节点的信息通常通过特定机制进行表示。

在每一轮传播转化的过程中，在同一个CNN-step中同时完成转化与传播的过程。这也正是本文提出的"entanglement"这一概念所揭示的现象对图神经网络的表现产生了重要影响。这一现象与我们之前研究的一些论文有着相似的认识[1]例如APPNP[CNNII][GIN]等方法都是通过将聚合与更新操作分离来实现改进[2]尽管它们提出的机理可能不同[3]但通过解耦这两步操作却显著提升了图神经网络的效果[4]

EMPIRICAL AND THEORETICAL ANALYSIS OF DEEP GNNS

本文中最具吸引力的章节是从理论与实践两个维度展开探讨的。深入分析了其为何能够实现过平滑。

Quantitative Metric for Smoothness

平滑程度表征了网络中各节点间相似性的指标。为此开发了一种基于欧氏距离的方法来评估网络结构的过度平滑程度：该方法通过计算各节点间的相似性来判断是否存在过度平滑。

其中 $D(x_i,x_j)$ 表示节点之间的欧氏距离：

在此基础上，提出全局平滑度量，也就是每个节点平滑度的均值：

Why Deeper GNNs Fail

首先，使用t-SNE可视化的技术直观上查看网络平滑性的变化：

可以看到，在layer5的时候网络已经无法很好地区分节点信息了（从纺锤状变为曲线）。可以看出随着layer5开始[模型]的能力出现了显著下降。那么这个降低是否是由过平滑造成的呢？为此统计测试集的准确率与平滑度量的变化

随着深度的加深，节点间相似程度呈下降趋势；即节点间的相似程度逐步降低；而该网络性能在后续层次中持续降低；这表明该算法性能下降与图平滑度并无显著关联；本文对5-6层网络表现出的'过度平滑'现象提出了疑问；特别指出，在节点表示需经历大量迭代传播的情况下才会出现过度平滑问题；然而实际上对于像Cora这样的相对较为稀疏的图，在仅进行6次传播前就已展现出性能下降现象；这一现象可能由过度平滑之外的因素所导致

对上述公式的可视化：

可观察到经过layer50处理后继续维持良好的效果。\n\n平滑度量指标的变化如下：

更深层次的模型能够充分利用更大的范围而不受负面影响的影响。我们注意到，在Cora中75-hop范围内的情况会逐渐导致性能下降。

Theoretical Analysis of Very Deep Models

本文最为棘手的部分在于阐述两种典型传播机制的过度平滑现象。具体而言，在GraphSAGE中采用SUM（MEAN）聚合，在GCN中采用类似的聚合方法。其中 $\hat{A}=A+I$ 。

接下来证明当传播的次数无限大，上述两种聚合 $\widehat{A}^k_⊕$ ， $\widehat{A}^k_⊙$ 都收敛成固定的值，说明过平滑的效应。
先定义一个全是1的行向量 $e∈R^{1*n}$ ， $Ψ(x)=x/sum(x)$ ， $Φ(x)=x/||x||$ 。
Theorem 3.1 。给定一个连通图 $G$ ， $lim_{k→∞}\widehat{A}^k_⊕=Π_⊕$ ，其中 $Π_\oplus$ 是一个矩阵其每一行都是 $π_\oplus$ 并且 $π_⊕=Ψ(e\hat{D})$ 。
Theorem 3.2 。给定一个连通图 $G$ ， $lim_{k→∞}\widehat{A}^k_⊙=Π_⊙$ ，其中 $Π_⊙=Φ(\hat{D^{1/2}}e^T)(Φ(\hat{D^{1/2}}e^T))^T$ 。
Lemma 3.3 。给定一个图 $G$ ， $λ$ 是 $\widehat{A}^k_⊕$ 的特征值，其左特征向量为 $v_l ∈ R^{1×n}$ 右特征向量为 $v_r∈ R^{n×1}$ ，当且仅当 $λ$ 是 $\widehat{A}^k_⊙$ 的特征值，其左特征向量为 $v_l\hat{D}^{-1/2}∈ R^{1×n}$ 右特征向量为 $\hat{D}^{1/2}v_r∈ R^{n×1}$ 。也就是说这俩不同的矩阵之间是存在联系的。
Lemma 3.4 。给定一个图 $G$ ， $\widehat{A}^k_⊕$ ， $\widehat{A}^k_⊙$ 总是有一个特征值1的相关特征向量，并且其他的特征值满足 $|λ|<1$ （也就是最大特征向量为1）。并且这两个矩阵的1特征值的左右特征向量分别表示为 $e\hat{D}$ ， $e^T$ ， $e\hat{D}^{1/2}$ ， $\hat{D}^{1/2}e^T$ 。

Proof 3.1. 由于 $\widehat{A}^k_⊕$ 的非负性且行的和为1，因此可以看成是马尔可夫链的动态转移矩阵。这个马尔科夫链是不可约的和非周期的，因为图G是连通的，而连通中包含了自环。根据其性质， $lim_{k→∞}\widehat{A}^k_⊕=Π_⊕$ ， $Π$ 是一个所有行都等于 $π$ 的向量，满足马尔科夫稳态分布： $π=πP，\sum_iπ_i=1$ ，也就是任意以概率 $P$ 进行的游走都不会改变其概率的分布。对于 $π=πP$ 也就是 $1π=πP$ ，是特征值1对应的左特征向量。根据Lemma3.4，可以表示为 $e\hat{D}$ ；带入到 $\oplus$ 这里，就是 $π_⊕=Ψ(e\hat{D})$ 。这个证明还是蛮好理解的，前提是有一些先验知识。
Proof 3.2. $\widehat{A}^k_⊙$ 是一个对角化的对称矩阵， $\widehat{A}^k_⊙=QΛQ^T$ 是成立的， $Q$ 是单位正交矩阵， $Λ$ 的对角矩阵是特征值。那么其 $k$ 阶的传播为：

因为 $Q*Q^T$ 抵消后只剩下中间的主要 $\Lambda^k$ 项。这个过程可以通过将对角矩阵转换成特征向量与特征值相加的形式来实现。根据定理3.4可知，在这种情况下最大的 $\lambda=1$ 而其他 $\lambda_i < 1$ 随着 $k \rightarrow \infty$ , 所有 $\lambda_i^k \rightarrow 0$ , 因此最终仅剩下对应 $\lambda=1$ 的那个主成分及其左右特征向量之间的乘积关系成立即为： $\Pi_\odot = \Phi(\hat{D^{1/2}}e^\top)\Phi(\hat{D^{1/2}}e^\top)^\top$ .

至于定理3.3、3.4的具体推导过程感兴趣的读者可以参考原文, 真的是太难复述了, 真的是浪费时间去复述这些内容……

DEEP ADAPTIVE GRAPH NEURAL NETWORK

有了之前的基础，本文的网络模型十分简单易懂：

经过深度前馈神经网络模型完成特征映射过程以获取中间结果Z；随后基于对称归一化的拉普拉斯矩阵通过l次传播机制实现信息扩散以生成第l层级表示H_l；在此基础上引入残差连接将各传播层级的结果拼接汇总形成最终表示H；构建自适应特征选择向量S其类似于注意力机制的作用域能够自动识别不同层次的重要程度；通过整个网络结构的学习与优化过程完成分类任务

EXPERIMENTAL STUDIES

半监督分类的性能：

全部评论 (0)

还没有任何评论哟~

图神经网络论文阅读(二十) Towards Deeper Graph Neural Networks

本文的三位作者来自TexasA&MUniversity。本文为深度GNN的发展做出了以下贡献：本文认为当前图卷积运算中表示变换与传播的过度耦合是影响算法性能的关键因素。将这两种操作解耦后，更深层次...

图神经网络论文阅读(十九) Position-aware Graph Neural Networks，ICML2019

本文的三位作者来自斯坦福大学。在正式阅读本文之前，我们考虑这样一个事实：以GCN为代表的领域聚合方式在每一轮的前向传播中，只能获取到Nhop邻域内节点的特征，并且，其最为基本的想法是基于网络同质性的...

图神经网络阅读(二十二)Rethinking Graph Regularization for Graph Neural Networks，AAAI2021

本文的作者来自香港中文大学。本文证明了图拉普拉斯正则化对现有GNN的好处很少甚至没有，并提出了一种简单但图拉普拉斯正则化变体，称为传播正则化Preg，以提高现有GNN模型的性能。本文的模型十分简单，...

图神经网络论文阅读(二十一) Simplifying Graph Convolutional Networks，ICML2019

本文作者来自CornellUniversity，FederalInstituteofCearaBrazil。本文提到，GCNs从其深度学习传承中继承了相当大的复杂性，这对于要求较低的应用程序来说可能...

图神经网络论文阅读(十八) GeniePath: Graph Neural Networks with Adaptive Receptive Paths，AAAI2019

本文作者来自于AntFinancialServicesGroup和GeorgiaInstituteofTechnology。本文提出一种可扩展的方法，用于学习定义在置换不变图数据上的神经网络的自适应...

图神经网络论文阅读(十六) GraLSP: Graph Neural Networks with Local Structural Patterns,AAAI 2020

本文作者来自香港科技大学、北大和北邮，其中包含宋国杰老师和石川老师，这两位都是国内研究图表示学习的翘楚了。之前读石川团队论文的时候自己犯傻发邮件问了一个比较弱智的问题，石川老师还是让学生耐心帮我解答了...

图神经网络论文阅读(十五) MEASURING AND IMPROVING THE USE OF GRAPH INFORMATION IN GRAPH NEURAL NETWORKS，ICLR2020

本文的作者们来自于香港中文大学。对于GNNs从图形数据中实际获得了多少性能，人们的理解是有限的。本文介绍了一种基于上下文的GNN框架，并提出了两种平滑度度量方法来度量从图数据中获得的信息的数量和质量...

图神经网络系列论文阅读DAY1：《Predicting Tweet Engagement with Graph Neural Networks》

摘要翻译：社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下，预测一篇帖子在互动方面是否会产生影响，对于推动这些媒体的盈利利用至关重要。在现有研究中，许多方法通过利用帖子的直接特征来解决这...

图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS，ICLR2018

本文的第一作者来自剑桥大学计算机学院。文本提出了图形注意网络GATs，这是一种新型的神经网络结构，它对图结构的数据进行操作，利用maskedselfattention来解决先前方法的缺点。通过堆叠不...

图神经网络（二十八）GATED GRAPH SEQUENCE NEURAL NETWORKS

本文收录于ICLR2016，作者来自于多伦多大学，文章比较老了，但是很经典。GGNN是一种基于GRU的经典空域模型，一个基本的感觉就是GNN+Gate。我们现在看的大部分GNN模型都是基于消息传递机制...

是否确定退出登录?

图神经网络论文阅读(二十) Towards Deeper Graph Neural Networks

Graph Convolution Operations

EMPIRICAL AND THEORETICAL ANALYSIS OF DEEP GNNS

Quantitative Metric for Smoothness

Why Deeper GNNs Fail

Theoretical Analysis of Very Deep Models

DEEP ADAPTIVE GRAPH NEURAL NETWORK

EXPERIMENTAL STUDIES

全部评论 (0)

相关文章推荐

图神经网络论文阅读(二十) Towards Deeper Graph Neural Networks

图神经网络论文阅读(十九) Position-aware Graph Neural Networks，ICML2019

图神经网络阅读(二十二)Rethinking Graph Regularization for Graph Neural Networks，AAAI2021

图神经网络论文阅读(二十一) Simplifying Graph Convolutional Networks，ICML2019

图神经网络论文阅读(十八) GeniePath: Graph Neural Networks with Adaptive Receptive Paths，AAAI2019

图神经网络论文阅读(十六) GraLSP: Graph Neural Networks with Local Structural Patterns,AAAI 2020

图神经网络论文阅读(十五) MEASURING AND IMPROVING THE USE OF GRAPH INFORMATION IN GRAPH NEURAL NETWORKS，ICLR2020

图神经网络系列论文阅读DAY1：《Predicting Tweet Engagement with Graph Neural Networks》

图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS，ICLR2018

图神经网络（二十八）GATED GRAPH SEQUENCE NEURAL NETWORKS