【GNN报告】微软亚洲研究院郑书新:图神经网络迈入Transformer时代
本报告探讨了图神经网络(GNN)与Transformer模型的结合与融合。首先指出Transformer模型虽然最初应用于自然语言处理(NLP)领域并取得了巨大成功,但在图数据上的应用面临挑战。报告指出传统GNN方法存在聚合特性过强的问题,在较深层结构中难以有效区分节点特征。
为解决这一问题,郑书新团队提出了一种名为Graphormer的新架构,在标准注意力机制的基础上加入了空间位置信息、节点重要性及边特征等三种关键信息。通过理论分析验证了这一改进能够有效提升模型性能,并通过KDD比赛实验展示了其优越性。
报告强调了Transformer作为弱归纳偏置模型的优势,并提出了将其应用于异构图或其他复杂场景的可能性。未来研究方向包括进一步优化编码策略、探索全连接层的应用潜力以及关注节点级别的具体效果提升等。微软的AI4Science项目也被提及为该领域的重要探索方向之一。
目录
1、简介
2、图神经网络迈入Transformer时代
背景
Graphormer
空间位置引入
编辑
中心节点度引入
边特征引入
理论验证分析
编辑
实践(KDD 比赛上)
评价
未来编辑
微软的AI4Science
3、小结
4、参考
1、简介
报告嘉宾: 郑书新(微软亚洲研究院)

报告题目: 图神经网络迈入Transformer时代
报告摘要:
作为一种弱归纳偏差模型,在过去几年中Transformer架构已在自然语言处理和计算机视觉等多个领域展现出显著优势并逐步成为主流方法。相关研究显示,在图数据处理领域呈现出一致的发展态势。本次讲座将首先概述其主要应用领域中的成功案例随后介绍近来的研究进展表明该方法在图数据处理方面已取得显著突破并揭示其实现原理及其带来的优势接着探讨使用该架构进行图数据分析所蕴含的独特价值最后深入分析未来可能的研究方向与应用前景
参考文献:
该研究团队是否真正对图表示存在显著的局限性?
报告人简介:
郑书新博士通过"中科大-微软"联合培养计划获得博士学位,并于2019年加入微软亚洲研究院担任研究员一职。他致力于探索深度学习与图神经网络算法的实际应用,并利用机器学习技术深入研究科学领域中的关键问题。他的研究成果已在包括ICML、NeurIPS等国际顶级会议以及《环境科学与技术》、《大气研究》等高影响因子期刊上发表。郑书新研究员以其卓越的研究能力为核心,在多个领域取得了显著成就:开发的Graphormer算法在多项人工智能分子建模及分子动力学模拟竞赛中屡获佳绩,并持续击败包括DeepMind和Facebook AI Research在内的顶尖团队;他与其他高校合作开发的人工智能数值模型被中国"十四五"规划采纳为治理大气污染的关键技术方案。作为学术界的重要角色,郑书新研究员长期担任多个国际会议与期刊审稿人,并曾在清华大学及微软人工智能学院开展多门课程的教学工作
2、图神经网络迈入Transformer时代
背景

Bert出现之后,在NLP上不适用Trans论文基本中不了

骨架就是attention堆叠MLP:
Q与K相乘相当于计算相似性,经过Softmax相当于得到加权系数,最终加权到V矩阵上。
惊喜地发现Trans模型相当于归纳偏置,也就是一种先验知识。inductive bias其实是在数据量很少的时候人为的给模型和网络加上先验知识,让模型无需从数据中学习这些知识,而是直接去利用这个知识,从而给模型带来很好的性能。
同时,人们发现当数据量足够多的时候,反而不希望模型有太强的归纳偏置,归纳偏置越弱,模型的性能和潜力是越大的。且最有意思的是弱归纳偏置+越简单的模型,在模型越大,数据量越大的时候越好。

Trans专注于序列化数据的处理工作。然而,在现实世界中,并非所有数据都是结构化的;相反地,在大多数实际应用场景下,默认情况下都是基于图结构的数据模型进行存储和管理。那么,在面对图结构的数据时……啊!


现如今,DNN中都是遵循大数据,大模型的新范式;
但是在GNN上却相反

该图灵机类算法基于低通滤波器原理(主要通过聚合本地邻居信息实现),容易发生过拟合现象,在这种情况下节点特征会逐渐消逝直至仅保留拓扑结构特征(特别地,在某些领域如制药和材料科学中若缺乏节点特征,则仅凭拓扑结构就难以分辨物体或物质间的差异)。这也就限制了模型深度的发展。实际上我们需要探索如何突破这一限制以进一步提升模型性能。

虽然Transform架构难以有效地处理包含图结构信息的任务,
我们需要探索如何更好地将Transform与GNN相结合。
值得注意的是,
GNN本质上是在进行归纳偏置的操作,
我们希望加入的数量尽可能少,
这样做的好处是可以显著提升模型的泛化能力。
然而,
由于增加更多的参数可能会带来过多限制与约束。
例如,
在分子图上的应用所引入的偏置难以直接应用于材料科学领域。

在Trans中添加position信息能够有效解决句子在Trans中的相对位置问题,这一现象归因于order对句意的重要性。

Graphormer
现有的图嵌入方法存在显著局限性,在自然语言处理领域中处理的句子序列中即使在这样的场景下也未能有效捕获结构信息的本质等同于对集合信息的处理未充分考虑元素之间的相对顺序为此我们有必要将空间位置这一重要的表征维度纳入模型框架以弥补上述缺陷具体包括以下三种重要的表征维度:空间位置节点重要性和边特征


空间位置引入
评估节点间的关联程度的方法被称为距离度量。然而,在计算Q·K点积时引入这一因素成为一个关键挑战,在这种情况下它同时作为衡量工具使用并被纳入到注意力机制中的偏置项中。

中心节点度引入
核心是在评估节点重要性,并进行node pair计算;这里采用的是最基础的度量指标——也就是所谓的度。由于这也是一种衡量节点间关系的有效手段,在注意力机制中自然地纳入到bias的位置。

边特征引入
探讨如何通过边特征影响节点间correlation。沿最短路径将各条边的特征进行加权汇总,在注意力机制中将其作为bias项纳入计算。由于这种方法同样用于衡量节点间关系的重要程度,在注意力机制中将其作为bias项纳入计算。

理论验证分析
在GNN架构中, 聚合操作通常采用mean,max或sum等方法; 而变换层则使用自注意力机制(self-Attention). 那么, 在这种设计下, 是否可以通过一次agg即可有效区分子图的结构特征呢?
2、感受野:全局(SE是special encoding)

Trans的注意力机制实际上等同于聚合操作。具体来说,在图神经网络领域中,Transformers作为一种特殊的设计架构,在某些情况下可能会被还原为GraphSAGE的形式。


实践(KDD 比赛上)
Trans就是一种弱归纳偏置,很适合在大数据上使用





评价

未来

微软的AI4Science


3、小结
Trans就是一种弱归纳偏置,加上位置编码就很适合用于GNN
问答
1、Trans可以用于异构图吗?
肯定可以,异构图简单直接的方法是对不同属性节点如何embedding或者转换到同一个特征空间,清华唐杰老师,北邮...
2、norm放在MLP层可行吗?
对整个优化有作用
3、Trans和全连接区别
是一种全连接,数据稀疏下其实全图计算和local没差
4、怎么确定是哪些编码信息有用的呢?为何最终确定了那三种编码信息?
多看图论相关书,图自身属性信息加入,最大亮点在于distance距离信息的引入
5、在节点级别上效果如何?有没有思路?
直接用再节点上效果不是很好,可以去关注相关论文
4、参考
直播回放链接 || 日志信息 第2022年7月9日一期 || 微软亚洲研究院郑书新教授:图神经网络技术迎来Transformer时代的挑战与机遇
官方发布于第2022年7月9日 || 微软亚洲研究院郑书新教授全面解析图神经网络技术及其在Transformer框架中的应用进展_哔哩哔哩_bilibili
