Advertisement

Metapath-fused heterogeneous graph network for molecular property prediction

阅读量:

Metapaths-based graphical network of molecular characteristics prediction

基本信息

博客贡献人

小钻风

作者

Ying Ji , Guojia Wan , Yibing Zhan , Bo Du

摘要

在公共分子数据集上评估模型后发现其表现优异,在现有方法的基础上具有相当性能优势。

问题定义

定义1. 异构图\mathcal{G} = (V, E)包含了一个节点对应规则\phi: V \leftrightarrow \mathbb{X}_V(代表节点类型集合),以及一条边对应规则\Phi: E \leftrightarrow \mathbb{X}_R(代表边类型集合)。
定义2. 在给定一个异构图的情况下,在其上所定义的一个元路径p \in \mathcal{M}就是一种特定类型的路径模式:v_1\xrightarrow{\Phi(e_{1,2})} v_2\xrightarrow{\Phi(e_{2,3})}\dots\xrightarrow{\Phi(e_{n,n+1})} v_{n+1}其中每个节点都对应于其所属的节点类型,并且每条边都对应于其所属的关系类型。

方法

方法架构图

请添加图片描述

方法描述

第一步基于预先定义好的元路径模板语料库构建相应的元路径连接;第二步通过关系类型将异构图划分为若干同构子图。在各个子图中利用邻居注意力机制学习中心节点及其邻居节点的注意力权重。值得注意的是,在分子结构中尽管不同原子可能具有不同的类型但它们所拥有的原子属性数量一致因此初始向量维度保持一致。随后,在聚合邻居信息的基础上更新各节点的嵌入表示。第三阶段,在各个子图上运用关系注意力机制学习各类别权重系数。然后根据关系注意力权重对隐藏嵌入进行加权融合以更新各节点表示。最后,在各子图中依据关系注意力权重对隐藏嵌入进行加权融合以更新各节点表示。

构建元路径连接

化学官能团构成有机化合物的基础单元,在某种程度上反映了其各种特性。研究者通过建立基于元路径网络的方式整合这些有机化合物以揭示其内在联系。为明确元路径的概念,在QM9和ZINC两个数据库中研究者采用了广度优先搜索(BFS)算法来提取原始元路径特征并构建相关网络模型。从包含少量官能团的化合物中能够提取出具有意义且独特的元路径特征。

表1 元路径获取

请添加图片描述

实验结果表明,在实验过程中随着分子数目上升,并没有显示出明显的元路径数量增加现象。从图2可以看出,在实际应用中元路径的数量不会急剧增长,并且选择过程所需计算负担也较低。

请添加图片描述

图2 元路径数量与数据量大小关系

选出的元路径语料库如表2所示。

表2 元路径语料库

请添加图片描述

然后,在每一种预先定义好的元路径模板在所有图中进行应用的基础上,并根据算法1所提出的图遍历方法进行操作后,则能够生成相应的元路径实例集合。

请添加图片描述

每个实例都由图中的节点及其关联关系构成,并可与相应的元路径模板对应匹配。在同一个图中可能存在多个实例与之对应,在这种情况下作者通过连接每个实例中的源节点和目标节点来构建元路径连通边。例如,在图1所示的例子中基于元路径的边(虚线边)pp被视为连接邻居节点viv_i和vjv_j的子图级的附加边。通过这样的构建方式使得元路径上的各个节点之间的关联更加紧密并得到了充分的丰富和加强。此外在消息传递的过程中官能团所包含的原子之间能够进行信息传递即使这些原子在原始图中相距较远的情况下也能实现跨距离的信息交流这一特性使得基于元路径的关系类型具有更强的表现力和适用性

层次化注意力

邻居注意力机制
相邻节点通常会对其中心节点产生不同的影响。在这里,作者使用一种自我注意力策略来学习相邻节点的不同权重。根据化学知识,官能团通常决定分子的性质。在一个官能团中,有不同原子类型的节点,这些节点对官能团的性质具有不同的重要性。因此,邻居注意力机制关注的目标是在每个官能团子图中的特征传递和聚合。
首先,作者根据关系类型将整个图分解成不同的关系子图。每个关系子图只包含一种关系类型 。然后,作者在每个子图上利用一个独立的自注意力图卷积更新节点原子级的嵌入。自注意力运算学习邻居节点对中心节点的影响权重。将学习到的权重与节点特征向量合并(例如乘法),以产生邻域消息。具体地说,给定由化学键或元路径r∈Rbond⋃RMr\in \mathcal{R}{bond}\bigcup\mathcal{R}{\mathcal{M}}连接的原子对(vi,vj)(v_i,v_j),首先通过含有可学习权重WrW^r的映射函数将节点特征向量转换为高维隐藏嵌入。为了学习节点与其邻居之间的相关性,作者将每个邻居的变换表示连接在一起,从而得到聚合的特征向量mi←jm_{i\leftarrow j}。通过在每个聚集的特征向量上乘以一个注意力向量来实现邻居注意力策略。输出是每个相邻节点的重要性分数μi←j\mu_{i\leftarrow j},它说明了邻居节vjv_j在关系类型rr下对节点viv_i的影响。接下来,对邻居节点的重要性得分使用softmax函数得到其对应的影响系数αi←j\alpha_{i\leftarrow j}。设hi∈Rdh_i\in\mathbb{R}^d是viv_i的向量表示。节点邻居的注意力权重的计算可以表示如下:
hi=Linear(xi),Wr=Linear(eij)h_i=Linear(x_i),W_r=Linear(e_{ij})
mi←j=[Wrhi;Wrhj]m_{i\leftarrow j}=[W_rh_i;W_rh_j]
μi←j=ReLU(Wmi←j)\mu_{i\leftarrow j}=ReLU(W{m_{i\leftarrow j}})
αi←j=exp(μi←j)∑uk∈Niexp(μi←k),\alpha_{i\leftarrow j}=\frac{exp(\mu_{i\leftarrow j})}{\sum_{u_{k}\in\mathcal{N}i}{exp(\mu{i\leftarrow k})}},
其中xix_i表示原始的离散特征,hih_i通过一个线性层初始化,该线性层将离散的特征向量映射到连续的向量。eije_{ij}表示原始的边特征,也被转换和重塑为WrW_r。;;表示拼接运算。
执行上面的公式后,聚合来自邻居的消息以更新节点viv_i的嵌入:
hi=f(∑vj∈Niαi←jWhj),h_i=f(\sum_{v_j\in\mathcal{N}i}{\alpha}{i\leftarrow j}Wh_j),
其中ff是激活函数。
综上所述,将图转换为同构子图后,邻居注意力层学习邻居节点不同的权重系数,最后输出是在每个关系类型rr下的原子隐藏状态hr∈Hrh_r\in H_r。

更新与读取

实验

实验数据

请添加图片描述

实验结果及分析

对比实验

请添加图片描述
请添加图片描述
请添加图片描述

元路径敏感度分析
为了进一步探究各元路径的作用时, 逐一移除整个元路径数据库中的每一个元路径。这种做法使我们得以观察模型中各元路径的敏感度。随后记录了每条元路径对应的MAE值数据。尽管难以确切确定哪些官能团通过化学作用影响分子溶解度, 但表2显示的数据大致表明, 具有"-O"、"=O"和"S=O"亚结构的官能团可以从亲水性基团(如羟基、羧酸片段和磺酸片段)中衍生出来, 对预测水中的溶解度贡献较大。这些官能团通常使化合物具有较低的log P值, 即较高的水溶解度特性。从图中展示的例子可以看出, 大部分分子都表现出很强的亲水性特征。通过这些观察可以发现, 模型成功捕捉到了复杂化学官能团之间的相互作用机制, 并通过引入相应的语义连接学习了分子图的有意义表示

请添加图片描述

相关知识链接

下载

基础知识

在heterogeneous graphs研究领域内提出的技术:metapath2vec

基准实验涉及的论文

GCN: T.N. Kipf, M. Welling, Semi-supervised classification with graph convolutional networks, in: International Conference on Learning Representations (ICLR), 2017.
GGNN: Y. Li, D. Tarlow, M. Brockschmidt, R.S. Zemel, Gated graph sequence neural networks, in: International Conference on Learning Representations (ICLR), 2016.
GIN: K. Xu, W. Hu, J. Leskovec, S. Jegelka, How powerful are graph neural networks?, in: International Conference on Learning Representations (ICLR), 2018.
MPNN: J. Gilmer, S.S. Schoenholz, P.F. Riley, O. Vinyals, G.E. Dahl, Neural message passing for quantum chemistry, in: International Conference on Machine Learning
(ICML), 2017, pp. 1263–1272.
PAS: L. Wei, H. Zhao, Q. Yao, Z. He, Pooling architecture search for graph classification, in: ACM International Conference on Information & Knowledge Management
(CIKM), 2021, pp. 2091–2100.
PNA: G. Corso, L. Cavalleri, D. Beaini, P. Liò, P. Veliˇckovi´c, Principal neighbourhood aggregation for graph nets, in: Advances in Neural Information Processing
Systems (NeurIPS), vol. 33, 2020.
MolHGT: D. Deng, Z. Lei, X. Hong, R. Zhang, F. Zhou, Describe molecules by a heterogeneous graph neural network with transformer-like attention for supervised property predictions, ACS Omega 7 (4) (2022) 3713–3721.
High-order: C. Morris, M. Ritzert, M. Fey, W.L. Hamilton, J.E. Lenssen, G. Rattan, M. Grohe, Weisfeiler and leman go neural: higher-order graph neural networks, in:
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), vol. 33, 2019, pp. 4602–4609.

总结

本研究开发了一种基于元路径融合机制的图神经网络模型用于分子图属性预测任务。将每个分子表示为异构信息网络(HIN)节点并通过构建基于元路径连接的方式整合异质信息。由于元路径能够有效捕捉原子间复杂的相互作用关系该方法特别适用于分析具有复杂化学结构的官能团分布情况。通过构建层次化的连接结构节点嵌入能够更好地整合多维度信息特征从而提升模型性能。此外本研究还设计了一种基于分层注意力机制的异构图神经网络模型用于节点嵌入学习实验表明该方法在提取有效的分子指纹方面展现出显著优势

亮点

1.通过构造异构图模型,在不同边类型下分析各实体的潜在特征表达,并最终整合多模态信息以获得更加完善的节点表征。
2.设计元路径框架以增强各实体之间的关联性。

[不足]

[启发]

1.挖掘原子间隐藏的关系
2.从不同边关系考虑原子间的相互作用力

BibTex

复制代码
    @article{ji2023metapath,
      title={Metapath-fused heterogeneous graph network for molecular property prediction},
      author={Ji, Ying and Wan, Guojia and Zhan, Yibing and Du, Bo},
      journal={Information Sciences},
      volume={629},
      pages={155--168},
      year={2023},
      publisher={Elsevier}
    }

全部评论 (0)

还没有任何评论哟~