Advertisement

Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

阅读量:

用于生成目标导向分子图的图卷积策略网络

  • 摘要

  • 引言

  • 当前工作
    1.2 图表示方法
    1.3 强化学习方法
    1.4 对抗训练

  • 相关工作综述

    • 所提方法

      • 问题定义
      • 图生成作为马尔可夫决策过程
      • 分子生成环境
      • 图卷积策略网络
      • 基于策略梯度的训练
    • 4 Experiments

      • 4.1 Experimental Setup
      • 4.2 Molecule Generation Results
    • 5 Conclusion

Jiaxuan You

2019年

Abstract

为了创造能够提升目标性能的新颖图结构,并严格遵守一系列基本规则,在化学、生物学以及社会科学研究领域中这一探索方向具有重要意义。
分子图生成任务的主要目标在于发现满足特定属性(如药物-likeness和合成可行性)的新分子,并且必须遵循物理定律(如化学价)。然而构建模型以实现既能满足所需属性又需应对高度复杂性和不可微性的规则时仍面临着巨大的挑战。

本研究提出Graph Convolutional Policy Network (GCPN),该模型基于通用图卷积网络架构设计。其中(1)该模型基于通用图卷积网络框架设计,旨在通过强化学习生成具有目标导向特性的分子结构。(2)经过训练后,该模型能够利用策略梯度方法优化特定领域相关的奖励指标与对抗损失,并在遵循领域特定规则的环境中进行推理与计算。实验数据显示,在现有分子基准上进行评估时,GCPN能够实现61%的化学性质优化水平;特别在约束性质优化任务方面表现突出,较传统方法提升了高达184%的性能提升幅度。

1 Introduction

药物发现与材料科学建立在特定分子结构的基础上。在药物发现与材料科学领域中,许多关键问题都源于对具备所需特性分子结构的设计原理。然而由于化学空间的广度使得这一任务依然极具挑战性。如前所述在文献[32]中报道了药物样分子数量大致介于1023至1060个。此外在文献[21]中指出:化学空间是离散而非连续的;同时在微小结构变化下分子特性表现出高度敏感性。

最近,在将深度学习模型成功应用于分子生成领域方面获得了显著进展[15、38、7、9、22、4、31、27、34、42]。然而,在直接优化所需的各种物理、化学和生物特性指标的同时生成独特的有效分子图仍是一项具有挑战性的任务。

1.1 Present Work.

在该项研究中, 我们构建了图卷积策略网络(GCPN)。这是一个专门用于生成分子的方法。这种方法通过该系统实现了精准控制, 并且能够有效预测结果。这种系统能够引导生成过程以实现特定目标。同时受到基本化学规则的约束, 输出结果的空间被合理限定。为了提升目标导向下的分子合成效率, 我们整合并优化了三个关键理论模型, 并构建了一个综合平台来整合这些模型

  • 图像表示: 图像表征学习旨在从生成图中提取其对应的矢量表征
    • 强化学习
    • 对抗训练: 将对抗损失作为奖励信号,并结合示例分子数据集所带先验知识

整个模型在增强学习框架中进行端到端训练 。

1.2 Graph representation

该研究将分子直接表征为分子图;相比于SMILES(简化的分子输入线性系统)[40]而言,则更具优势;这种表示法是该方法所采用的;在以往的研究工作中已被广泛应用[9, 22, 4, 15, 38, 27, 34]。

1.3 Reinforcement learning

相较于基于数据集的学习方法而言,在目标导向分子生成方面采用强化学习方法的优势明显。

所需的分子性质(如药物相似性[1,29])以及分子限制(如化合价)均属难以捉摸且不可导的特性,在此基础下我们无法将其直接纳入图生成模型的目标函数中。相比之下强化学习则可借助环境动力学机制及奖励设计工具实现对硬约束条件与所需属性的有效表征

(2) 强化学习支持主动探索数据集中样本以外的空间范围。 作为替代方案的方法包括[9,22,4,16]这些深度生成模型,在重建特定分子结构方面取得了显著成效;然而,在发现新化学实体的能力上存在一定的局限性。

1.4 Adversarial training

基于示例分子数据集所参考的经验信息对分子生成具有重要意义。 采用对抗训练策略时, 可通过利用生成器与可学习鉴别器之间的对抗机制来有效解决相关问题[10]。 当模型达到稳定收敛状态后, 鉴别器能够整合给定数据集中的关键信息, 并从而引导生成器优化其性能。

GCPN旨在执行强化学习代理在化学感知图生成环境中的操作。(RL代理) 通过逐步将新子结构或原子与现有分子图连接,并添加键以连接现有原子的方式构建分子。 GCPN能够预判键的附加作用,并运用策略梯度方法优化包含分子特性目标和对抗性损失在内的奖励体系。 对抗性损失由基于图卷积网络[20,5]的鉴别器计算,在示例分子数据集上协同训练。 总体而言,该方法不仅能够直接优化适用于特定应用场景的目标函数,还能保证生成的分子不仅现实合理且符合化学规范。

我们对药物发现和材料科学领域中的三种不同分子生成任务进行了评估:分子属性优化、目标属性导向以及条件属性优化。我们基于ZINC数据集[14]选择了示例分子,并通过训练策略网络来生成具有较高属性得分、预先指定范围的目标属性分子或具备特定子结构但性能优异的分子。无论是在哪一领域…的结果均优于现有方法。我们的研究发现…其生成物在性能指标上优于现有最佳方法(高出约61%),且在受约束优化场景下的平均表现优于现有方案(高出约184%)。

Yang et al. [42]和Olivecrona et al. [31]开发了基于分子特性的RNN编码器生成SMILES表示,并采用了不同策略以改进性能。

Guimaraes et al. [27]和Sanchez-Lengeling et al. [34]进一步提出了基于增强学习奖励的对抗损失,并通过这一方法提高了与给定分子数据集的一致性。

Jin等人于[16]提出了一种基于变分自编码器(VAE)的方法,在该框架下将分子表示为由小原子簇组成的树状结构。此方法仅通过间接途径优化潜在嵌入空间中的分子特性,在我们的研究中则直接针对分子图进行优化

You et al. [43] 使用自回归模型实现图生成过程的可能性最大化, 但该方法不具备生成属性图的能力

基于Li et al. [25]和[26]所提出的顺序图生成模型,在该模型中可以通过整合条件标记来生成具有接近指定目标分数分子特性的分子。然而这些方法无法直接优化所需的目标分子特性。

3 Proposed Method

3.1 Problem Definition

我们将图G表示为(A,E,F),其中

  • 矩阵 A\in \{ 0,1\}^{n\times n} 被定义为邻接矩阵。
  • 实数域中的矩阵 F \in \mathbb{R}^{n \times d} 表示顶点特征矩阵,并规定每个顶点具有 d 维特征向量。
  • 定义张量 E\in \{0,1\}^{b\times n\times n} 为具有多种边类型的离散相邻向量,并假设存在 b 种不同的边类型。
  • 当两个顶点 j,k 间存在 i 种类型的边时,则满足关系式 E_{i,j,k}=1, 并且邻接矩阵满足关系式 A=\sum^b_{i=1} E_i

我们的主要目标是创建一个能够使给定特性函数S(G)达到最大值(其中S(G)\in \mathbb{R})的图。例如寻求使期望值E_{G'}[S(G')]最大的情况。其中统计量S可能涉及多个领域中的特定指标。

在这里插入图片描述

3.2 Graph Generation as Markov Decision Process

3.3 Molecule Generation Environment

(1) State Space

(2) Action Space

(3) State Transition Dynamics
将特定领域的规则内置于状态转换动力学中。 环境遵循预设规则的操作。 策略网络建议的无效操作被系统拒绝,并未改变当前状态。 在分子生成任务中,环境整合了化学反应规则。 图1(d)中两个操作均通过了化合价验证,并导致相应分子结构的变化。 请注意,在这种表示方法之外,在图论的基础上完成化合价验证成为可能:即使面对不完整结构也能实现该步骤。

在指导RL代理行为的过程中,我们采用了中间 rewards 与最终 rewards 结合的方式。具体来说,则是基于多个关键指标来计算出一个综合性的 final reward 值。其中,在特定领域内设置了两个重要的评价维度:一是基于 QSPR 分析得到的关键分子特性指标;二是基于药理学性质设计的独特评价标准。具体来说,则是基于多个关键指标来计算出一个综合性的 final reward 值。其中,在特定领域内设置了两个重要的评价维度:一是基于 QSPR 分析得到的关键分子特性指标;二是基于药理学性质设计的独特评价标准. 在这种设定下, 我们不仅关注于当前分子本身的物理化学性质, 更注重其在未来药物开发过程中的潜在应用价值.

为了通过生成过程使得生成的分子与训练数据集类似,我们基于GAN框架[10]计算了对抗性奖励

其中\pi_{\theta}代表策略网络模型中的参数向量, 而D_{\phi}则作为鉴别器网络, 用于区分生成数据与真实数据的特征差异. 设x为输入图, 其中p_{data}(x)则是在最终图(用于最终奖励计算)或中间图(用于中间奖励计算)上定义的基础数据分布函数. 由于x相对于参数\phi而言是非微分的图形对象, 因此无法直接对其应用随机梯度下降法进行训练. 替代方案是将V函数与其他形式的奖励信号一起作为附加奖励项, 并通过策略梯度方法[44]对总奖励函数进行优化(见第3.5节详细说明). 鉴别器网络采用了相同的架构(第3.4节)来计算节点嵌入表示, 并将其嵌入结果整合到全局图嵌入空间中, 最终转化为标量预测值

3.4 Graph Convolutional Policy Network

在明确图生成环境的基础上,我们介绍了GCPN的体系架构。GCPN是一种基于强化学习代理机制的策略网络,在环境中执行任务。该网络通过将当前中间图G_t与辅助构建脚手架图C的集合作为输入端口,并输出相应的操作指令。这些操作能够预测并生成新的连接关系,如第3.3节所述。

(1) Computing node embeddings

为实现连接预测目标,在集合G_{t} \cup C上,我们首先利用图形卷积网络(GCN)[20,5,18,36,8]对输入图进行节点嵌入提取。这一技术已获得广泛研究支持,并可实现分子表示学习中的最先进性能水平。随后我们采用特定变体来支持不同边类型信息的有效融合,在高层设计中将每种边类型的消息传递操作独立处理并串行完成。具体而言,在GCN架构的第l层运算中我们将来自所有边类型的聚合信息综合汇总以更新节点表示向量h^{(l)}\in\mathbb{R}^{(n+c)\times k}其中n,c分别代表集合中的元素数目而k设定为嵌入维度参数。更详细地说通过应用L层GCN架构扩展图集 G_{t}\cup C 我们能够获得完整的节点表示矩阵X=H^{(L)}

(2) 动作预测
在时间步长t中,基于链接预测机制生成的动作a_t由四个子过程依次完成:首先选择起始和结束节点;其次预测边类型,并确定边的存在类型;最后判断操作是否终止。具体实现上,则是通过公式3和4计算出各子过程的概率分布,并对每个子过程进行采样以获得最终结果。

a_t = \operatorname{concatenation}(a_{\text{first}}, a_{\text{second}}, a_{\text[edge}}, a_{\\text{stop}})

\begin{array}{ll}{f_{\text {first }}\left(s_{t}\right)=\operatorname{softMAX}\left(m_{f}(X)\right),} & {a_{\text {first }} \sim f_{\text {first }}\left(s_{t}\right) \in\{0,1\}^{n}} \\ {f_{\text {second }}\left(s_{t}\right)=\operatorname{softMAX}\left(m_{s}\left(X_{\left.a_{\text {first }}, X\right)}\right),\right.} & {a_{\text {second }} \sim f_{\text {second }}\left(s_{t}\right) \in\{0,1\}^{n+c}} \\ {f_{\text {edge }}\left(s_{t}\right)=\operatorname{SoftMAX}\left(m_{e}\left(X_{a_{\text {first }}, X_{a_{\text {second }}}}\right)\right),} & {a_{\text {edge }} \sim f_{\text {edge }}\left(s_{t}\right) \in\{0,1\}^{b}} \\ {f_{\text {stop }}\left(s_{t}\right)=\operatorname{SOFTMAX}\left(m_{t}(\operatorname{AGG}(X))\right),} & {a_{\text {stop }} \sim f_{\text {stop }}\left(s_{t}\right) \in\{0,1\}}\end{array}

我们采用m_f这一符号来表示一个从矩阵空间\mathbb{R}^{n \times k}映射到\mathbb{R}^n空间中的多层感知器(MLP),这个概率向量被用来表征每个节点被选中的概率分布情况。随后,在构建第二个节点的选择机制时,在现有图结构的基础上引入了与目标点相关联的信息整合过程。具体而言,在构建第二个MLP模型m_s时,则是基于第一个选定点a_{\text{first}}和后续可能的选择点a_{\text{second}}之间的连接关系来进行特征提取和概率分布建模。值得注意的是,在整个链接预测过程中,默认情况下第一个被选中的点\alpha_{\text{first}}必须属于当前生成的图Gt的一部分;而第二个被选中的点\alpha_{\text{second}}则可以根据具体情况来自同一个图Gt或者引入外部的新子结构C进行扩展构建。为了实现这一目标,在实际操作中我们首先通过聚合函数AGG将各个单个节点的信息汇总成一个整体性的图特征向量;接着利用另一个MLP模型m_t对这一图特征进行非线性变换处理,并最终输出一个标量值用于评估链路预测的成功概率。

3.5 Policy Gradient Training

主要依赖于策略梯度的方法已被广泛应用于优化策略网络领域,在此处采用了最新开发的PPO算法[35](即最近提出的改进型Policy Optimization方法),它被认为是当前较为先进的策略梯度算法之一。其目标函数定义如下:

\max L^{\mathrm{CLIP}}(\theta)=\mathbb{E}_{t}\left[\min \left(r_{θ}(a_t | s_t) \hat{A}_t, \operatorname{clip}(r_θ(a_t | s_t), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right],

其中,

r_θ(a_t | s_t)=\frac{\pi_θ(a_t | s_t)}{\pi_θ^{old}(a_t | s_t)}

其中r_{t}(\theta)被定义为裁剪到区间[1-\epsilon, 1+\epsilon]的概率比变量,并使L^{\mathrm{CLIP}}(\theta)成为策略迭代过程中的安全基准目标[17]的下限值,在GCPN架构中,估计的优势函数则基于学习到的价值函数V_{\omega}(\cdot)进行计算以降低方差估计量的波动性。该价值函数V_{\omega}(\cdot)采用多层感知机(MLP)结构,在第3.4节所述的方法基础之上对图节点进行表征映射。

4 Experiments

4.1 Experimental Setup

基于分子生成实验的研究中,我们采用了ZINC250k分子数据集[14]这一重要资源库。该数据集包含了共计250,000个药物分子,并特别选取了具有最多不超过38个原子的常见化合物作为研究对象。该数据集则被用于开展专家级别的预训练任务以及对抗性训练研究。

通过采用RDKit [23]工具,并将其与OpenAI Gym环境[3]相结合,我们将分子环境配置为适应训练于ZINC250k数据集。具体而言,在这一过程中设定最大可容纳的原子数量为38个。该系统包含9种不同的原子类型以及3种类型的边。在特定的奖励设计中,我们基于化学性质的关键指标以及生成产物的质量评估标准,并根据各奖励组件的重要性进行线性比例调整。将所有分子生成轨迹上的各项奖励综合考量时,在最终化学性质评价中获得的总分值范围限定在[4,4]之间,在最终化学过滤器评估中则限定在[2,2]之间。此外,在对抗性评价维度上分别设置了两个1到1之间的评分区间。

在这里插入图片描述

基于图神经网络的研究框架下构建了一个三层结构的GCPN策略网络,在设计过程中将每个节点嵌入维度设定为64,并在每层后均附带批量归一化处理,并引用文献[13]作为支撑。同时,在实验设计中同样架构下构建了一个三层GCN识别器用于训练任务。在尝试增加更多GCN层时,观察到添加效果不显著,并发现在不同聚合函数之间展现出相当竞争力。为此,在所有实验中统一采用SUM运算符进行计算。此外,两者均为生成高质量分子提供了不可或缺的支持:具体而言,在预训练阶段采用PPO算法进行超参数未做特别调整的RL目标优化,并基于Adam优化器选择批次大小为32的标准配置;而在预训练阶段则进一步降低了学习速率为0.00025以确保更快收敛的同时维持性能水平。

基线。我们将我们的方法与以下最新的基线进行比较。结点树VAE(JT-VAE)[16]是结合了图形表示和VAE框架的最新算法
用于生成分子图,并在学习到的潜在空间上使用贝叶斯优化来搜索具有优化特性得分的分子。事实证明,JT-VAE优于以前的分子生成深层生成模型,包括Character-VAE [9],Grammar-VAE [22],SD-VAE [4]和GraphVAE [39]。我们还将我们的方法与ORGAN [27](使用基于文本的分子表示法基于RL的最新分子生成算法)进行比较。为了证明基于学习的方法的好处,我们使用随机爬山算法进一步实现了一个基于规则的简单模型。我们从一个包含单个原子(与GCPN相同的设置)的图形开始,遍历给定当前状态的所有有效动作,随机选择下一个具有最高5个最高属性得分的状态,只要对当前状态有所改善,然后循环直到达到最大节点数。为了公平地比较不同方法,我们为所有方法设置了相同的目标函数,并使用32个CPU内核在相同的计算设备上运行了所有实验。我们使用其发布的代码来运行两个深度学习基准,并允许该基准具有大约24小时的挂钟运行时间,而我们的模型可以在大约8小时内获得结果。

4.2 Molecule Generation Results

在此任务中

在这里插入图片描述
在这里插入图片描述

为了对比分析。在惩罚式logP的优化过程中,我们提出的方法始终表现出色,在实验结果中始终保持较高的性能水平。相较于JT-VAE,在此基准任务上平均提升了约61%;相较于ORGAN,在此基准任务上平均提升了约186%。此外我们提出的方法不仅超越了QED优化任务中所有的现有基准方法(QM)性能水平,并且显著优于基于随机搜索策略的传统算法(如随机爬山法)。

相较于ORGAN而言,在相同的基准测试上我们取得了更好的成绩。这是因为基于RL的方法可以直接优化目标属性得分,并且能够自然地推导出数据集外的潜在结构。 图2(a)和(b)分别展示了生成分子在优化后的logP和QED指标下的可视化结果。

尽管大多数生成出来的分子都是现实存在的,在极少数特殊情况下——尤其是在我们减少了对抗性奖励机制以及基于专家预训练成分的情况下——我们的方法可能会产生不太理想的结果。这些异常分子往往具有由经验模型预测出惊人高logP值所带来的严惩惩罚分值(例如,在图2(a)右下角区域中)。我们的方法能够正确识别出这些异常情况:即,在计算logP的经验模型中使用现有知识时,“碘元素”的原子贡献率最高。这些异常产生的结果可能导致经验预测模型对新样本具有不准确的表现能力(这正是我们在仅依赖经验模型优化时所面临的问题)。当生成出来的分子与训练数据集中的分子存在显著差异时——这种情况下——经验预测模型的效果会大打折扣。如果我们不对生成出来的所有分子施加任何限制条件,则优化算法可能会过度依赖于某些特定区域的经验特性(这些区域可能缺乏足够的代表性)。为了弥补这一缺陷——我们结合了对抗性训练和基于专家的知识预训练——从而能够在已有现实知识指导下的更合理的化学空间中进行优化。然而这样做并不能保证经验预测模型能够给出准确的结果评分(这正是为什么爬坡基线算法往往会导致结果偏离理想状态的原因)。

主要关注点在于设定两个关键指标——分子量(MW)和logP的目标区间,并统计满足该范围内性能评分的化合物占总化合物的比例以及其多样性程度。其中化合物的多样性程度被定义为其摩尔指纹[33]间的平均成对Tanimoto距离值。在本任务中采用深度强化学习方法优化生成物的质量,在提升模型性能的同时通过设定特定的目标区间来增加算法在外推能力上的验证难度——即测试模型是否能够有效预测未见过的数据集中的化合物特性。具体而言本研究设定的目标区间包括以下四个区间:e².⁵ ≤ logP ≤ −2、5 ≤ logP ≤ 5.5、150 ≤ MW ≤ 200以及500 ≤ MW ≤ 550

如表2所示,在与基线方法的对比中,GCPN在生成符合目标范围特性的分子方面显示出显著更高的效率。此外,在多样化程度上表现优异的GCPN具备能力掌握通用随机策略的核心能力。

在这里插入图片描述

在本实验研究中,在JT-VAE框架下进行了评估后,并对模型进行了属性优化设置。通过提升惩罚logP的值,并将生成的目标分子限定为从ZINC数据库中随机选取的800个具有较低惩罚logP值的分子之一。基于该模型的方法难以实现对生成分子结构的有效控制,在这种情况下我们采用了基于该模型的方法,并降低了对生成分子结构的要求以确保原始与修饰后的分子里存在较高的相似度sim(G, G₀)超过设定阈值δ.我们将固定版本的GCPN在从ZINC数据库中随机选择并固定的800个初始分子中进行统一训练,并在此过程中执行与属性优化任务相同的训练过程.表3展示了在这些样本数据中共计812个不同的目标化合物当中,在经过性能得分标准化处理后所得的最佳表现者的平均改进百分比以及原始与修饰后的分子里存在较高的相似度sim(G, G₀)超过设定阈值δ.值得注意的是,在给定特定目标化合物的情况下我们所采用的方法能够实现显著更好的性能表现

5 Conclusion

我们介绍了一种名为GCPN的新方法,该方法结合了图状态表示技术和对抗训练机制,并成功应用于目标导向型分子图生成任务的研究中

全部评论 (0)

还没有任何评论哟~