MDNN:一种用于药物-药物反应预测的多模态深度神经网络
目录
- 研究背景
-
模型阐述
- 模型架构解析
- 计算对象分析
- 方法
- 多模态知识图谱通道
- 高阶融合通道
- HF通道
- 模型架构解析
-
实验结果
-
后续思考
-
- 第一方面
- 第二方面
-
背景介绍
该研究开发了一种新型多模态深度神经网络(Multimodal Deep Neural Network, MDNN)用于预测药物相互作用事件(Drug-Drug Interaction, DDI)。其创新性地整合了基于药物知识图谱(Drug Knowledge Graph, DKG)的系统性和基于异质特征(Heterogeneous Feature, HF)的信息提取机制。通过该双通道架构系统性地提取药物的多模态表征信息(Multimodal Feature Representation)。利用多模态融合机制深入挖掘各表征间的互补特性(Complementary Characteristics),从而实现精准的DDI预测功能。
背景:随着药物种类的增长速度加快,在进行多药联合治疗时的安全管理变得至关重要。在同时给药的情况下(即在同一时间内给予多种药品),经常会发生药物-药物相互作用(drug-drug Interactions, DDI),这可能导致严重的不良反应并带来严重的伤害和高昂的医疗费用。因此准确预测这些相互作用对临床医生来说是一个关键任务,在制定有效的治疗方案时起到重要作用。目前广泛采用基于人工智能的方法来预测这些相互作用的情况。然而目前的研究方法仍然较少地关注DDI与其他关键因素(如目标药物和酶)之间的潜在关联性。此外现有方法未能充分考虑多通道数据所提供的互补信息及其在提高预测准确性方面的作用。

为了克服现有局限性问题
模型描述
模型架构展示

该模型架构如上所示,主要由两个通道构成:一个是基于DKG的知识流路径构建过程中的药物知识图嵌入方法研究;另一个是基于HF的知识流路径构建过程中的语义关联挖掘机制设计。具体而言,在DKG相关的知识流路径构建过程中,在构建中的药物知识图中提取药物间的拓扑结构信息及其语义关联;而在HF相关的知识流路径构建过程中,则旨在从不同模式中获取预测信息的目的下展开工作。通过多模态融合层有效整合这些数据特征间的关联性研究方法设计基础之上展开工作
计算对象介绍
论文提出几个将在问题表述中使用的基本定义:
- DDI矩阵:将DDI事件记录为\gamma\in y_{ij}^{N_{d}\times N_{d}}的形式,在此矩阵中N_{d}代表药物的数量,并且y_{ij}\in\{0,y_{1},...,y_{N}\}表示药物d_i与d_j混合后的反应类型属于哪一类;特别地,在y_{ij}=0的情况下表明两类药物之间不会产生反应;
- DKG:本文引入了一种用于DDI预测的独特知识图谱被称为药物知识图谱:即G=\{(d,r_{dt},t)|d\in D,r_{dt}\in R,t\in T,D\cap T=\emptyset\}其中D代表药物集合而T代表与药物相关的尾部实体集合;R则表示药物与其尾部实体之间的关系集合;
- Heterogeneous Features:异构特征包括目标特征、子结构特征以及酶特异性状等三个维度的内容;具体而言有:
X_d = \{X_t, X_s, X_e\} \subseteq \mathbb{R}^{N_d \times (N_t + N_s + N_e)}
其中,
- X_t \subseteq \mathbb{R}^{N_d \times N_t}表示目标特异性状向量集;
- X_s \subseteq \mathbb{R}^{N_d \times N_s}表示子结构特异性状向量集;
- X_e \subseteq \mathbb{R}^{N_d \times N_e}表示酶特异性状向量集;
这里的N_t, N_s, N_e分别代表目标特异性状、子结构特异性状以及酶特异性状的维度数量;
- DDI Events Prediction:基于给定的DDI事件矩阵\gamma、知识图谱G以及异构特征矩阵X_d我们的目标是通过模型\Gamma(d_i,d_j|\Theta,\gamma,G,X_d)来预测新的DDI事件;具体而言我们需要计算:
\widehat{y}_{ij} = \Gamma(d_i,d_j|\Theta,\gamma,G,X_d)
其中\widehat{y}_{ij}表示药物d_i与d_j之间发生特定事件的概率值;\Theta则代表模型参数集。
方法
DKG通道
该GNN层被设计用于提取和识别药物知识图中所描述的药物间的拓扑连接模式以及它们之间的意义关联。药物知识图G的初始表达矩阵为:

N_d, N_r, N_k分别对应药物、关联、尾部实体的数值;而 e_d^0, e_r^0, e_t^0则分别对应药物、关联、尾部实体的起始属性。
考虑任意药物d_i的情况下,在其所有邻居中随机选择一定数量作为研究对象。为了将关联的语义信息纳入药物的表达过程中,请问论文是如何定义d_i与第n个尾部实体t_n(两者之间通过关系r_i,n连接)之间的特征关系?具体而言,在这一研究中被引入了一种新的特征表示方法\pi _{d_i,r_i,n}^{\left(l\right)}=sum\left[\left(e_d_i^{\left(l-1\right)}\cdot e_r_i,n^{\left(l-1\right)}\right)W_1^{\left(p\right)}+b_1^{\left(p\right)}\right]。其中这些特征分别代表了该药物及其相关实体在上一层图神经网络处理后的状态。而这里的权重矩阵和偏置向量分别用于计算新的表征维度,并且通过逐元素相乘的方式实现了两组原始向量的信息融合
利用聚合函数获取节点d_i的邻居信息:通过求和操作计算其邻居节点加权后的总和值e^{(l)}_{{N_s}(d_i)} = \sum_{{t_n} \in {N_s}(d_i)} \pi_{{d_i},{r_{{i,n}}}^{\left(l\right)}} e_{{t_n}}^{\left(l-1\right)}} ;进而计算出节点d_i基于DKG模型的特征表示: E_{{d_i}} = e^{\left(l\right)}_{{d_i}} = \sigma (\left(e^{\left(l-1\right)}_{{d_i}} \oplus e^{\left(l\right)}_{{{N_s}(d_i)}}) W_2 + b_2 ) ;其中\sigma (\cdot)是一个激活函数;而$\oplus运算符用于将向量进行融合
HF通道
在Heterogeneous Information (HF)通道中, 基于异质性特性的方法用于计算药物间的相似性, 其中涉及靶点特性和酶活性特性等关键属性。每个特性都对应一组描述符集合, 因此可以用二进制向量来表征药物, 其中的每一位代表特定描述符的存在与否。通过主成分分析方法(PCA)压缩这些高维空间中的数据, 从而减少数据稀疏现象, 并采用Jaccard相似度作为衡量工具, 在给定的高维空间中评估不同药物之间的相似程度
该文中采用了Jaccard相似度这一指标进行计算。但我认为其中的描述略显模糊,因此替换了降维后的矩阵作为替代方案
通过降维技术获得目标特征E^t \in \mathbb{R}^{N_d \times k}、E^s \in \mathbb{R}^{N_d \times k}以及E^e \in \mathbb{R}^{N_d \times k}, 其中k代表降维后的维度数。由此可得药物d_i对应的异构特征分别为e^t_{d_i} \in E^t, e^s_{d_i} \in E^s, 和e^e_{d_i} \in E^e. 将这些特征进行拼接处理后可得d_i的异构特征表示:E'_{d_i}= e^t _{d_i} ⊕ e^s _{d_i} ⊕ e^e _{d_i}
双模态融合
DKG渠道与HF渠道分别提供了不同却又相互补充的信息。为了更有效地整合来自这两种途径的信息,在多模态神经融合层中作者考虑了它们的一致性和互补性特性。具体而言,在输入特征经过DKG渠道处理后生成表示向量\mathbf{e}^{\text{DKG}}_i以及经过HF渠道处理后生成表示向量\mathbf{e}^{\text{HF}}_i的基础上进行融合,并将其作为d_i的关键特征向量: \mathbf{e}_i = \mathbf{e}^{\text{DKG}}_i \oplus \mathbf{e}^{\text{HF}}_i 类似地可得d_j的关键特征向量:
\mathbf{e}_j = \mathbf{e}^{\text{DKG}}_j \oplus \mathbf{e}^{\text{HF}}_j $$然后将两个关键特征向量拼接在一起并经过全连接层计算概率值:
p(y=d_i,d_j) = \rho(\left[\mathbf{e}_i, \mathbf{e}_j\right]W^{(q)}_3 + b^{(q)}_3)
$$其中\rho(\cdot)代表激活函数
实验结果
研究表明,在真实世界数据集上表现出对药物相互作用(DDI)的最佳预测能力的是MD神经网络(MDNN)。研究指出该模型不仅能够从药物知识图中提取药物拓扑结构信息,并且能够整合多种数据源以生成跨模态嵌入表示。经过与现有最先进的方法进行系统对比分析后发现,在稳定性方面其性能表现最为稳定且具有较高的可靠性
- (1) 该网络框架基于GNN模型,并提取药物知识图中的拓扑结构信息与语义关系。
- (2) 该网络框架融合多模态数据间的交叉模态互补信息。

本研究旨在探讨基于DKG与基于HF通道如何提升所提出的模型性能。研究者考察了MDNN不同变体的表现特点。
其中MDNN_{dkg}仅关注拓扑结构与语义关系,并从DKG中提取药物对嵌入特征。
相比之下,在专注于药物-药物多模态属性特征的研究中发现,
尽管如此,在所有指标上表现均不如原始模型及其dkg/版本。
具体而言,
图中展示了各通道贡献度对比结果,
这表明通过融合邻域拓扑表示与DKG框架,
能够显著提升双重障碍检测系统的预测能力。
实验数据显示,
采用该改进方案后,
在多个关键指标上表现均优于原有设计。

在论文研究中探讨了三个关键参数:在该领域的样本数量N_{s}、网络层数l以及DKG初始表达矩阵的行数为d=E_{G}\text{行的数量}。
作者固定其他参数,调整其中某个参数实验得到以下结果:

从结果看出:
- 当N_{s}较小时,则无法充分反映整体结构特征;然而当N_{s}过大后,则可能引入噪声而导致结果偏差;
- GNN网络从第一层往上扩展时,在各项性能指标上均呈现出下降趋势这一现象表明随着深度增加反而难以提升模型效果;
- 最终我们应选择适当的维度d以便能够有效编码药物与其相关联的所有尾部实体及其相关信息;然而若维度设置过高则可能使模型陷入过拟合状态。
在研究过程中,在两个不同的任务中评估了该方法的有效性。
为了实现这一目标,在实验数据中将所涉及的所有对象均划分为五部分
其中四部分被用作训练集合
剩余一部分则用于测试集合
通过对这两部分的数据进行分析
能够有效验证该方法的应用效果
针对实验数据中的关键节点特征进行了提取
并在此基础上构建了知识图谱
通过计算各节点间的相似度得分
实现了节点间的关联关系建立
随后根据这些信息构建了网络拓扑结构
并进一步分析其复杂网络特征
最终能够识别出系统中存在的关键节点

可观察到MDNN在两个任务中的实验结果均超越了其他方法。这充分说明了无论是已知药物还是新药,在利用结构信息和异构特征的情况下都能够显著提高对药物相互作用的预测精度。
后续思考
第一方面
论文中提及HF通道的处理较为简单,在Jaccard相似度计算方面的描述较为简略。其核心关注点仍应放在编码问题上;当涉及异质性特征(如靶标target、子结构substructure及酶enzyme)时,则这些特征均采用二进制编码的形式,并呈现出较高的稀疏性特征。因此,在这种情况下或许无需进行Jaccard相似度的具体计算过程
首先有人会想到基于BERT模型生成嵌入表达。然而BERT与ELMo相似,在每个单词上都没有固定的向量表示。相反地它根据周围的语境信息动态生成每个单词的向量表示。这与传统的word2vec和GloVe等通用向量模型不同个人认为,在药物排列中缺乏语境关联性的情况下应用BERT进行这样的操作缺乏意义
我们可能需要将原始二进制编码转换为低维向量形式;随后通过一个简单的多头注意力模块来进行特征提取;这样做的好处是可以有效地进行特征提取;而决定不使用Transformer模型;因为Transformer的核心组件是多头注意力与全连接变换通过不断叠加形成的核心模块;这种设计能够在一定程度上提升模型性能;然而过多地堆砌神经网络层可能会导致模型复杂度上升的同时引入HF通道中的噪声从而降低整体性能;因此我们决定采用少量神经网络层以提升计算效率;
当我们应用多头注意力机制时,在异质性特征维度上能够认识到不同药物的重要性程度。多头注意力机制实际上相当于引入了多个独立的表示空间框架,在这种情况下能够整合并融合来自不同视角下的自注意力信息,并且这种机制设计能够确保每个药物在异质性特征维度上都能获得更加全面和深入的表达能力。
第二方面
在此之前, 我遇到了一个问题. 关于DDI, 存在两组相互关联的(drug-drug)关系, 但它们所引发的结果却有所不同. 这一情况与计算机视觉领域中的语义分割问题具有一定的相似性: 即两个区域之间存在一定的相似性, 但所代表的对象却是不同的. 最近, 中国科学院大学的一位博士学者提出了像素近邻损失这一概念, 并以此为依据引导模型能够区分某些特殊的相似像素.
我们或许可以借鉴近邻像素的思想,并将其用于改进这篇文章的结构。具体来说,在分析数据集的基础上进行评估后发现,在某些情况下不同药物间的相互作用会产生显著差异。基于此我们评估出若干具有相似特性的drug-drug组合并组成集合,并将这些组合给予更高的关注即在训练过程中特意提升其损失权重以迫使模型能够区分这些组合带来的不同反应效果
或者更为直接的方式下,在DKG通道中将图神经网络(GNN)替换为图注意力网络,则可能导致模型在某些方面失去解释能力(尤其是对类似药物-药物配对的区分能力)。
