Advertisement

药物靶标相互作用(五)

阅读量:

一.CPInformer for Highly Efficient and Resilient and Stable Compound-Protein Interaction Prediction

CPInformer用于高效、鲁棒的复合蛋白质相互作用预测 2023.1 三区

现有的基于图神经网络的方法(如GNN和GCN)在识别结构相同但功能不同的药物分子时表现不足。这些方法提取出的关键特征具有高度相似性,在与蛋白质相互作用时却会导致结合位点信息(CPI)存在显著差异。通过累积过多自注意力机制的设计,在TransformerCPI架构中显著增加了模型所需处理参数的数量这直接导致了该模型在训练和测试阶段的整体运算效率明显下降

1.模型

模型CPInformer,通过使用三种特征增强方法。

药物特征:首先通过整合功能型分子指纹(FFPs)(1024维)与基于图卷积网络(GCN)提取出的化合物结构特征求取有机化合物的整体表征。随后采用三层全连接层分别提取FFPs的空间信息并使其宽度与复合GCN特征图保持一致。接着经由前馈神经网络分别作用于结构GCN提取出的特征及其转置形式并通过矩阵乘法将其依次映射至FFPs转置矩阵及FFPs自身空间中完成两种不同类型的分子表征信息的有效融合。其机制类似于自注意力模型但其主要目的是整合两种不同类型的分子表征而非对所提取出的关键分子表征向量中的元素执行注意力操作同时引入了残差连接技术以提升模型性能最后通过自注意力模块获得最终完整的药物分子表征

蛋白质特征采用密集连接结合局部与全局特性以获取多尺度蛋白质特性。根据氨基酸生化特性将22种氨基酸划分为6大类随后利用多层不同感受野(其中第n层的卷积核数量为n×k−1首层则采用k个滤波器)构建CNN模型以生成长度为l×75的词向量(其中l代表序列长度)从而获得全局特徵。而局部特徵则通过密集连接并逐级融合各层面特徵图如上所示其中Fp_i代表第i层面生成的特徵图growth参数表示保留率该一维卷积核尺寸设定为15

采用概率稀疏自注意力机制( _一种高效的基于Transformer架构的设计方案... _)(输入包括蛋白质特性和未经本模型中自注意力模块处理的药物图谱)生成最终蛋白表达特征图...

预测化合物与蛋白质之间的相互作用:构建基于蛋白质与药物特征图的交互模型,并通过构建两个卷积神经网络层和三个全连接层来实现对化合物与蛋白质相互作用的建模。

1.药物表示

SMILES经过GCN得到的图结构,以及FCFP指纹

2.蛋白质表示

氨基酸序列

2.实验

1.数据集

3.结果

MCANet: a weight-shared multi-head cross-attention system in predicting drug–target interactions.

MCANet 是一种基于共享权重的多头交叉注意力网络模型,并被用于研究药物与靶点之间的相互作用关系。该模型在五月份发布了,并且发表在《一区》期刊上

该研究引入了一种共享权重机制的多头交叉注意力模型。该模型能够有效识别药物与靶标之间的相互作用特征,并特别关注结合区域(binding regions, BRs)的关键特征。从而实现了更强大的特征表示能力。此外,这种机制具有广泛的适用性,在多个领域均有潜力应用。

1.模型

MCANet基于两个并行的卷积神经网络模块从蛋白质序列和药物序列中提取低维表示特征,并随后采用一种基于共享权重机制提出的多头交叉注意力模块从低维表示中学习蛋白质与药物相互作用的具体表征特征。因为MCANet是一种lightweight network model,在k折交叉验证过程中生成多个经过训练后的MCANet模型可被集成生成一个新的集成模型MCANet-B,并从而显著提升了预测性能

在编码阶段首先将药物 SMILES 序列中的标记位置编码为 1 到 64 的整数(此处可省略解释),同样地将氨基酸序列中的标记位置编码为 1 到 24 的整数。随后对编码序列进行零填充以保持长度一致,并经嵌入层处理生成蛋白质嵌入矩阵 L×d 和药物嵌入矩阵 D×d(其中 L 表示蛋白质序列的长度、D 表示药物序列的长度、d 是通道维度)。

CNN块包含3层CNN以及RELU激活函数。在药物相关的CNN架构中采用卷积核尺寸依次为4×4, 6×6, 8×8;而蛋白质相关的CNN架构则采用4×4, 8×8, 12×12的卷积核尺寸设置。

多头注意力交互模块如下:Q是由自身生成的,而K和V则是通过与对方交互而产生的,并因此包含了反映交互特性的内容。**通过融合参与的特性和原始特性进行融合运算后形成综合化的混合特征图谱,并且这一过程不仅包含自身的特性信息还能够整合外部相关因素的影响因素。综合化的图谱不仅包含自身的特性还能够反映药物分子与其作用靶点之间的相互作用机制及其影响因素。

交互预测模块:借助MaxPolling层将蛋白质与药物的二维特征图压缩为一维特征图后进行融合处理,并将其传递至FCN模型中进行分类分析。

在K-fold交叉验证的过程中可以生成K个不同的子集用于训练不同的子模型,在这些子集中尽管共享相同的输入特征空间但对应的子空间之间存在一定的差异性这也意味着各个子空间中的样本分布可能存在一定的不一致性因此可以通过对这些子空间进行融合来提升整体性能.具体而言在实际应用中我们通常会采用5折交叉验证的方式来进行集成学习.具体操作步骤如下首先将原始的数据集按照一定比例划分为两部分即为训练集与测试集.接着对于训练集我们将其进一步划分为五个互不重叠的小集合然后在每个小集合上分别进行独立的建模过程每次使用四个小集合的数据用于实际建模而剩余的小集合则用于评估该轮建模效果通过这种方式我们可以获得五个独立且性能相近的子空间.最后将这五个子空间的结果进行融合整合出一个综合的空间即为MCANet-B.在这个过程中具体的融合方法包括对各个子空间中的权重参数进行平均运算从而得到一个综合权重矩阵这个综合权重矩阵就可以被视为一个新的优化后的空间表示形式并被用来指导后续的实际预测任务

1.药物表示

序列,编码成1-64

2.蛋白质表示

序列,编码成1-24

2.实验

1.数据集

公开数据集:DrugBank、Davis和KIBA.

此外,在另外三个数据集上开展实验:酶、离子通道和 GPCR 用于评估不同目标类别的预测性能

3.结果

1.公开数据集

2.酶、离子通道和 GPCR

3.消融实验

通过对比实验对DrugBank数据集进行验证,并考察其中所采用的多头交叉注意力(MultiheadCrossAttention, MCA)与PolyLoss损失函数的有效性。与之相比,在现有的DTI研究中通常采用的是较为基础的交叉熵损失函数cross_entropy。

三.IIFDTI: determining drug–target interactions which are characterized by their interactive and independent features based on an attention mechanism.

IIFDTI:利用交互关系和独立特征进行药物-靶点相互作用的预测,在药物-靶点相互作用的研究中;该研究于2022年9月发表在一区期刊上。

我们不仅需要分析药物-靶点对之间的局部子结构交互特征,还需要深入探讨药物和靶点各自所具有的独立特征.

1.模型

a ) 方法的基本介绍。
b ) (a)中对双向编码器-解码器模块架构的具体阐述。
c ) 整个解码器网络体系的具体组成及其工作原理。
d ) 编码器的具体架构设计及其功能实现。

1.药物-靶点对局部子结构的交互特征

该系统设计了一种双向编码器-解码器架构以提取交互特征:针对氨基酸序列与SMILES字符串原始数据集,在通过基于单词的嵌入模型将其转换为实数值向量的过程中得以保留各类符号间的语义关联性。对于氨基酸序列而言,则可被划分为3-gram片段;同样地,在对SMILES字符串进行解析时每个字符均可分解为独立单元体。基于先验训练的Smi2Vec与Prot2Vec词典体系下每一种氨基酸序列及相应SMILES字符串均可被映射至对应的矩阵表示形式即P=Lp×Hp与D=Ld×Hd⁠其中Lp与Ld分别代表目标序列及药物分子的长度参数而Hp与Hd则对应着各自所具有的特征维度数。在此基础上建立了一个双向编码器-解码器模块以接收并处理这两个矩阵输入其内部架构则由两个主要功能模块构成即针对蛋白质方向的操作流程以及针对药物方向的操作流程两者相互配合完成跨模态信息融合任务。

编码器-解码器框架的第 i 个编码器之后的药物和靶点的特征矩阵:

编码器:δ(·)为激活函数σ(·)的一维卷积操作符;⊗表示1D(one-dimensional)卷积运算;⨀代表逐元素相乘(point-wise multiplication)。通过多个编码器执行卷积操作后能够获得药物与靶标子结构的特征矩阵Decoder 和 Pecoder 中分别对应于各自功能的不同输出结果。

(2).解码器:主要由多头注意力、丢弃、残差连接和位置前馈网络组成。

最终,在药物端的部分交互特性是通过获得多个药物各自的特征矩阵{D1,D2,…,DLd}进行累计求和;而在蛋白质端的部分交互特性则是通过获得多个蛋白质各自的特征矩阵{P1,P2,…,PLd}进行累计求和

2.药物和靶点的独立特征

药物采用GAT进行表示;将药物表示为图结构;每个原子提取出一个34维特征向量;通过卷积操作更新各原子的特征向量;经过T次卷积运算后, 每个原子整合了其T邻域范围内的拓扑信息;最终分子整体上的特征表征由所有单个原子特征表征集合而成

(2) 蛋白质:通过多尺度一维卷积提取其特征信息。本研究采用了基于TransformerCPI论文所构建的一个包含人类全部蛋白序列(来自Uniprot数据库)的数据集来进行word2vec模型的训练,并由此生成了一个包含100维向量的预训练词表作为CNN嵌入层初始权重输入。通过将这些CNN提取出的不同层次特征进行融合,并经过一个全连接层(MLP)进一步融合后得到最终的蛋白质表征。

在最终阶段,整合药物与蛋白质所产生的独立特性和相互作用特性到预测模型中

1.药物表示

在得到交互特征中使用SMILES,在得到独立特征时候是分子图

2.蛋白质表示

蛋白质序列,分别使用不同的语料库训练

2.实验

1.数据集

3.结果

1.实验结果

2.消融实验

I\text{IFD}^{TI}(independent)表明I\text{IFD}^{TI}仅依赖于独立特征. I\text{IFD}^{TI}(interactive_a)表明I\text{IFD}^{TI}专注于交互作用特性. I\text{IFD}^{TI}(u_a)表明该模型中交互作用特性的实现采用了单向的编码-解码架构,并将药物分子作为输入编码器而将蛋白质分子作为输入解码器. I\text{IFD}^{TI}(u_b)表明该模型中交互作用特性的实现采用了单向的编码-解码架构,并将蛋白质分子作为输入编码器而将药物分子作为输入解码器.

2. 基于交互机制的 interactive_b 版本仅关注于交互特性,在构建过程中采用了 GAT 和 CNN 的组合方式来替代传统的药物靶标编码器设计。而 interactive_c 版本则进一步优化,在关注交互特性的同时引入了一种独特的双模互动特性提取机制,并通过 MolTrans 模型实现了这一功能替代传统双向编码解码架构。

消融结果:

3.比较不平衡数据集Davis的结果

4.独立实验:

通过获取训练集以及时间序列上的测试数据来模仿真实实验环境。基于DrugBank versions 5.0.3 (October 2016 or earlier)发布的已获批准药物作为训练数据源使用。随后筛选出自2016年10月以来新增获批药物作为一个独立测试集合,并确保该集合中的药物或目标与训练组无重叠

全部评论 (0)

还没有任何评论哟~