Advertisement

生物信息学之抗癌药物反应论文阅读五:L1000+DTI

阅读量:

论文地址:基于深度学习的药物-靶标相互作用分析

基于深度学习的药物**-相互作用预测**

作者信息:

Lingwei Xie1†, Song He2†, Xinyu Song2, Xiaochen Bo2* and Zhongnan Zhang1*

1 厦门大学

2 北京放射医学研究所

文章来源 :IEEE国际生物信息学和生物医学会议(BIBM)2017

研究背景:

药物-靶标相互作用(DTIs)的识别对药物研发具有重要意义。

当前,在这些数据库中记录了大量与药物相互作用的数据,并未涵盖所有潜在的交互关系。此外,数据来源以及预测算法的选择均会对DTI预测的效果产生影响。

L1000数据库旨在构建一种多层反应特征图谱来描述细胞在多种干扰条件下的响应机制。该数据库包含海量数据集共计数千个样本单元,其中包括来自2万个药物干预组别以及去除了4千个基因的功能单元的数据记录

小tip:该技术利用特定已知序列构建DNA片段与受体细胞基因组中的相应区域进行同源重组并整合至受体细胞基因组使其得以表达从而实现外源性导入目的这一外源DNA导入技术主要应用于那些已有特定序列但功能尚不明确的研究对象其核心机理在于通过整合外源DNA至受体细胞基因组使其得以表达从而实现特定目的这一技术不仅能够使相关基因失去原有的功能还能进一步影响生物系统进而推断其潜在的功能而药物干预的主要作用则是探索药物如何调节生物代谢过程

研究方法:

数据源:L1000数据库

提供药物和靶蛋白数据。

L1000数据库提供了直接测量的978个标志性基因的表达谱。

作者在PC3细胞系中采用了两种FDA批准的有效药物抑制策略,并结合了大量基因敲除干预的方法来筛选出具有显著差异性的978个标志基因,并以Z值为评估标准提取其显著性标记特征集

DTI****数据库

该数据库基于药物数据源构建了药物与靶蛋白之间的作用关系网络。研究采用了基于版本5.0的数据集中的DTI网络进行建模与验证。

在跨平台数据比较中, 作者采用了公共化学物质标识符作为L1000与DrugBank数据库中的药物标识. 研究中最终采用了来自DrugBank数据库的415种药物与350种靶标.

在本研究中,在这四个关键数据集(包括TTD、MATADOR、IUPHAR/BPS以及STITCH)的基础上进行了实验验证。基于该模型所预测的623种药物及其对应的378个靶标之间的相互作用关系,在各个来源中选择相应的相互作用数量:从TTD中筛选出2,529种相互作用;从 MATADOR 中选择了15,843 种;IUPHAR/BPS 选择了13,679 种;STITCH 则选择了 3,424 种相互作用关系被选择出来。

定义细节如下:

定义****1 药物影响矩阵DM是一个包含所有药物流量的m×n矩阵(其中m代表了药物流量的数量),即基于数据集S构建的药物扰动谱分析框架。在该框架中,每一条记录对应一种特定的药物影响机制。

定义****2定义如下包含所有基因的矩阵GM是一个q×n矩阵;它基于数据集S进行计算得出的结果是基于数据集S的基因敲除扰动谱分析得到的矩阵。其中q代表基因为数;而n代表具有标志性的基因为数;每行对应一个特定的基因为数信息。

定义****3 指标DMi,j和GMi,j均为实数值;每个指标都对应于样本i的第j个标志基因的表现程度。

定义****4 标签矩阵LM是一个q×m矩阵。LMi,j是基因i与药物j相互作用的单标签,如果LMi,j = 0,那么基因i与药物j的结合要么是未标记样本,要么是阴性样本,取决于基因i是否为靶蛋白之一。反之,基因i(靶蛋白i)是数据库中记录的药物j的靶标,基因i与药物j的结合为阳性样本。

定义5 分类矩阵CM为一l×k维矩阵。其中l = mq代表m种药物与q个靶点之间形成的全部潜在药物-靶点相互作用的数量,k值设定为2,则表示每对药物-靶标可能存在的两种状态:正向相互作用和反向抑制。对于每个样本i(即第i个DTI),CM中的第i行第一个元素CM[i,0]代表该样本被归类为负类的可能性大小,CMI,1则对应该样本被归类为正类的可能性大小。

为了方便理解 画了粗糙的示意图

作者将其DTI预测建模为二元分类任务,并提出的方法基于两个数据通道(药物通道及基因通道)作为输入。每个样本整合了药物相关数据与基因相关数据。

该研究者仅采用了单一的方法将药物数据与基因数据通过基本运算(如加减乘除)进行结合处理,并未取得显著效果。值得注意的是这种运算具有不可逆性,并对几位关键位点的表现产生了影响而导致信息丢失。研究者采用了串行编码的方式构建样本集,在此过程中成功保留了所有原始信息而避免引入冗余噪声。

由于阴性样本数量超过阳性样本数量,在整个输入空间中不仅涵盖了所有正面样本的数据集,并且还包括了来自负面样本空间中的均匀抽样表达数据。经过前向传播过程后,在特征维度上减少了大约两百倍的空间规模。通过训练学习形成了明确的分类准则,在此基础上实现了对正负两类样本的有效区分,并能够可靠地预测出相应的药物靶点相互作用(DTIs)。

最后,使用跨平台比较进一步分析了预测结果。

详细步骤:该方法的整体架构涵盖以下四个关键环节:特征融合模块、负样本选择过程、模型训练阶段以及DTI预测环节。

DNN****体系结构

此网络架构包含一个输入级联结构(特征维度设定了数值大小),随后依次设置了两隐含层层级(分别拥有200和10个神经单元),并最终配置了一个采用Softmax激活函数的输出部分作为分类依据(其输出部分由两个神经单元构成)。研究者选择通过引入Dropout技术来优化模型结构,并基于该架构设计了一种新型深度学习算法用于预测药物与特定基因之间的相互作用效果。

在训练时,在每一层中进行随机赋值。
将ReLU函数应用于神经元。
通过Adam优化器最小化交叉熵损失函数,并对反例应用L1正则化。

DNN的决策边界

DNN通过非线性决策边界(中间图)来拟合训练数据, 而不是超平面(左边图)。最终的决策边界在训练过程中逐步逼近正簇。

实验结果:

不同dropout率下的验证精度

在 dropout比率设置为50%的情况下,DNN表现出最佳性能;具体表现为该网络架构能够集成2t个子模型结构(每个隐藏层拥有t个神经元)。

样本不同惩罚权重的实验结果

为了在验证准确度与阳性病例百分比之间取得平衡关系,选择阴性样本作为惩罚权重的基础,并将其设定为10

DNN****的性能

训练精度超过98%,验证准确率约为90%。

性能比较

其余方法:RF、LR、投票分类器(VC)、梯度提升决策树(GBDT)

参数:F-score、验证准确性、阳性病例百分比(PoPC)和预测误差

本文中所采用的DNN方法在F-score和验证准确率方面均优于其他方法,并且阳性病例的占比至少减少了6倍。

预测误差:

预测误差****比较

每个标记点都反映了不同模型之间的差异程度。当某个标记点对应的标签值为负时(即该值小于零),其预测误差等于其他模型指标值与当前模型指标值之差(即\text{CMi},0 - \text{CMN},0)。反之,则预测误差等于其他模型指标值与当前模型指标值之差(即\text{CMi},1 - \text{CMN},1)。由此可知,在水平线以下聚集了更多这样的标记点时,则表明当前模型在该指标上的表现优于其他对比基准模型。

预测结果验证

采用TTD、MATADOR、IUPHAR/BPS以及STITCH等其他DTI数据库对预测结果进行验证是合理的做法

总结

文中构建了一个基于深度神经网络(DNN)的新型分类模型,并且该模型能够精准识别样本特征。此外,在整合药物转录组与基因表达数据的基础上分析后发现,在DTI预测方面该模型具有显著的优势。从而为其提供了一种新的研究路径。

全部评论 (0)

还没有任何评论哟~