DTI-CDF:一种基于混合特征预测药物靶点相互作用的级联深层森林模型
1. 摘要
药物靶标相互作用(DTIs)在靶向药物的研发与合成过程中扮演着核心角色。研究者们发现,在某些情况下仅依赖计算预测技术可能无法满足研究需求。针对现有DTI预测技术存在的准确性不足与误报率较高的问题,在本研究中我们开发出一种基于级联深度森林模型的新方法命名为DTI-CDF系统。该系统通过设计独特的多级学习机制显著提升了对真实互作关系的识别能力。具体而言我们在实验阶段采用了三种不同的数据集分别进行了五次独立重复的十折交叉验证实验以确保结果的有效性与可靠性。经过系统评估我们发现所提出的DTI-CDF方法较现有的集成学习算法(如随机森林XGBoost深度神经网络以及最新的DDR模型)展现出显著的技术优势尤其是在准确识别真实互作关系方面表现尤为突出。此外系统还成功验证了1352个新预测出来的潜在互作关系这些结果均得到了KEGG数据库与DrugBank数据库的认可并被证实为真实有效的互作关系链表中的详细信息可参考相关链接以获取完整的数据集与源代码资源
2. 介绍
确定新候选化合物的过程被称为药物发现。另一方面,在药物发现在其过程中进行靶标相互作用预测是必不可少的一环。鉴于此而言,在当前技术条件下进行高效计算方法研发十分必要。通过充分挖掘现有异质性生物学数据资源,我们有望更好地理解新型化合物在人体内的潜在生理效应机制。
化学基因组策略是一种有效预测DTIs的方法,并将其划分为两大类求解方案:一类是基于网络的方案;另一类是基于机器学习的方案。在这些方案中,默认假设所有待分析的药物靶标对属于二分类问题中的阳性类别。从特征提取的角度来看,在第一种情况下(即基于网络的情况),药物与靶标的相互作用信息被视为特征向量;而在第二种情况下(即基于机器学习的情况),药物与靶标的相互作用信息被视为特征向量。
基于先前的研究成果启发下, 本研究开发了一种新的基于级联深层森林(CDF)模型, 从而显著提升了对药物-疾病相互作用(DTIs)预测性能. 在这一方法中, 首先通过基于DTIs异构图的路径分类多相似度特征(PathCS)进行建模. 接着, 将CDF模型应用于三种不同的实验场景, 在四个具有代表性的数据集上进行了5次重复验证. 最后, 通过统计假设检验评估结果的统计学意义. 研究结果表明, 所提出的DTI-CDF方法显著优于传统集成学习方法(如随机森林(random forest, RF)和XGBoost (XGB)), 深度学习方法(如深度神经网络(deep neural network, DNN))以及现有先进方法(如DDR[79]). 同时, 该方法成功预测了1352个潜在的新DTIs, 并在KEGG和DrugBank数据库中进行了验证.
3. 材料和方法
3.1 数据集
基于Yamanishi等人的研究收集的四组数据集作为基准来评估DTI-CDF方法在药物靶向性预测中的表现。这些数据集按照药物靶标蛋白的不同功能进行分类命名:酶类(E)、离子通道类(IC)、G蛋白偶联受体(GPCR)和核受体(NR)。为了更贴近实际情况,综合考虑这四个数据集中存在的所有药物-蛋白质相互作用(DTIs)的空间结构。将已知存在的药物-蛋白质相互作用视为阳性样本实例,并将阴性样本定义为所有未知或不存在的潜在相互作用。值得注意的是,在这些分类中阳性样本的数量与阴性样本数量存在显著差异。因此,在这种情况下所形成的四个数据集呈现出严重的数据不平衡问题,请参见表1以获取详细信息。

3.2 特征构造
PathCS是由多种数据源构建而成的一种加权异构图,在这一加权异构图中包含了多种药物分子、生物靶点及其相互作用关系。通过连接边的形式表示各节点间的相似程度,在这一加权异构图中特定的目标-药物对通过预处理后的权重进行连接
本研究中用于生成药物和靶点相似性图谱的内核有六种,定义如下:
- 蛋白质核心。
- 三种药物核心。
- 基于GIP的高斯相互作用剖面核心。
- 基于邻近交互profile的推断方法。

基于上述相似性测度,在构建异构DTIs图的过程中首先将药物(或靶标)的所有相似性测度整合为一个融合矩阵,并计算每对药物靶标之间的PathCS值。这些PathCS值取决于从药物节点出发到靶点节点所经过的具体路径结构。具体来说,在这种情况下我们考虑了以下几种主要的路径类别:两步途径(如药物-药物-靶标)、三步途径(如药物-靶标-靶标)、四步途径(如药物-药物-药物-靶标)、五步途径(如药物-药物-靶标-靶标)以及混合步骤的情况(如药物-靶标-药物-靶标和多步骤组合)。这些不同的路径模式共同构成了完整的PathCS分类体系。
基于前述六类路径Ch,并令h取值于序列{1,2,…,6}的情况下

3.3 分类算法
在构建过程中,在生成PathCS时将其设为每个DTI的输入特征向量,在随后的过程中利用CDF分类器来进行DTI预测。在此过程中,在利用上一层的学习结果与原始特征进行下一层建模的同时,在模型设计中每层配置了数量介于2至6之间的不同机器学习算法,并优先采用随机森林(RF)和梯度提升树(XGB)作为核心组件。对于构建CDF模型(如图2所示),选择每一层所使用的机器学习算法具有重要意义。
因为文章存放在服务器上, 完整内容可参考以下链接:http://bbit.vip/service/main.php?version=1&type=article&id=82
DTI-CDF:该模型由多个深度森林组成,旨在预测药物与靶点之间的相互作用,其基础是基于混合特征的分析。
