通过化学和基因组空间的整合预测药物-靶标相互作用网络
通过化学和基因组空间的整合预测药物-靶标相互作用网络
山西义广, 道博荒木, 亚历克斯·古特里奇(Alex Gutteridge ) 亘本田, 金久实
作者须知
本研究发表于《生物信息学》期刊上。具体来说,在第24卷的第13期中发布于2008年7月1日。文章占据了从i232到i240的页面范围。完整的DOI链接为http://doi.org/10.1093/bioinformatics/btn162
发布时间:
2008年7月1日
- PDF格式
- 拆分视图
(权限标识:权限)(权限标识:权限) https://s100.copyright.com/AppDispatchServlet?publisherName=OUP&publication=1460-2059&title=Prediction of drug–target interaction networks from the integration of chemical and genomic spaces&publicationDate=2008-07-01&volumeNum=24&issueNum=13&author=Yamanishi%2C Yoshihiro&Araki%2C Michihiro&startPage=i232&endPage=i240&contentId=10.1093/bioinformatics/btn162&oa=CC BY-NC©right=Oxford University Press&orderBeanReset=True "(权限标识:权限)
分享
抽象
动机
解析
结果: 本研究中, 我们系统性地阐述了人类内涉及酶、离子通道、G蛋白偶联受体(GPCR)和核受体的四类药物-靶标相互作用网络, 并深入探讨了这些因素与药物之间显着相关性的关联。随后我们开发了一种新的统计方法, 以一种能够从化学结构和基因组序列信息中大规模预测未知药物-靶标相互作用网络的方法。我们将这种推论过程转化为一个监督学习问题, 并无需靶标蛋白的三维结构信息, 同时还将其整合到一个称为"药理空间"的统一空间。实验结果显示该方法能够有效预测这四种类型的药物-靶标相互作用网络, 而全面预测出的结果则提供了大量潜在的新药靶点, 并显著提高了基因组水平上的新药发现在发现过程中的效率
可用性: 可根据要求提供软件。
联系方式:Yoshihiro.Yamanishi@ensmp.fr
可从该链接获取数据集及相关预测结果。
可从该链接获取数据集及相关预测结果。
1引言
药物与靶蛋白之间相互作用的鉴定构成了基因药物开发的核心领域。当配体结合到特定蛋白靶标时会调节多种药理学相关的蛋白质功能包括酶离子通道GPCR以及核受体等。通过一系列高通量实验手段分析基因组转录组以及蛋白质组我们逐步揭示了这些蛋白类别在 genome 空间中的分布特征与此同时借助大规模化合物筛选方法我们得以探索潜在存在的化合物数量(Dobson 2004 Kanehisa et al 2006 Stockwell 2000)。)化学基因组学的研究目标是探索化学空间与 genome 空间之间的联系从而识别具有潜在应用价值的关键化合物例如用于成像探针或作为新药前导剂的化合物然而目前我们对这一领域了解尚不深入例如NCBI PubChem数据库中仅存储了数百种化合物的信息而其中包含靶蛋白信息的数据却极为有限这表明目前还未被发现的潜在药物-靶标相互作用数量巨大因此亟需开发出能够有效检测这些潜在相互作用的新方法
鉴于目前确定化合物与蛋白质间的作用关系及潜在药物靶标的作用关系仍面临诸多困难(Haggarty 等 ,2003;Kuruvilla 等 ,2002),从而亟需开发高效 的计算机辅助 预测系统以解决这一问题
近年来,基于目标蛋白质的配体结构对其进行了分类工作(Keiser 等 ,2007)。在此基础上,在相关研究中对其药物-蛋白质相互作用网络进行了系统分析,并揭示了其复杂拓扑特性的基本规律(Yildirim 等 ,2007)。然而,在当前的研究中存在一个显著的问题:即未充分考虑相关的分子数据信息。对此问题提出了解决思路:进一步探索将多种分子数据融合的方法,并能够有效整合包括蛋白序列、药理化学数据在内的多组数据
在本文中
图。1。
所建议方法的说明。
2种材料
2.1药物-靶标相互作用数据
我们从KEGG BRITE(Kanehisa et al. 2006)、BRENDA(Schomburg et al. 2004)、SuperTarget(Gunther et al. 2008)以及DrugBank数据库(Wishart et al.)中获取了大量关于药物与靶蛋白相互作用的信息。这些数据库为我们提供了丰富的数据资源。通过系统性研究发现,在酶类药物研究中所关注的配体类型主要集中在调节活性上而非直接参与代谢过程中的底物或产物角色。值得注意的是,在某些情况下辅助因子如ATP或NADPH虽然在BRENDA数据库中标注为调节剂但并未被包含在本研究范围内除非有特殊标注表明其确实具有调节功能。此外本研究仅考虑分子量大于等于100的化合物这对数据集进行了相应的筛选处理从而排除了低分子量离子如ATP的影响确保了数据的有效性和可靠性
表格1。
药物-靶标相互作用网络的统计数据
| 统计 | 酵素 | 离子通道 | 聚合酶链反应 | 核受体 |
|---|---|---|---|---|
| 药物数量 | 445 | 210 | 223 | 54 |
| 靶蛋白数量 | 664 | 204 | 95 | 26 |
| (人类基因组总数) | (2741) | (292) | (757) | (49) |
| 药物与靶标相互作用的数量 | 2926 | 1476 | 635 | 90 |
| 平均药物度 | 6.57 | 7.02 | 2.84 | 1.66 |
| 目标平均程度 | 4.40 | 7.23 | 6.68 | 3.46 |
| 药物聚集系数 | 0.850 | 0.871 | 0.867 | 0.832 |
| 目标聚类系数 | 0.902 | 0.897 | 0.776 | 0.933 |
| 毒品之间无法到达的路径的比例 | 0.479 | 0.019 | 0.345 | 0.615 |
| 目标之间无法到达的路径的比例 | 0.447 | 0.029 | 0.593 | 0.778 |
在本研究中, 确定的药物-靶标相互作用数据库被认定为'黄金标准'数据集, 并用来评估本研究提出的方法在交叉验证实验中的表现以及在综合预测模型中的训练数据应用情况. 表1详细列出了金标准数据库中涉及的目标蛋白质、相关药物及其相互作用的数量统计信息.
该研究确定的药物-靶标相互作用数据库被认定为'黄金标准'数据集, 并用来评估本研究提出的方法在交叉验证实验中的表现以及在综合预测模型中的训练数据应用情况. 表1详细列出了金标准数据库中涉及的目标蛋白质、相关药物及其相互作用的数量统计信息.
2.2化学数据
通过KEGG LIGAND数据库中DRUG及COMPOUND模块获取了药物的化学结构信息(Kanehisa 等 ,2006)。通过SIMCOMP算法计算各化合物间的化学结构相似度(Hattori et al. ,2003)。其中SIMCOMP采用基于图对齐技术的方法,在考虑两化合物间共有的关键子结构大小的基础上计算全局相似性评分。对于任意两个化合物_c_i ''和_c_j ''(i≠j),其相似度值由下式计算:s(c_i, c_j)=|C_i ∩ C_j| / |C_i ∪ C_j|。(此处_Ci∩Cj_C表示两分子特征间的交集大小)将这一评估过程依次应用于每一对待比较的化合物。从而构建了基于分子特征的空间分布矩阵_S_C。(Similarity matrix S_C represents the chemical space distribution of compounds)类似的 spacedistribution描述方法被用来构建蛋白质间的关系网络
2.3基因组数据
基于KEGG GENES数据库(Kanehisa 等, 2006),本研究主要关注人类蛋白质的研究对象。通过采用标准化版本的Smith-Waterman评分方法(Smith 和 Waterman, 1981),我们成功地计算出了不同蛋白质间的序列相似性分数。对于两个特定蛋白_g和_g'之间的标准化Smith-Waterman得分,则采用Score(SW)(g, g') = S(g, g')_{SW}的形式来表示(其中SW(·,·)代表原始的Smith-Waterman得分为基础)。为了全面分析这一现象,在此运算被成功应用于所有蛋白对后,则构建了一个称为_S_g 的相似矩阵(如图所示)。在本研究中,默认情况下认为_S_g代表基因组的空间
3种方法
所提出的监督式方法分为两个阶段。第一阶段旨在构建一个模型来解释"黄金标准"这一概念。第二阶段则适用于那些不在"黄金标准"中的化合物与蛋白质,并用于推断它们之间的相互作用关系。在此情况下,在线监督学习技术是可行且有效的选择。这些参与已知药物-靶标相互作用关系的化合物与蛋白质构成了训练数据集。作为初始探索阶段的方法之一,在本研究中我们首次提出了两种基本策略:基于最近轮廓的距离度量(nearest neighbor profile distance metric)以及基于加权轮廓的距离度量(weighted profile distance metric)。最后我们提出一种更复杂的方法:二部图学习法
在每种情况下,请考虑一组已知药物 c_i 和一组已知靶蛋白 g_j 。这里 |C| = n_c 表示已知药物的数量,并|G|=n_g 表示已知靶蛋白的数量。类似地,{i=1}^{n_c} c_i 代表所有待评估的药物候选物,{j=1}^{n_g} g_j 代表所有待研究的目标候选物。这些分子间的相互作用关系通过位串编码得以表示:对于每个目标蛋白 g_j (j=1,2,…,n_g),其与相关药物的作用情况由二进制变量 x{c_i}^j ∈ {0,1} 标识(1 表示存在相互作用关系而 0 则表示不存在)。同样地,在这种情况下,请考虑另一组分子间的相互作用关系:对于每个药物 c_i (i=1,2,…,n_c),其与相关靶蛋白的作用情况则由二进制变量 y{g_j}^i ∈ {0,1} 标识(同上)。假设我们有一组交互配置文件 {x_{c_i}} 和 {y_{g_j}} 。给定新的目标候选蛋白 g_new 和新的药物候选化合物 c_new ,我们的目标是分别预测相应的交互配置文件 x_{c_new} 和 y_{g_new}。
3.1最近轮廓法
基于最近邻居方法的思想,在这种情况下我们预测新化合物_c_new具有其相互作用谱
的归一化术语。我们预测新蛋白 g new具有以下加权相互作用谱:
归一化的术语。最后部分中,在相互作用谱X_{c_{new}}与Y_{g_{new}}之间识别出重要化合物-蛋白质对(c_{new}, g_j)以及(c_i, g_{new}),这些配体预期会产生显著的相互作用。本研究将其命名为加权轮廓法。
3.3二部图学习方法
本文采用了新奇的方法进行研究,在这一研究领域中我们提出了一个新概念即双分图学习法并命名为'药物作用域'。具体流程如下:如图1所示该过程将通过图形化展示每一步的具体内容将在下文详细阐述
将分子成分及其蛋白组分纳入一个统一的空间结构中进行嵌入操作,并将其定义为"药理空间"
掌握化学和基因组的空间体系结构,并通过将任意化合物或蛋白质映射至药理空间来实现目标
通过建立或关联在药理学空间中与该阈值更接近的位置上的药物分子与目标蛋白之间的相互作用关系, 用于预测它们之间的相互作用.
首先,用二分图 G =( V 1 + V 2, E )描述药物-靶标相互作用网络,其中 V 1是一组药物, V 2是一组靶蛋白, E 是一组互动。我们建议用欧几里得空间表示二分图结构,这样化合物和蛋白质都分别由 q 维特征向量 和 的集合表示。为此,我们首先构造一个基于图的相似度矩阵K = ,其中 K cc 的元素,通过使用高斯函数来计算 K gg 和 K cg ,如下所示: 对于 i , j = 1,…, n c , 对于 i , j = 1,…, n g , 对于 i = 1,…, n c , j = 1,…, n g ,其中 d 是二部图上所有对象(化合物和蛋白质)之间的最短距离,无法访问的对象对之间的距离被视为无穷大, h 是宽度参数。请注意,所得矩阵的大小 K 为( n c + n g )×( n c + n g )。矩阵 K 并不总是正定的,因此将适当的恒等矩阵添加到 K ,以使矩阵 K 满足正定性。借用类似的想法与核主成分分析(Scholkopf 等人 ,1998),我们应用的本征值分解 ķ 作为 ķ =ΓΛ 1/2 Λ 1/2 Γ Ť = UU Ť ,其中矩阵Λ的对角元素是特征值,矩阵Γ的列是特征向量, U =ΓΛ1 /2。然后,我们使用矩阵 U =(u c 1,…,u c n c ,u g 1,…,u g n g ) T 的行向量表示所有药物和目标蛋白。由特征u c 和u g 跨越的空间称为“药理特征空间”。
注
药物与目标蛋白的度数分布情况如何?前四个面板分别展示了靶向酶、离子通道、GPCR以及核受体各自对应的药物作用水平直方图被呈现;底部四个面板则对应地展示了相应的目标蛋白对应的度数分布情况也被呈现。
表格1还列出了药物-药物、靶标-靶标以及药物-靶标配对的平均程度(即相似性程度),同时也提供了聚类系数以及不可达路径的比例等关键指标数据。较高的聚类系数表明药物及其靶标在药物-靶标网络中倾向于形成密集的集群结构。通过分析发现,在离子通道网络中不可达路径所占的比例通常低于其他蛋白质类别中的比例(如酶、GPCR和核受体),这表明大多数化合物与蛋白质在网络中是高度连接的。进一步检查发现,在酶、GPCR和核受体网络中存在较多的小规模不连通组件(即孤立子网),而离子通道网络往往呈现出一个大型连通组件(即巨网)。这表明与离子通道相比,在酶、GPCR和核受体与其配体之间具有更强的特异性结合能力
4.2与化学空间和基因组空间的关系
此外,在探讨网络体系结构与其所处环境之间关系的过程中, 我们重点考察了其与生命科学领域的相互作用. 在评估不同物质间的相互作用强度时, 我们采用了基于 SIMCOMP 的量化模型; 同时, 为了深入理解蛋白质间进化关系, 我们结合 Smith-Waterman 算法进行了系统分析.
图3通过分析四类靶标的药物-靶标相互作用网络及其结构特征,在考察药物-化学结构相似性和靶标-靶标序列相似性随它们之间距离的变化情况时发现了一些有趣的规律性分布特征。研究结果表明:第一点指出,在这种网络体系中存在一个显著的反相关关系:当药物间的网络距离增大时(即两化合物在网络中的位置越远),其相应的化学结构相似性的变异性却随之减小;而与此同时这两化合物与相应靶蛋白之间的相互作用能力也会逐渐减弱。第二点指出,在这种情况下不仅平均值呈现出下降趋势(即整体水平降低),而且这种趋势还体现在各层次的具体分布上:具体而言,在不同层次上的平均值均呈现下降趋势。这些发现表明:具有较高化学结构相似度的两种化合物倾向于表现出较类似的生物活性特性;同样地,在蛋白质层面上也存在类似的现象:高度序列相关的两种蛋白质往往表现出更强的互作倾向,并且在与相应化合物的作用关系上也显示出一定的关联性
图3。
分别以酶、离子通道、GPCR和核受体为研究对象,在网络距离(d=0,2,4,6,…)的不同层级上进行分析比较
4.3建议方法的性能评估
在针对酶、离子通道、GPCR及核受体这四类药物-靶标相互作用关系的研究中
图4展示了针对四类药物与靶标相互作用的二部图学习方法构建的ROC曲线。对于每一种药物与靶标相互作用类别,在化合物或蛋白质是否存在于初始训练集中时的不同预测集上绘制ROC曲线。将存在于训练集中的化合物及蛋白质标记为"已知"类别;而未包含在训练集中的化合物及蛋白质则标记为"新"类别。随后可区分四种不同的预测类型:(i)新药物候选化合物与已知靶蛋白之间的相互作用;(ii)已知药物与新靶候选蛋白之间的相互作用;(iii)新药物候选化合物与新靶候选蛋白之间的相互作用;以及(iv)以上三种情况的综合平均值分别对应红色、绿色、蓝色和黑色线条表示的结果曲线。该二部图学习方法似乎能够提取足够的关键信息,在任意阈值下实现高真阳性率的同时保持低假阳性率以检测出所有四种类型的药物-靶标相互作用关系。根据实验结果,在这四类药物-靶标相互作用中发现所提方法对酶和细胞膜受体蛋白(GPCR)具有最佳预测性能;其次是离子通道和核受体两类生物分子间的相互作用关系预测效果较好;此外,在第三组中不包含任何来自测试组的新物质的情况下仍能维持较高的预测水平(即第三组中的测试样本)。值得注意的是,在第三组测试样本中完全不含任何来自测试组的新物质情况下仍能维持较高的预测水平(即第三组中的测试样本)。此外,在第三组测试样本中完全不含任何来自测试组的新物质情况下仍能维持较高的预测水平(即第三组中的测试样本)。
图4。
访问该在线页面以查看图片内容
该双向图学习方法的ROC曲线可被用来分析酶、离子通道、GPCR以及核受体等四类药物-靶标相互作用。
我们采用了多种统计指标来评估两种方法的性能差异。表2展示了当预测得分选择前1%作为阈值时,在实际应用中对高置信度的预测结果更为关注。由于所有方法都表现出很高的特异性特征,在这种情况下其他统计数据的表现则相对不如这些方案显著。相比之下,二部图学习方案不仅表现出较高的AUC值,并且在灵敏度和阳性预测值(PPV)方面也表现优异,其整体性能明显优于其他对比方案。然而,在灵敏度方面表现欠佳的原因在于这些 newer methods 无法有效预测新药物候选化合物与新目标候选蛋白之间的相互作用机制[早期分类(iii)];相比之下, 二部图学习方案能够有效解决这一问题
表2。
预测效果统计
| 数据 | 方法 | AUC | 灵敏度 | 特异性 | PPV |
|---|---|---|---|---|---|
| 酵素 | 最近的个人资料 | 0.767 | 0.538 | 0.995 | 0.532 |
| 加权轮廓 | 0.812 | 0.386 | 0.993 | 0.384 | |
| 二部图学习 | 0.904 | 0.574 | 0.995 | 0.570 | |
| 离子 | 最近的个人资料 | 0.751 | 0.166 | 0.995 | 0.576 |
| 渠道 | 加权轮廓 | 0.811 | 0.239 | 0.998 | 0.826 |
| 二部图学习 | 0.851 | 0.271 | 0.999 | 0.936 | |
| 聚合酶链反应 | 最近的个人资料 | 0.729 | 0.156 | 0.994 | 0.474 |
| 加权轮廓 | 0.739 | 0.146 | 0.994 | 0.444 | |
| 二部图学习 | 0.899 | 0.234 | 0.996 | 0.681 | |
| 核 | 最近的个人资料 | 0.710 | 0.073 | 0.993 | 0.440 |
| 受体 | 加权轮廓 | 0.626 | 0.114 | 0.998 | 0.818 |
| 二部图学习 | 0.843 | 0.148 | 0.999 | 0.954 |
Area Under the ROC Curve (AUC值)代表ROC曲线下面积,在完美分类时标准化得分为1,在随机猜测情况下则为0.5。真阳性率定义为真阳性数量除以正样本总数(即TP/(TP+FN)),真阴性率定义为真阴性数量除以负样本总数(TN/(TN+FP)),而正预测值(PPV)定义为真阳性数量除以预测为阳性的总数量(即TP/(TP+FP))。其中 TP、FP、TN 和 FN 分别表示真实 positives、false positives、true negatives 和 false negatives的数量。
4.4未知药物-靶标相互作用的综合预测
在验证该方法的有效性之后,在进行系统性研究时
4.4.1预测的酶相互作用网络
图5展示了局部结构,其中突出了得分最高的前100项.表3列举了一些实例,这些实例具有较高的相互作用评分.该数据集的关键功能领域通常由涉及特定蛋白质家族的作用而表现出高预测活性.这些领域通常是已经被广泛研究并且具备药物转化潜力的功能区域,或者是由单一药物化合物衍生出多种变体而形成的.最活跃的功能领域包括血管紧张素转换酶(ACE)、酪氨酸激转蛋白以及胰蛋白水解相关的丝氨酸蛋白激转因子等关键蛋白质.与这六类核心功能领域成员之间的关联占据了前50项中的49项.值得注意的是,部分预测结果虽然重要但其具体贡献尚需进一步分析
图5。
推断出的酶相互作用网络图中,在该图中使用不同颜色标记出各自的元素:蓝色代表已知药物(Drugs),红色代表已知靶标(Targets),浅蓝色代表新发现的小分子化合物(New Small Molecule Compounds),而橙色则标识新的蛋白质(New Proteins)。其中灰色线条对应已知的作用关系(Known Interactions),而粉红色线条则标注了我们发现的新作用关系(Predicted Interactions)。整个网络图的最大积分值设定为100分。
表3。
酶数据预测化合物-蛋白质对得分最高
| 秩 | 得分 | 对 | 注解 |
|---|---|---|---|
| 1个 | 0.924 | C06977 | 依那普利 |
| 1636 | 血管紧张素I转化酶1 | ||
| 2 | 0.857 | D01441 | 甲磺酸伊马替尼(JAN) |
| 2444 | fyn相关激酶[EC:2.7.10.2] | ||
| 3 | 0.857 | D00160 | ε-氨基己酸(JAN) |
| 5644 | 蛋白酶,丝氨酸1(胰蛋白酶1)[EC:3.4.21.4] | ||
| 4 | 0.844 | C11720 | 依那普利 |
| 1636 | 血管紧张素I转化酶1 | ||
| 5 | 0.833 | D00160 | ε-氨基己酸(JAN) |
| 7177 | 类胰蛋白酶alpha / beta 1 [EC:3.4.21.59] | ||
| 6 | 0.824 | D00043 | 异氟醚(USP) |
| 5644 | 蛋白酶,丝氨酸1(胰蛋白酶1)[EC:3.4.21.4] | ||
| 7 | 0.81 | D01605 | 米特拉(JP15) |
| 759 | 碳酸酐酶I [EC:4.2.1.1] | ||
| 8 | 0.81 | D00043 | 异氟醚(USP) |
| 7177 | 类胰蛋白酶alpha / beta 1 [EC:3.4.21.59] | ||
| 9 | 0.809 | D00160 | ε-氨基己酸(JAN) |
| 440387 | 胰凝乳蛋白酶原B2 [EC:3.4.21.1] | ||
| 10 | 0.807 | D01441 | 甲磺酸伊马替尼(JAN) |
| 5753 | PTK6蛋白酪氨酸激酶6 [EC:2.7.10.2] |
由于篇幅所限,所有预测对都放在补充网站上。
基于类前列腺素合成及随后炎症反应的作用下, COX酶已成为抗炎药的主要靶标(Rainsford, 2007)
在前50位预测中出现几次的化合物是该化合物(D01441),它是一种在治疗慢性粒细胞性白血病及胃肠道肿瘤方面具有重要价值的酪氨酸激酶抑制剂。我们进行了若干关键性的预测研究,并重点关注了该药物与其他多个相关的酪氨酸激酶之间的相互作用情况。其中部分蛋白已确认为相关基因或候选癌基因;特别是蛋白酪氨酸激酶6(PTK6)以及B淋巴酪氨酸激酶等特定靶点的研究结果尤为突出
4.4.2预测的GPCR相互作用网络
在研究GPCR相互作用网络时
某些GPCR家族(如肾上腺素受体)有趋势将它们的成员(α1、α2和β2)聚集在一起。在α₂-肾上腺素受体网络中,在替米替丁[D₀₆₁₂₅]之外的位置连接到所有受体节点的是另一类特定配体。特别预测与α₂a-肾上腺素受体相关的甲磺酸nisbuterol[D₀₅₁₇₁]作为其配体。而在多巴胺受体会话中,则显示出显著的不同模式:多巴胺D₂受体会话中的多数配体会被广泛使用,并且这些配体会被分配到多巴胺的所有亚种中去使用较少数量的特异配体会出现于特定的位置。此外,在多巴胺D₁与D₂之间共享较多数量的独特配体会比在其他组合间更多地出现这一现象可能反映了该类蛋白间存在一定的相似性
5讨论与结论
本文主要探讨了人类内涉及酶类、离子通道蛋白以及核受体等四大类药物与其靶标的相互作用网络。通过系统地分析这些因素间的关系后发现这些因素之间存在显著的相关性。随后,我们构建了一个新型统计模型,能够从化学结构特征与基因组序列数据双管齐下地预测潜在存在的药物与靶点相互作用关系。其创新之处在于将这种推论过程形式化为了二分图监督学习问题,无需依赖靶标蛋白三维空间结构的信息,并将其融合至一个被命名为'药理空间'的一统的空间框架内。
目前,在探索候选药物与目标蛋白质之间相互作用的方向上有两种主要研究路径:传统的药物发现途径以及化学生物学途径。在传统的药物发现途径中我们致力于为特定感兴趣的目标蛋白质寻找潜在的新化合物作为候选药物或前体药物;另一方面在化学生物学途径中我们专注于探索特定目标化合物对应的潜在候选蛋白作为靶点。通过同时发现新的候选蛋白以及新药物质 candidate compounds 我们所提出的方法集成了上述两种方法的优势。
我们发现,在分子间高度相似的情况下(即在分子网络中它们的位置非常接近),化合物往往会倾向于与类似的靶蛋白相互作用;同样地,在蛋白质序列高度相似的情况下(即在蛋白质网络中它们的位置非常接近),它们往往也会倾向于与类似的药物相互作用;然而,在某些情况下(如酶的情况),存在许多靶蛋白虽然具有低序列相似性但与类似药物结合的现象;这些发现表明:基于直接利用这些特征的信息所建立的传统模型无法有效预测正确的相互作用对;相反地,则是我们提出的新图学习方法能够有效地纠正这一偏差:通过学习基于部分已知的药物-靶标相互作用网络拓扑结构的模型可以实现这一目标:这表明,在药理学特征空间中化合物-蛋白质对得分与其对应的网络距离呈反相关
我们创造了许多计算方式来研究药物-靶标或化合物-蛋白质之间的相互作用。其中一种有效的方法是对接仿真(Cheng 等, 2007;Raney 等, 1996),但需要目标蛋白质的三维结构信息。大多数可药用的靶蛋白是膜蛋白,例如离子通道和GPCR。鉴定膜蛋白的三维结构仍然非常困难,这限制了对接法的应用。我们的新方法不需要3D结构信息... 因此,我们方法的优势在于能够高效地筛选大量候选药物和目标蛋白。
与该研究相关的先前研究是基于靶蛋白家族构建配体结构进行分类(Keiser et al., 2007)。然而,这项研究未考虑序列信息,因此新发现的作用仅限于已知配体与其他蛋白质家族之间建立相互作用。与此相关的是最近的一项研究,它对全球药物-靶标网络进行了系统分析,该网络由不同蛋白类别构成,并采用二部图表示法(Yildirim等人, 2007年);然而,作者并未探讨药物序列信息或化学结构信息之间的关联性。另一方面,我们分别从四个药物-靶标相互作用网络类别出发进行表征分析,探究每种蛋白质类别所具有的网络特征属性,并通过计算得出药物结构相似性、靶序列相似性以及整体网络拓扑之间的显著相关性;此外还提出了若干未知药物-靶标相互作用的可能性预测方法
从技术角度来看,可以通过使用针对基因组序列和化学结构设计的更复杂的核相似性函数来改善我们方法的性能(Schölkopf 等 ,2004)。将有关功能位点的信息纳入蛋白质相似性设计是一个有趣的研究方向(Kratochwil 等人 ,2005)。最近,已经开发了几种基于内核的监督网络推理方法(Vert和Yamanishi,2005年; Yamanishi 等人 ,2004年)。),但它们仅限于具有简单图形表示的同质分子之间的相互作用(例如蛋白质-蛋白质相互作用)。在这项研究中,我们通过将相互作用网络视为二分图,解决了预测异质分子之间相互作用的问题。据我们所知,没有统计方法可以在有监督的情况下预测二部图。一旦用二部图表示,我们的方法就可以应用于其他生物网络预测问题,例如代谢网络重建和宿主-病原体蛋白质-蛋白质相互作用预测。
在本文的最后一部分,我们推测了所有可能的目标候选蛋白与候选药物之间的相互作用。通过系统性推断的方式构建了完整的药物-靶标相互作用网络模型,在此基础上我们筛选出了一系列具有潜力的药物-靶标配对关系。我们的研究结果表明,在通过该方法鉴定到的部分相互作用关系与现有文献中的实验验证数据具有高度一致性。为了探索新的生物发现和潜在有用药物线索,在当前阶段我们正与相关研究团队展开协同测定工作。基于现有的研究基础和方法体系优化目标,在未来的研究中我们相信该方法将显著提升基因组药物研发效率并带来新的突破性进展
致谢
资金资助
利益冲突 :未声明
