Advertisement

蛋白对接_RosettaDock: 蛋白-蛋白复合物对接预测

阅读量:

作者: 吴炜坤

一文基本搞懂RosettaDock....

参考1: https://www.rosettacommons.org/demos/latest/tutorials/Protein-Protein-Docking/Protein-Protein-Docking
参考2: Protein-protein docking incorporating backbone flexibility
参考3: Conformation selection and induced fit in flexible backbone protein-protein docking utilizing computational and NMR ensembles
参考4: High-resolution protein-protein docking examined through detailed structural analysis
参考5: Comprehensive evaluation of protein docking performance within Rosetta v3.2

一、前言

蛋-蛋对接研究涉及复杂的生物化学机制和精确的计算方法

RosettaDock是一位该领域的专家,在CAPRI项目的考验下积累了丰富经验。特别专长于研究蛋白质间局部构象的变化情况,并已在众多研究论文中运用了RosettaDock进行最后阶段的优化处理。

自2010年首次提出以来,Rosetta Dock已开发出一系列专为特殊蛋白家族设计的算法。其中最引人注目的是能够实现抗体与抗原精准结合的技术——Snug Dock系统。此外,在解决复杂生物大分子相互作用方面具有显著优势的是Symmetric Dock系统;另一种创新方法是能够专门解决多肽与蛋白质相互作用问题的新一代 docking 系统 FlexPep Dock;The latest version, Rosetta Dock 4.0, introduces an advanced scoring system known as Motif Score, specifically designed to tackle challenging molecular docking challenges.

本文旨在概述性地介绍 RosettaDock3.2 蛋白-蛋白对接的基本操作流程及其应用。

二、基本原理和算法

RosettaDock的基本算法如下:

7802841040d2aa3493492ba56b9bc24c.png

整个对接流程划分为两个主要部分,在第一阶段(低分辨率水平),蛋白质间通过一个粗粒化球模拟侧链构象,并对蛋白质骨架间的相互适配程度进行定位;随后进入第二阶段(高分辨率水平),全面考虑所有侧链细节并进行更精确的相互作用能量计算)。

起始的局部干扰,将初猜构象的其中一个组分随机平移和转动8埃和8°(或8埃,3°)。

在低精度级别的时候完成500次刚性体的操作,并决定是否完成Ensemble构象交换的过程。生成当前状态下的最低能量构象,并进入高精度级别的计算流程。

在高精度阶段,进行50次MCMPCycle:

  • 构建初始构象并通过能量最小化获得起始构象。
  • 内部循环:执行50次MCMCycle运算,在每一次MCMCycle中包含以下操作:
    • 刚性体移动
    • RotamerTrials用于每个氨基酸达到最低能量状态
    • 检测当前计算的能量值是否超过15REU;如果发现每次MCMCycle的能量下降幅度较小,则进行一次刚性体间的局部优化(此过程采用Repack模式完成),Repack模式可选择rt_min或sc_min两种方式进行。
  • 外部循环:重启计算过程后依次执行四次内部循环
  • 最后从整体MC轨迹中筛选出具有最低能量的状态(在此基础上再执行一次全局的能量最小化处理)。

如果用一张图来生动地说明RosettaDock是如何进行对接的:

851fb12f140f9bd94d1f77a4c3c8835f.png

RosettaDock对接即模拟两个分子在水溶液中随机运动的真实过程! 经过充分的采样我们便能够识别出两个蛋白可能存在的相互作用模式。当然在这一过程中还涉及两个关键问题:构象选择(Conformation)与诱导契合(Induce-fit)。

2.1 构象选择与EnsembleDock

Within the RosettaDock framework, enabling the Ensemble mode provides the system with significant capability to simulate and actively select potential conformation candidates during the docking process, thereby offering reliable prediction outcomes.

774edd1e90fbe338b4b63313e1303625.png

Essentially, this method involves constructing a series of flexible conformations and aligning them to a reference docking conformation. Computational analysis is then performed to determine which conformation best matches the current docking mode, thereby simulating the process of conformation selection.

2.2 诱导契合

注: 这部分没有加入到标准流程中。

因为蛋白质具有柔韧性,在两个大分子相互作用的过程中会发生局部柔性的改变从而使得两者之间的结合更加稳定。 在2007年,wang chu通过骨架原子能量最小化的原理可以模拟诱导契合的过程(计算时间增加了约6至7倍 仅能实现小幅度构象的变化) 在2008年,Sidhartha Chaudhury为了探索诱导契合相关的过程而加入相应的步骤 这一改进使得复合物中native-contacts的比例得到了提升 在2011年时 提出了能够更好地模拟诱导契合过程的新方法 SnugDock 该方法通过优化对接过程中特定Loop区域的结构从而允许实现稍大范围的构象变化

f2ba9e4a3982e12484507a470ccb1bb0.png

通过模拟这一过程可以对模型误差进行一定程度的修正。
然而RosettaDock本身并未直接支持这一流程。
由于其运行时间过于漫长,
采用LoopRefine模式会导致运行时间增长约17至60倍。
仅在具备充足计算资源的情况下才有可能。
值得注意的是,在处理具有同源结构的目标时,
此方法的表现略优于单独依赖EnsembleDock

三、RosettaDock的基本使用

3.1 前期结构准备

该算法基于MCM模型实现物质配体间的精准对接,并与一般的刚性对齐方法存在显著差异。由于整体计算流程的效率相对较低,在应用该算法之前通常会采用ZDOCK等工具来进行初步构象探索。选择若干具有代表性的构象模式作为后续研究的基础

可选择的FFTs服务器:

  • Z-DOCK服务器:提供基于 dock 的蛋白质 docking 功能。
    • 平滑 dock 服务器:用于分析生物大分子的结构。
    • Cluster Pro:蛋白质聚类工具。
    • Haddocks:化学领域的重要资源。

基于初猜结构complex.pdb之后,需对两个对接分子实施前期优化处理,以确保其在非结合界面处的所有氨基酸均达到最低能量状态,从而防止它们在后续评分排序过程中产生不必要的干扰

在Rosetta中可以使用PrePack app来进行。

  • Partners: 确定了连接刚性体的方式。
    例如仅含有两条链 H 与 A,则直接以 H_A 的形式表示即可;
    若存在三条链 H、L、A(其中 HL 形成二聚体而 A 为单体),则需设置成 L_H A 的形式;
    以此类推...

Example1: 标准流程

复制代码
    docking_prepack_protocol.macosclangrelease -s complex.pdb -docking:partners H_A -docking::dock_rtmin true -ex1 -ex2aro

Example2: EnsembleDock模式

必须提前准备好ensemble1.listensemble2.list; 这些列表包含有两组对接成分各自对应的PDB文件绝对路径信息。

复制代码
 input_files/COL_D_ensemble/COL_D_0001.pdb

    
 input_files/COL_D_ensemble/COL_D_0002.pdb
    
 input_files/COL_D_ensemble/COL_D_0003.pdb

运行:

复制代码
    docking_prepack_protocol.macosclangrelease -s complex.pdb -docking:partners H_A -docking::dock_rtmin true -ex1 -ex2aro -ensemble1 ensemble1.list -ensemble2 ensemble2.list

一般多构象选择在5-10个时,运行效率比较高。

运行完毕后ensemble.list的格式会发生改变:

复制代码
 input_files/COL_D_ensemble/COL_D_0001.pdb.ppk

    
 input_files/COL_D_ensemble/COL_D_0002.pdb.ppk
    
 input_files/COL_D_ensemble/COL_D_0003.pdb.ppk
    
 0.77058
    
 0
    
 1.00377
    
 -93.3588
    
 -94.2715
    
 -93.9065

3.2 运行RosettaDock

运行RosettaDock非常方便,一条命令就完全足够了。

Example1: 运行local_dock标准计算流程

复制代码
    docking_protocol.linuxgccrelease -s prepacked.pdb -partners H_A -dock_pert 3 8 -ex1 -ex2aro -spin -use_input_sc -dock_mcm_trans_magnitude 0.7 -dock_mcm_rot_magnitude 5.0 -nstruct 1000

Example2: 运行EnsembleDock:

复制代码
    docking_protocol.linuxgccrelease -s prepacked.pdb -partners H_A -dock_pert 3 8 -ex1 -ex2aro -spin -use_input_sc -dock_mcm_trans_magnitude 0.7 -dock_mcm_rot_magnitude 5.0 -nstruct 1000 -ensemble1 ensemble1.list -ensemble2 ensemble2.list

注1: 采样1000~5000个构象就比较充分了。

注释2:为了避免局部构象变化超出预期范围(例如避免分子状态发生翻转),取消 -spin 选项会导致分子取向的变化相对较小。

3.3 局部构象优化

有时, 我们得到的最终构象可能因为一些小的骨架冲突而导致复合物整体能量较高, 因此在此时我们可以采用较为温和的采样策略

Example1: local_refinement;

复制代码
    docking_protocol.linuxgccrelease -s prepacked.pdb -partners H_A -dock_pert 3 8 -ex1 -ex2aro -spin -use_input_sc -dock_mcm_trans_magnitude 0.7 -dock_mcm_rot_magnitude 5.0 -nstruct 1 -docking_local_refine

如果想让蛋白构象更加,可以使用FastRelax对复合物进行放松。

参考: http://www.rosettastudy.cn/archives/217

四、结果分析

4.1 能量和界面参数分析

该平台官方教程明确指出,在进行蛋白-蛋白相互作用分析时应采用总分值(total_score)以及独立性分数(I_sc)作为主要指标。这些参数足以完成基础层面的解析工作。若需深入探究其相互作用机制,则可借助Rosetta软件中的InterfaceAnalyzer应用程序展开细致研究。

可以参考: http://www.rosettastudy.cn/archives/276

我们能够获得更为丰富的数据信息,例如包埋表面积指标(dSASA_int)、形状互补度(shape_complementarity)、氨基酸堆积紧密度(packstat)、含有未饱和成键的极性原子的数量(delta_unsatHbonds)、氢键的数量及其能量水平等其他相关指标

可以经过一些经验参数对构象进一步地过滤,比如:

  • 蛋白质-蛋白质复合物的包裹表面积数值为1100至1600Ų。
    • 其配位匹配程度约为[公式]之间时,则模型结果更为理想。
    • 其氨基酸堆积紧密度值大于等于[数值]时,则该模型较为优秀。
    • 当未饱和成键的极性原子数量[变量]数值越小时,则界面处的极性和非极性区域相互配合得更加良好。

4.2 初猜构象的影响

除了这些之外,在蛋白-蛋白相互作用中其精确性和可靠性还与其初始构象有着显著的影响。若起始猜测构象与真实结构存在较大差距则可能导致优化后所得结构出现较大偏差

比如不同的刚性对接软件,给出的模型质量是不一样的。

a26a8f23aba79975e4e6f26f14547ff2.png

参考2015年一篇跑分文章的分析可以看出,在应用ZDOCK3.0.2软件时能够得到更好的结果。此外还可以综合运用多种软件进行预测,并选择更多不同构象作为初始输入以提高预测精度。

4.3 复合物的类型

不同复合物类型的对接精度也有所不同。

根据Docking Benchmark Version 5的组成分类:

  • 酶相关
  • 抗体-抗原复合物
  • 其他(others)

根据对接难度等级分为:

  • Rigid body
  • Medium
  • Difficult

RosettaDock3.2的跑分结果:

2041569eb48c5991aa3927eccc13cdc8.png

当你的复合物类型涉及酶和抑制剂以及抗体-抗原结合体时,则其成功率通常会显著提升!若该复合物类型不属于上述分类,则其精度可能会有所下降。具体情况还需进一步分析其是否归类于刚性体(rigid body)类别。

5 如何更好地提升模型的精度?

目前整体发展趋势呈现出基于实验低精度信息整合的蛋白-蛋白对接技术。例如,ZDOCK近期推出了ZDOCK_XL这一创新方法,能够通过交联质谱信息实现刚性对位;同时,ClusPro则依赖SAXS小角衍射数据开展相关研究;此外,HADDOCK则利用NMR数据进行限制性对接等技术手段,形成了多管齐下的局面,其中以HADDOCK为首

c4873a1bea078ff329d2fc0e42927e70.png

Within the RosettaDock framework, we can employ certain limiting parameters to influence the docking process. Below are several strategies for integrating experimental information to guide docking procedures.

通过突变信息分析研究者能够识别关键结合位点,并且能够控制关键残基间的相互作用。
在具有同源蛋白复合物的情况下研究者可以通过将对接组分直接对齐到同源蛋白上从而建立合理的初始构象这一方法能够显著提升。
在质谱交联技术成本下降后研究者能够获得复合物界面氨基酸间的作用关系数据从而辅助构建初始构象并设定合理的间距约束。
根据文献资料研究者锁定了不具活性功能的部分从而缩小了搜索范围。

最后可采用较大规模的计算用于模拟复合物构象稳定性,并通过分析动力学轨迹观察到两组分在某些构象下会迅速脱离的现象

全部评论 (0)

还没有任何评论哟~