蛋白对接_RosettaDock4.0 : 蛋白蛋白复合物对接预测
参考1: Protein–Protein Docking with Backbone Flexibility
参考2: Conformer Selection and Induced Fit in Flexible Backbone Protein–Protein Docking Using Computational and NMR Ensembles
参考3: High-resolution protein–protein docking
参考4: Benchmarking and Analysis of Protein Docking Performance in Rosetta v3.2
一、前言
蛋白-蛋白相互作用涉及一个既复杂又重要的领域。自初创时期以来,在蛋白质相互作用研究中占据重要地位的是基于FFTs算法建立起来的第一代蛋白-蛋白刚性对接工具ZDOCK。随着技术的发展和研究的进步,在整合实验数据的基础上不断引入新的多步骤优化策略和计算模型的方法逐渐发展出了第二代工具如HADDOCK ClusPro以及SwamDock等
RosettaDock以其卓越的专业素养,在蛋白质相互作用领域的诸多研究中不断精进,在CAPRI项目中不断磨练自身实力;特别是在探究蛋白质间相互作用模式方面具有显著优势;作为这一领域的权威工具软件包,在众多蛋白质科学研究中发挥着不可替代的作用; RosettaDock已成为众多研究者在完成蛋白质结构预测后进行优化的重要工具;其重要性不言而喻;
近五年来 RosettaDock 已拓展了其算法库以应对特殊蛋白家族的问题 包括专门针对抗原-抗体相互作用的SnugDock 涉足同源聚合物体相互作用的SymmetricDock 以及处理蛋白质与肽链结合的FlexPepDock 同时最新版本引入了Score Motif评估系统作为关键的技术支撑
本文旨在全面阐述RosettaDock4.0在蛋白质-蛋白质复合物对接预测中的基本框架及其应用方法。
二、基本原理和算法
RosettaDock4.0的基本算法如下: (发展过程中还有一些变种Protocol)

整个对接过程划分为两个主要阶段,在第一个低分辨率阶段中,蛋白质之间的侧链被一个粗粒化球代替了;直接评估了蛋白质骨架间相互适应的程度;而在第二个阶段才开始考虑所有侧链,并对相互作用能量进行了更精确的计算评估。
起始的局部干扰,将初猜构象的其中一个组分随机平移和转动8埃和8°(或8埃,3°)。
在低分辨率阶段中完成500次刚性体运动的过程,在这过程中允许决定是否实施Ensemble构象交换的选择以模拟构建构象的选择过程,并采用 motif_dock_score 作为计算得分为 motif_dock_score 的方法来评估此阶段的表现
在高精度阶段:
优化复合物侧链构象的排列,并同时实现能量最小化以减少侧链 packing 不同配对对评分的影响
执行内部循环:依次执行50次MCMCycle,在每一次MCMCycle中包含以下步骤:首先进行刚性体的移动;随后通过RotamerTrials对每一个氨基酸进行优化至最低能量状态;并判断每个氨基酸的能量是否超过15REU;如果单次优化的能量下降量不足,则进行一次刚性体之间的能量最小化操作。
每隔8步MCMCycle执行一次full-atoms Repack(Repack模式分为rt_min型和sc_min型两种类型)
- 外部循环: 重置初始状态,并运行4次重复的内部循环
*最终将从整个mc轨迹中确定并恢复到最低能量构象(随后将再次执行一次能量最小化操作)
如果用一张图来生动地说明RosettaDock是如何进行对接的:

RosettaDock对接过程可被理解为是在模仿水环境条件下两分子体动态行为的真实过程!经过充分的采样计算,则可推导出两蛋白间相互作用的可能性模式。这一过程中必然包含两大关键步骤:构象选择(Conformation)以及诱导契合(Induce-fit)。
2.1 构象选择与EnsembleDock
采用RosettaDock4.0版本中启用了Ensemble模式,则可以在对 dock操作中实现对 dock过程中构象的选择与优化。

简单来说,则是先生成了大量柔软的结构单元,并将这些结构单元随后被排列至基准结构位置。随后计算各结构单元的能量值,并比较各个结构单元与当前基准结构模式之间的匹配程度。以此模拟最优结构单元的选择过程。
在RosettaDock 4.0版本中,在低分辨率阶段,通过将motif_dock_score取代interface_cen的方式进行计算,在低分辨率阶段能够更显著地表现出near-native构象的富集性。
2.2 诱导契合
由于蛋白质的固有柔韧性,在两大分子间的相互作用过程中必然伴随发生一定的局部柔性变形以实现两者之间的稳固结合。
于2008年, Sidhartha Chaudhury在其 ensemble 中进行尝试引入与诱导契合相关的步骤, 最终导致复合物 native-contacts 比例的提升. 此方法同样未被纳入常规流程.
于2011年时起,SnugDock模型的提出更加深入地模拟了分子相互作用机制,并通过分子对接过程中的优化策略,在分析可能存在的较大构象变化方面展现出独特优势。

实现这一过程能够有效地校正一定量的模型误差。 RosettaDock本身不支持直接集成这一过程;其原因在于计算时间过长。在计算时间上相比标准模式提升了17到60倍。值得注意的是,在对齐性能方面相比单独使用EnsembleDock而言有所提升(特别适用于同源模型)。
三、RosettaDock 4.0的基本使用
3.1 前期结构准备
RosettaDock 是一种基于 MCM 的对接算法,并且与其它刚性对接软件有所不同,在全局接对方面表现不佳的原因在于整体计算效率较低。因此,在采用 RosettaDock 方法之前,建议优先使用 ZDOCK 等工具进行初步构象探索以获得较优的结果。选择若干个看似合理的构象作为起始点进行后续操作。
可选择的FFTs服务器:
-
ZDOCK server: http://zdock.bu.edu
-
SmoothDock server: http://structure.pitt.edu/servers/smoothdock
-
ClusPro: http://cluspro.bu.edu
-
Haddock: http://haddock.chem.uu.nl
基于初步猜测构建的complex.pdb模型中要求对这两个相互作用分子进行事先的能量优化处理以确保在非结合面区域的所有氨基酸均处在一个能量极小的状态从而防止它们对后续评估结果产生不必要的干扰
在Rosetta中可以使用PrePack app来进行。
- Partners: 设定对接刚性体的组成。
比如我们只有两条链H和A,那么就直接设定为H_A即可。
假设我们有一条由三条生物链条组成的情况:其中一条由两条互补的DNA链条构成双螺旋结构(即HL),另一条则单独存在(即A)。在这种情况下应将其配置设为 LH_A 。
如此类推…
Example1: 标准流程
docking_prepack_protocol.macosclangrelease -s complex.pdb -docking:partners H_A -docking::dock_rtmin true -ex1 -ex2aro
Example2: EnsembleDock模式
应提前准备好ensemble1.list和ensemble2.list这两个列表,并说明此份文档中包含两个对接组分的PDB文件的绝对路径信息
input_files/COL_D_ensemble/COL_D_0001.pdbinput_files/COL_D_ensemble/COL_D_0002.pdbinput_files/COL_D_ensemble/COL_D_0003.pdb
运行:
docking_prepack_protocol.macosclangrelease -s complex.pdb -docking:partners H_A -docking::dock_rtmin true -ex1 -ex2aro -ensemble1 ensemble1.list -ensemble2 ensemble2.list
一般多构象选择在5-10个时,运行效率比较高。
运行完毕后ensemble.list的格式会发生改变:
input_files/COL_D_ensemble/COL_D_0001.pdb.ppkinput_files/COL_D_ensemble/COL_D_0002.pdb.ppkinput_files/COL_D_ensemble/COL_D_0003.pdb.ppk0.7705801.00377-93.3588-94.2715-93.9065
3.2 运行RosettaDock 4.0
运行RosettaDock非常方便,一条命令就完全足够了。
注释:二进制文件必须提供完整的路径,请根据具体情况具体分析。并且该工具对内存消耗非常大,在运行时可能占用约3GB的内存空间左右。建议多线程任务的数量不要超过处理能力以避免崩溃。如果不想使用该工具,则建议只需取消与mh相关的配置以及对应的选项即可完成任务
该Bin项目的完整路径示例为:/usr/local/rosetta_src_2019.21.60746_bundle/main/database/additional_protocol_data/motif_dock/xh_16作为示例代码块
Example1: 运行local_dock标准计算流程
docking_protocol.linuxgccrelease -s prepacked.pdb -partners H_A -dock_pert 3 8 -ex1 -ex2aro -spin -use_input_sc -dock_mcm_trans_magnitude 0.7 -dock_mcm_rot_magnitude 5.0 -nstruct 1000 -mh:path:scores_BB_BB [path to score tables + score table prefix] -mh:score:use_ss1 false -mh:score:use_ss2 false -mh:score:use_aa1 true -mh:score:use_aa2 true -docking_low_res_score motif_dock_score
Example2: 运行EnsembleDock:
docking_protocol.linuxgccrelease -s prepacked.pdb -partners H_A -dock_pert 3 8 -ex1 -ex2aro -spin -use_input_sc -dock_mcm_trans_magnitude 0.7 -dock_mcm_rot_magnitude 5.0 -nstruct 1000 -ensemble1 ensemble1.list -ensemble2 ensemble2.list -mh:path:scores_BB_BB [path to score tables + score table prefix] -mh:score:use_ss1 false -mh:score:use_ss2 false -mh:score:use_aa1 true -mh:score:use_aa2 true -docking_low_res_score motif_dock_score
注1: 采样1000~5000个构象就比较充分了。
注2:为了避免局部构象过大偏离(例如不让一个分子的状态发生大幅转向),取消 -spin 选项,则分子取向的变化幅度相对较小。
3.3 局部构象优化
有时我们获得的最终构象可能会因微小的骨架冲突而导致复合物整体能量有所提升,在这种情况下我们通常会转而采取更为温和的方法来进行采样。
Example: local_refinement
docking_protocol.linuxgccrelease -s prepacked.pdb -partners H_A -dock_pert 3 8 -ex1 -ex2aro -use_input_sc -dock_mcm_trans_magnitude 0.1 -dock_mcm_rot_magnitude 3.0 -nstruct 100 -docking_local_refine
为了使蛋白复合物构象更加合理地呈现出来,可以通过FastRelax完成相应的松弛计算。
四、结果分析
4.1 能量和界面参数分析
该教程建议采用total_score和I_sc作为评估蛋白-蛋白对接的有效指标。就目前而言,在初步阶段仅依赖这两项指标即可获得可靠的结果。如果目标是进行更详细的评估,则建议使用Rosetta InterfaceAnalyzer app进行复合物界面的详细分析。
我们能够获取额外的数据信息,例如包被表面积(dSASA_int)、形状互补性(shape_complementarity)、氨基酸堆积密度(packstat)、未饱和成键的极性原子数量(delta_unsatHbonds)以及氢键的数量及其能量等
可以经过一些经验参数对构象进一步地过滤,比如:
-
蛋白-蛋白复合物包埋表面积在1100~1600Å^2。
-
蛋白-蛋白复合物形状互补度大致在0.6-0.8之间,说明模型结果更佳
-
氨基酸堆积紧密度(packstat)在0.65以上,那么模型较优
非共轭键的极性原子数目(delta_unsatHbonds)越低,则界面极性和非极性局部区域的吻合程度更高。
4.2 初猜构象的影响
此外,在蛋白质间相互作用的精度与可靠性方面也受到起始构象等因素显著影响。若起始猜测构象与真实结构存在较大差距,则优化所得的结构可能也会出现较大的偏差。
比如不同的刚性对接软件,给出的模型质量是不一样的。

基于2015年一篇关于性能评估的文章报道指出,在使用ZDOCK3.0.2时能够获得更高的初始构象质量表现;此外还可以结合其他软件以获取更加全面的预测结果,并选择足够多的初始构象以提高预测准确性
4.3 复合物的类型
不同复合物类型的对接精度也有所不同。
根据Docking Benchmark Version 5的组成分类:
-
酶相关
-
抗体-抗原复合物
-
其他(others)
根据对接难度等级分为:
-
Rigid body
-
Medium
-
Difficult
RosettaDock3.2的跑分结果:

若您的复合物类型为酶抑制剂类或抗体抗原结合体,则成功率会略高于其他类别;若属于其他类别,则精度稍有下降。然而,并非所有情况都如此——具体情况取决于是否属于Rigid body类别。
5 如何更好地提升模型的精度?
目前整体的发展趋势呈现出基于实验低精度信息整合的蛋白-蛋白对接的趋势。值得注意的是,该算法通过结合交叉质谱数据实现了对蛋白质间刚性位点的有效识别;而ClusPro则利用小角衍射数据构建了快速而准确的蛋白质结构预测模型;此外,该软件采用核磁共振(NMR)技术实现高分辨率结构解析,并通过多组学数据优化对接精度。多种算法相互补充且各有侧重,在此领域形成了多元化的解决方案体系,其中以HADDOCK算法最为出色

Within the RosettaDock framework, we can utilize certain parameters to influence the docking process. Amongst these, various strategies for integrating accessible experimental data into docking processes are particularly effective.
- 利用实验点突变信息,发现基本的结合区域,并限制热点残基之间的距离
在含有同源蛋白质复合物的情形下,则可以在对应的条件下进行处理,并且能够在对应的情况下进行处理。
由于质谱交联技术的费用下降,科学家们得以获得复合物界面氨基酸相互作用的数据,并据此合理推测初猜构象以及确定结构中的动态范围。
- 根据文献,封锁掉非活性相关的区域。
采用计算负荷更高的分子动力学方法对复合物构象稳定性进行研究,在出现不合理构象时,则通过其动态轨迹揭示了两种相互连接的部分迅速脱离的过程
