改变生物学研究进程:AI模型打开生命信息密码

生命科学领域中的研究方向十分丰富,并非局限于单一领域。例如探究细胞及分子生物学等微观层面的生物科学问题;同时还有探讨生物与环境之间的相互作用关系的生态学分支学科等。其中最接近于探究生命活动规律、发育机制以及生命本质的相关学科领域的是对生物大分子结构及其特性进行深入研究。
系统深入地研究蛋白质有助于我们更深入地理解生命体的结构及其运作规律。通过这一研究路径, 我们不仅能够全面阐明生命运行机制及其发展过程, 还能推动生物科学、药物研发以及合成生物学等多个领域的进步。因此开展蛋白质研究及预测其结构等活动成为学术界与产业界共同关注的重点领域。在人工智能时代的背景下, 随着计算能力和算法模型的重大突破, 蛋白质结构预测也迎来了历史性时刻。

每两年一次的CASP大赛以其卓越地位被称为"蛋白质结构预测领域的奥运会"。在基于第十四届国际蛋白质结构预测竞赛(CASP14, 2020年)构建的数据集中进行评估时,在所有公开的蛋白质结构预测模型中天壤TRFold展现出了最佳表现仅落后于全球顶尖水平的DeepMind公司AlphaFold2系统。该大赛因其高度权威性在全球范围内展现出了卓越的能力这也标志着我国计算生物学领域首次跻身世界顶尖行列。
无论是享誉世界、备受瞩目的AlphaFold 2 模型,在国际上崭露头角的TR-Fold 模型;在生命科学研究领域发挥着催化作用;围绕蛋白质研究的价值进行探索过程;共同探索重构生命科学与医药领域的壮丽征程。

打开科研思路与研究空间
在中学阶段我们初步认识过蛋白质,在教材中它被介绍为一种功能核心分子,并参与了几乎所有的细胞功能:如在消化酶的合成与分解过程中起到催化作用;血液中的血红蛋白不仅运输营养物质并转运代谢废物;还参与构建细胞骨架系统以及涉及免疫调节、细胞分化以及细胞凋亡等多个关键过程。
为了完成其在细胞功能中的作用,在蛋白质参与行使细胞功能的过程中必须形成特定的空间构象。然而由于其排列方式和空间位置的不同会导致种类极其丰富,在三维空间中折叠出特定结构的方式共有10^300种呈现极为复杂的多样性。不同的折叠方式则赋予了蛋白质多样化的生物活性而这种复杂特性也正因其存在而使研究蛋白质的道路倍感艰难。

传统的蛋白质构象测定主要有以下三种方法:核磁共振成像技术、X射线衍射分析以及冷冻电镜技术等。然而这些方法往往依赖高昂的成本设备以及繁重的时间投入每一项研究都需要精确计算大量时间才能获得一个完整的结果历史上许多科学家穷尽一生精力才得以获得一个清晰的结果这一任务构成了生物学领域极其棘手的一个课题即使有AI的帮助也只能确定大约17万个蛋白质三维构象这与整个蛋白质种类的数量相比仍然存在显著差距
近年来,在蛋白质结构预测领域取得了显著进展
这种基于人工智能的大规模蛋白质结构预测工具将对科研工作发挥重要作用。它能够从分子层面深入解析复杂生命现象,并为创新性研究提供新思路。例如,在研究未知功能蛋白或多发现蛋白质分子时,可以通过对其三维空间特征进行分析解读其潜在功能;还可以通过对其亚基构象进行分析识别其功能单元或作用域;这将为基因编辑操作提供关键指导依据,并为新蛋白体设计或改造现有蛋白体提供可靠的技术支撑基础等。天壤团队开发的TRFold这类AI驱动型模型对于生物科学研究而言具有重要价值:它将围绕蛋白质的结构与功能展开深入研究,并进一步推动生物计算领域的创新发展;同时在医学研究领域也将发挥重要作用:它能够帮助解析疾病相关蛋白特征并指导新型药物开发;还能辅助解析靶点构象特性并指导精准医疗策略设计等。
快速解析病毒结构,
折叠药物研发时间

新药研发在人类社会中被视为高风险且具有复杂性的技术研究领域之一。
根据Tufts Center的研究数据显示, 开发一款成功上市的新药平均需要投入26亿美元, 耗时约10年。
高昂的成本与其显著的失败概率密切相关。
过去十年中从1期临床试验到FDA批准上市的成功率平均约为7.9%。
随着人工智能技术的进步,部分采用了AI技术的新药研发项目成本降低了35%.开发周期缩短至1至3年.事实上,药物研发是一个系统性工程,而AI技术在该系统中主要针对药物研发中的筛选和设计优化等功能进行了重点突破,最大限度地减少了试错与重做所需的时间,显著降低了新药研发的成本投入.
TRFold模型能够以较低的成本预测一些与疾病相关的蛋白质结构,并通过药物重定位和虚拟筛选的方法寻找潜在的药物分子。例如,在白化病、成骨不全症等罕见病中,在患者多为贫困人口且回报率低的情况下(仅限于中国),这类疾病的患者数量已经超过2000万(在全球总疾病中占比12%)。然而,在全球范围内仍存在大量未被关注的疾病(仅约1.1%的新研发药物适合这些被忽视的疾病)。如今借助精确快速的蛋白质结构预测技术(如AlphaFold2和TRFold等AI模型),我们有望实现针对贫困人口中的大部分疾病的新药研发成为现实

在新药的研发过程中,TRFold模型同样发挥了重要的作用。评估药物毒性的过程中,动物模型具有不可替代的价值;然而,在即将进入高风险的临床试验阶段前,我们需要谨慎考虑潜在风险的影响因素。通常的做法是构建高度仿真的人体生物系统以减少风险评估时间;但目前这一技术仍面临诸多挑战。基于AI的强大能力,TRFold这类模型为我们提供了人类蛋白的三维结构信息;这或许将成为开发更精确的人体生物模拟系统的关键突破点之一
在涉及细菌和病毒的蛋白质结构研究领域中(当然在涉及细菌和病毒相关的蛋白质结构研究中),TRFold模型将扩展其功能分析能力,并延伸至更多下游应用场景)。例如,在处理病毒相关疾病方面(当然在一些病毒类感染的疾病研究中),该模型将有助于抗生素及其靶向药物的研发(如前所述),同时也能推动高效酶类的研发(如前述所述)。这些成果无疑将对药研与健康产生积极影响)。
但是,在蛋白质结构的研究领域中还存在着许多具有极高要求的研究工作。例如,在分析血红蛋白中铁离子的位移时,所涉及的尺度非常精细(通常在零点几埃的范围内)。对于这类结构细节的深入探讨,在预测结构方面仍无法作为讨论的基础(因为任何微小的不确定性都可能导致完全不同的结论)。目前AI模型在算法普适性和准确度方面的提升空间仍然较大(特别是在处理蛋白质与其配体复合结构以及蛋白质动态分析等方面还需要进一步完善)。

AI预测模型驶入生命信息深处
利用AI模型对单蛋白结构进行预测只是一个起点,这一过程仅揭示了研究路径的方向。后续的发展仍需依靠实验探究与创新思维的碰撞。尽管如此,在现有技术手段下仍然存在一些无法通过现有技术手段识别或解析的独特结构模式。
各种不同的蛋白质结构预测模型将在广泛的生物科学与生物科技领域各自占据擅长的领域并发挥相应的功能
毫无疑问AlphaFold2在蛋白质结构预测领域实现了重大突破。此类基于人工智能的模型能够生成高质量的蛋白质结构信息,并将推动新方法用于高效筛选化合物的技术发展。从而在药物研发的全生命周期中发挥重要作用。
毫无疑问AlphaFold2在蛋白质结构预测领域实现了重大突破。此类基于人工智能的模型能够生成高质量的蛋白质结构信息,并将推动新方法用于高效筛选化合物的技术发展。从而在药物研发的全生命周期中发挥重要作用。

可能会有人产生疑问:尽管AlphaFold 2展现出极强的能力来解决蛋白质折叠问题, 我们为什么还需要投入时间和精力去开发相应的算法?原因在于, 尽管DeepMind开源了一整套完整的推理模块, 但这套模块仅仅是用于推断功能, 并未包含用于训练的部分. 因此, 在GitHub上可获取的版本仅限于该系统本身的功能模块. 而若缺乏相关的训练经验或无法构建与之相媲美的系统能力, 则无法将这一技术进一步深化以解决更为复杂的问题.
在这一领域而言,拥有关键核心技术能力的芯片与用于蛋白质结构预测的系统相提并论。天壤团队开发的TRFold算法平台完全是自主研制,在基于底层代码逐步构建的基础上实现了这一领域的突破,并且在全球比赛中取得了与AlphaFold 2模型相媲美的优异表现。
经过两年半的研究开发,TRFold经历了多个版本的更新和完善。该系统当前的设计是从今年初开始规划的,在处理数据和训练数据的过程中不断进行优化改进,耗时10个月时间得以完善。其最新版本不仅在预测精度上接近AlphaFold2,在计算资源需求方面也实现了突破。与AlphaFold2相比,在思考方式与设计架构上TRFold有着显著的不同之处。通过权重共享机制来优化计算资源使用,在数据准备和网络架构设计方面进行了优化改进。为了适应训练资源与算力有限的实际场景,在天壤团队的努力下仅采用了少量的真实数据进行训练,并在此基础上对模型进行了针对性的设计与优化。这种设计使得模型能够在有限条件下更好地识别真实共进化信息的能力得到提升,在氨基酸残基距离与坐标预测方面的准确性也得到了显著提高
其计算资源消耗大约是AlphaFold2的1/32,在估算大多数蛋白质链所需时间时不超过16秒。相较于AlphaFold2预测约400个氨基酸的蛋白链仅需70多秒的时间,在面对小样本数据训练时展现出显著的优势。在构建蛋白质相互作用网络的过程中,在计算量呈指数级增长时,对蛋白质结构预测的研究具有重要的理论价值与现实意义,并为后续的研究领域如结构生物科学、药物研发等相关方向提供了自主可控的技术支撑保障。我们不会因为技术局限而自叹不如。

天壤团队开发出的TRFold模型同样具有创新方向:聚焦于解决蛋白质结构与功能相关问题的同时,并非仅能够满足现有实际应用中的准确性要求,在此基础之上进一步探索并解决更为深层次的问题。具体而言,则是探究蛋白质间相互作用的本质,并基于当前全蛋白组协同进化分析的方法建立精确描述蛋白质间相互作用关系的知识体系。这一研究思路不仅为构建大规模相互作用网络提供科学依据,在揭示潜在药物结合位点以及开发新型疾病治疗方法方面也展现出巨大潜力:通过系统性研究实现对蛋白质间相互作用关系的整体把握,并在此基础上提出构建大型交互网络的具体策略;同时探索新型药物结合模式及精准治疗方案的可能性;此外还试图从基础层面提升蛋白质设计的成功率与准确性水平,并以此为基础对包括新冠病毒疫苗在内的多种疫苗开发提供重要的辅助支持
回顾历史上的每一次重大突破都需要当时的科技进步支撑。不论是历史上蛋白质提纯阶段还是冷电镜时代,在这些时期中科学家的研究工具主要基于当时最尖端的技术水平。伴随着人工智能技术的发展,在这些前沿领域中担任引领角色的是 companies like DeepMind 和天壤等。这种方法使得研究人员能够摆脱传统依靠先验知识进行蛋白质结构预测的方法
可预见的未来, 借助前人积累的技术成果, 这个领域的未来将迎来自翻天覆地的变化. 而蛋白质作为一个能够影响生命进程的重要分子, AI算法模型不仅让我们看到了生命的奥秘, 更为生命科学研究带来了革命性的突破. 这些庞大的数量级的蛋白质结构将会被技术转化为具体的数值或参数, 其背后的解读与分析蕴藏着巨大的研究价值, 等待科学家们去深入探索.

