Advertisement

【论文阅读】Progen: Language modeling for protein generation

阅读量:

本文介绍了一种用于蛋白质生成的语言模型ProGen。该模型旨在解决蛋白质工程学中的综合建模问题,并通过训练大规模的语言模型来实现对未见过的蛋白质家族进行建模的能力。ProGen利用条件标签和序列预测方法,在氨基酸序列和功能特性上表现出色,并通过多种度量评估了生成蛋白质的质量。研究发现,在低同源性情况下,ProGen能够生成高质量的候选蛋白质,并且具有潜在的应用前景,在定向演化和新现蛋白设计等领域发挥重要作用。

阅读这篇论文:Progen方法采用基于语言模型的蛋白质生成技术(因为购买不到正式版本的论文,只能参考arXiv版本的预印本)。

摘要

构建蛋白质工程模型是突破合成生物学、医学与材料科学基础性挑战的重要手段。我们主张蛋白质工程本质上是一个无监督生成序列的过程,其目标在于利用缺乏详尽结构注释但能够单向增殖的蛋白质序列。为此,我们对ProGen开发了一个基于分子功能与细胞成分分类标准以及关键词标签标注的数据集,并在此基础上训练了一个具有12亿参数的语言模型。该方法生成了一个高度不规则进化路径,并实现了对生成物精细程度的有效控制。

1、介绍

根据NLP指标评估的结果表明

在这里插入图片描述

图1a) 蛋白质序列数据与结构数据相比呈现出显著的指数增长趋势。b)基于提取的蛋白质序列信息、分类标签以及关键字标签等信息开发条件语言模型ProGen。

图1a) 蛋白质序列数据与结构数据相比呈现出显著的指数增长趋势。b)基于提取的蛋白质序列信息、分类标签以及关键字标签等信息开发条件语言模型ProGen。

2、方法

设A=(a₁, ⋯, aₙ),其中n为氨基酸数量;同样地,在由这些氨基酸组成的序列中定义了若干特性指标。基于最近Keskar等人(2019)在可控条件语言建模方面的研究,在蛋白质工程领域中,默认设置一组期望的蛋白质特性。这些特性通常被称为"调控标记"(control markers),我们希望通过它们来调节氨基酸序列的生成过程。令C=(c₁, ⋯, cₘ)表示这样一组调控标记序列;并定义X=[C;A]为将调控标记序列与氨基酸序列进行合并的过程。在此组合序列X上长度n=na+nc的概率分布p(X)可以通过概率链规律(Bengio等人于2003年提出的方法)进行分解:

在这里插入图片描述

该问题可被条件蛋白基因组分解为一个后续标记预测任务。其中标志符hi可能是氨基酸或特定条件标记。进而可训练一个参数为θ的神经网络模型,并利用数据集D={x₁, x₂, …, x_{|D|}}进行学习。

在这里插入图片描述

在p及其相应的调节标记作用下调节的蛋白质分布仅构成从学习到p(x)模型中可重新覆盖的一系列条件分布之一。接着通过依次采样长度为mc且经过定制标签序列编码的新MA蛋白组成符号来生成具有所需特性的蛋白片段。为了研究这些条件在氨基酸层次及条件标记上的分布我们采用了基于Vaswani等人(2017年)提出的设计理念开发了一种变体Transformer架构。我们将一个包含n个令牌的信息编码为Rd空间中的n维向量序列每个向量都是原始Transformer架构中对各个令牌的学习表示与位置编码叠加后的结果这些向量组成的序列被拼接成矩阵X₀∈R^{n×d}以便于后续处理机制的作用第i层由两个功能模块构成每个模块继承了模型的整体维度d。

3、数据

本研究整合了多个来源的蛋白质序列及其相关信息,并结合了丰富的标记数据以构建一个包含超过281 million个蛋白质的聚合数据集。该数据库具有以下显著特点:首先,在氨基酸领域我们采用了基于IUPAC命名法的标准氨基酸名称(Petit&鲍威尔, 2006)。其次,在条件标签方面我们进行了细致划分:(1)关键字标签和(2)分类标签两种类型。其中的关键字标签基于UniprotKB控制的关键词(其中许多来自基因本体论GO术语),采用层次化的词汇定义框架(Ashburner等人, 2000年)。这些关键词涉及细胞成分、生物过程和分子功能等多个主要方向,并总计收录了11,000个术语。此外,在分类标签方面我们选择了NCBI分类系统中的10万个项目来覆盖基因本体论中的8个主要分类方向。为了保证数据质量与适用性,在聚合数据集划分时采用了严格的策略:将总数据量划分为训练组、验证集和测试集三个部分,并分别对应为28亿、1百万和一百万条样本数量。特别需要注意的是,在测试过程中我们特意排除了Pfam中所包含的关键字家族作为测试对象,并将其作为独立测试集进行评估以确保模型在未知领域样本上的适用性

4、结果

4.1 ProGen作为一种语言模型

ProGen的表现会因氨基酸以及条件标记上下文的变化而有所提升。如图3所示,则对蛋白质的不同区域进行了胺平均困惑度及每令牌硬准确率的具体评估。基于直觉观察到的事实是:当氨基酸上下文范围逐渐减小时(即未来标记可能性降低),蛋白质后期部分表现出较低困惑度并伴随硬准确率的提升。此外,在图4中可看出当标签数量增加并在相同序列长度下取平均值时(如图4)。这一现象表明调理标签对于改进模型预测能力提供了积极信号。
通过分析训练曲线的数据可以看出, 蛋白质生成的质量会因采用更大规模的模型以及更长时间的训练而得到提升.研究表明, ProGen在氨基酸序列上的训练规模达到了现有公开发布的任何主流语言模型的最大规模.具体而言, 如图2所示, 尽管ProGen所使用的模型规模较大且计算资源投入也较为充足, 但其并未覆盖全部培训数据集.这一发现暗示着蛋白质生成模型仍有潜力从更大规模模型与更高计算能力中获得进一步提升

4.2 利用ProGen生成

ProGen质量伴随我们从主序列转向完全一致性结构度量的过程中显著提升,并由此表明该模型在结构中识别较低级错误时展现出的突变不变性特性得以实现。

在这里插入图片描述

在k=1的情况下(k=1),重复效应表现为最近合成的氨基酸

5、结论

本研究成功开发了一个具有精确调控功能的蛋白质合成系统——ProGen。该系统训练出涵盖广泛进化特性的大型序列数据库。实验数据显示,由ProGen生成的蛋白质均呈现出与天然蛋白相近的能量水平,并预示其功能性具备可行性。研究团队发现,在蛋白质工程领域展现出与现有顶尖方法并驾齐驱的独特优势。具体而言,在定向演化过程中可以通过调节标签设置,在ProGen中提取初始构象。这一创新策略不仅有助于提高筛选效率,在后续阶段还可以通过结合特定上下文信息优化筛选结果的质量和数量关系。此外,在新设蛋白设计领域中借助带有调节标签的ProGen系统,在设计新的蛋白质家族或宿主生物体时可实现基于现有折叠模式的新蛋白构建。这一策略不仅能够显著提升设计效率还能够拓展潜在应用范围

全部评论 (0)

还没有任何评论哟~