【论文阅读】ProteinBERT: a universal deep-learning model of protein sequence and function
发布时间
阅读量:
阅读量
学术论文研读:ProteinBERT:一个全面的深度学习架构用于蛋白质序列分析及其应用
1、背景
- 研究问题 :这篇文章要解决的问题是如何设计一个专门用于蛋白质序列和功能的深度学习模型。现有的自然语言处理模型(如BERT)虽然成功应用于文本分析,但其架构和预训练方法并不适合蛋白质序列。
- 研究难点 :该问题的研究难点包括:蛋白质序列没有明确的多字母构建块(如单词和句子),且长度变化较大;蛋白质的三维结构导致远端位置之间存在许多相互作用。
- 相关工作 :现有的蛋白质研究主要依赖于经典的序列相似性方法(如BLAST和隐马尔可夫模型),而深度学习在计算机视觉领域取得了显著进展,但在蛋白质领域仍然处于起步阶段。一些最近的研究尝试将深度神经网络模型预训练在蛋白质序列上,但这些工作通常直接引入自然语言领域的架构和任务,未能充分利用蛋白质的独特特性。
2、研究方法
这篇论文提出了ProteinBERT,一种专为蛋白质序列设计的深度语言模型。具体来说,
- 数据预处理:将蛋白质链转化为整数编码形式。该过程采用26种独特的标识符来代表20种标准氨基酸、硒代半胱氨酸(U)、未定义氨基酸(X)以及其它特定类型氨基酸(OTHER)。为了便于后续分析,在所有处理过程中会在每条链的两端分别附加START和END标识符;对于长度不足的标准序列,则以PAD符号进行填充。

- 自监督预训练 :通过自监督学习方法对蛋白质序列进行预训练,并结合双向语言建模与基因本体论(GO)注释预测的任务展开。研究者采用将蛋白质序列中的特定位置随机标记为丢失来模拟蛋白质序列损坏的方式,并利用随机删除或插入新的GO注释的方法来模拟基因本体论(GO)注释的损坏。为了衡量模型在不同破坏程度下的性能表现,在损失函数中引入了基于蛋白质序列的语言建模损失项以及基于GO注释的二进制交叉熵损失项。
- 架构设计 :ProteinBERT采用了层次化表示方法,在模型架构中设置了局部与全局表示路径两个主要分支。具体而言,在局部表示路径中采用了一系列带有跳跃连接和层归一化的变换器样块来完成特征提取与信息整合;而全局表示路径则采用了更为简洁高效的全连接层结构来进行特征融合。这些机制协同作用于整个网络架构中。

监督学习任务中的模型经过预训练后,在九个蛋白质基准数据集上进行了监督微调和性能评估。在初始阶段,默认情况下所有的网络层都被固结(frozen),仅有新增的一层全连接网络被允许进行最多40个 epoch 的优化;随后,在所有固结层被解除固结状态后再次展开优化过程,并持续迭代 40 个 epoch;最后一轮则采用了较长序列长度(longer sequence length)来进行最终优化
3、实验
- 数据收集 :预训练数据来自UniRef90 ,包含约106M个蛋白质,覆盖整个生命树。每个蛋白质提取其氨基酸序列和相关GO注释,考虑了8943个最常见的GO注释。
- 实验设计 :评估ProteinBERT的九个基准测试,涵盖蛋白质功能、结构、翻译后修饰和生物物理性质。对比了其他最先进的序列模型,如BERT、LSTM和ProtT5。
- 样本选择 :在四个TAPE基准上,比较了不同预训练时长的模型性能。对于五个新基准,进行了内部评估。
- 参数配置 :预训练速度为每秒280个蛋白质记录,训练了28天,共处理了约670M条记录。微调过程在每个基准上平均耗时约14分钟。
4、结果
- 预训练效果:蛋白序列的语言建模损失在训练集中稳步下降,在GO注释任务上则表现趋近稳定。不同长度(128、512及1024个氨基酸)的蛋白序列均展现出相似的预训练效果。
- 基准测试结果:ProteinBERT在四个TAPE基准测试中表现与大型模型相媲美,并且在某些情况下甚至超越了它们。显著提升表明ProteinBERT对多种 downstream任务均具有积极影响。
- 预训练对下游任务性能的影响研究表明:较长的时间段能够带来更好的效果改善,在二级结构预测及远程同源性预测等特定任务上能获得显著提升。

- 序列长度适应性 :基于九个基准测试,在大多数情况下(即8/9的情形下),ProteinBERT在处理较长序列时的性能有所削弱(即有所不如),但这种削弱程度并不显著(即降幅有限),从而充分证明了其能够良好地适应不同长度的输入序列。

- 全局注意力机制:通过以信号肽作为基准的测试实验研究表明,在此过程中揭示了该机制的内在工作原理。研究发现不同蛋白质之间具有各自的全局注意力模式特性,在某些方面呈现出部分共同特征。经过微调优化后发现,在这一层面上该机制的表现发生了显著变化。

5、总结
该论文引入了ProteinBERT模型,并将其定义为专为蛋白序列开发的深度学习架构。该模型可在有限标注数据中迅速训练出蛋白预测器,并通过无标签预训练策略,在新的GO标记预测任务上展现出色性能(性能接近当前最先进的方法)。其高效的设计与灵活适应不同序列长度的特点使其在蛋白研究领域展现出广泛的应用前景
5.1 优点
- 通用性 :ProteinBERT被开发成一种通用深度学习架构,在蛋白质序列和功能的本地与全球表示方面具有广泛的应用潜力。
- 高效性 :尽管其规模远小于现有的模型且运行速度更快捷,在多个基准测试中其表现已达到与现有最先进的性能相当甚至超越其性能水平。
- 预训练任务 :该方法引入了一种新的预训练任务框架即蛋白功能预测(基于Gene Ontology注释),特别适合于蛋白质数据分析场景。
- 多任务处理 :该架构提供灵活的支持以实现本地与全局多任务端到端处理具备高度的适应性和多功能处理能力。
- 序列长度灵活性 :该架构通过高效的全局注意力机制避免了传统自注意力机制所带来的序列长度限制问题。
- 计算效率 :该模型采用全局注意力机制使得计算复杂度与序列长度呈线性关系从而显著提升了计算效率和内存消耗水平。
- 开源实现 :项目提供了完整的开源工具包包括训练脚本、模型权重以及数据集基准测试用例等资源便于使用者快速搭建和扩展应用环境 https://github.com/nadavbra/protein_bert
5.2 不足
- 模型规模 :虽然ProteinBERT规模较小,在特定任务中更大的模型(如ProtT5)可能表现出更好的效果。未来研究可以探索更大规模模型的可能性以提升性能。
- 训练资源 :基于当前资源有限(单个GPU),未来研究可以通过扩展计算能力进行更多训练工作以验证模型的泛化能力。
- 数据集选择 :本研究采用了UniRef90中的非冗余蛋白质集合以减少数据偏差的影响。然而该选择也可能限制了模型在某些特定蛋白质上的性能表现。未来建议采用更为全面的蛋白质数据集。
- 长序列处理 :尽管该模型具备处理长序列的能力,在极端情况下(如数千个氨基酸以上)的有效性仍需进一步验证以确保其在实际应用场景中的适用性。
6、关键问题及解答
ProteinBERT的架构设计有哪些显著特点?这种设计如何使其具备高效处理蛋白质序列的能力?
- 局部和全局表示路径 :ProteinBERT由两个几乎平行的路径组成:局部表示路径和全局表示路径 。局部表示路径处理蛋白质序列,全局表示路径处理GO注释。这种设计使得模型能够同时捕捉蛋白质序列的局部和全局特征。
- 信息交换机制 :局部和全局表示通过广播全连接层和全局注意力层进行信息交换。广播全连接层将全局表示的特征转换为局部表示的特征,并复制到每个序列位置;全局注意力层则允许局部表示的位置根据全局输入向量进行加权。
- 序列长度灵活性 :ProteinBERT的架构对序列长度非常灵活,避免了使用位置嵌入,而是通过卷积层和特殊标记来提供位置信息。这使得模型能够处理任意长度的蛋白质序列,并且在训练和推理过程中保持高效。
- 全局注意力层的线性复杂度 :与标准的自注意力机制不同,全局注意力层的计算复杂度是线性的,而不是二次的。这使得模型在处理长序列时更加高效,并且内存消耗与序列长度成线性增长。
(2)在预训练过程中,ProteinBERT如何通过双重任务学习蛋白质表示?
- 蛋白质序列的语言建模 :蛋白质序列被编码为整数标记序列,模型通过双向语言建模任务学习蛋白质序列的结构和语义信息。具体来说,模型接收损坏的蛋白质序列,并尝试恢复原始序列
- 基因本体论(GO)注释预测 :每个蛋白质的GO注释被编码为固定大小的二进制向量,模型通过预测这些注释来学习蛋白质的功能信息。GO注释的损坏通过随机移除和添加注释进行,模型需要从蛋白质序列中预测这些注释。
- 损失函数 :预训练过程中的损失函数包括蛋白质序列的语言建模损失和GO注释的二进制交叉熵损失。损失函数的形式为:

(3)ProteinBERT在多个基准测试中的表现如何,与其他模型相比有何优势?
- 基准测试结果 :ProteinBERT在九个基准测试中表现出色,覆盖了蛋白质功能、结构、翻译后修饰和生物物理性质。在四个TAPE基准测试中,ProteinBERT的性能与现有最先进的序列模型相当,有时甚至超过它们。例如,在远程同源性预测任务中,ProteinBERT的准确率为0.22,而BERT的准确率为0.09。
- 计算资源效率 :与其他大型蛋白质语言模型(如ProtT5-XL)相比,ProteinBERT的模型规模较小,计算资源需求低。例如,ProtT5-XL有30亿参数,而ProteinBERT仅有1600万参数。这使得ProteinBERT在单GPU上即可进行高效的预训练和微调。
- 序列长度泛化 :ProteinBERT在大多数情况下对较长序列的性能略有下降,但总体上仍能很好地泛化到不同长度的蛋白质序列。这使得模型在实际应用中具有广泛的适用性。
- 全局注意力机制 :通过分析信号肽基准测试中的全局注意力值,发现不同蛋白质之间的注意力模式存在差异,但某些模式在不同蛋白质间共享。微调后,全局注意力层的变化明显,特别是在信号肽的切割位点。这表明ProteinBERT能够通过全局注意力机制有效地捕捉蛋白质序列的关键特征。
全部评论 (0)
还没有任何评论哟~
