A transformer-based model to predict peptide– HLA class I binding and optimize mutated peptides for
文章链接如下:
https://www.nature.com/articles/s42256-022-00459-7.pdf
该期刊为人工智能领域的顶级期刊。发布日期:
https://www.nature.com/articles/s42256-022-00459-7;该发布日期为2022年3月23日。
数据与代码仓库:
https://github.com/a96123155/TransPHLA-AOMP;该仓库提供详细的数据集与实验脚本。
在线提交系统:
https://issubmission.sjtu.edu.cn/TransPHLA-AOMP/index.html;该系统支持论文提交与管理功能。

文章目录
- 序言
- 第一部分
- 第二部分 实验结果分析
- 2.1 TransPHLA与其他现有方法相比具有显著优势。
- 通过TransPHLA方法得以深入探索pHLA结合机制中的潜在模式。
- 基于AOMP程序实现了高效的计算框架。
Discussion
Methods
- 数据集
- 实验设置
- 实验设置
- TransPHLA
- 序列嵌入在TransPHLA中
- 二级标题
- AOMP程序
- 服务器可用性
- Webserver可用性
- 数据可获得性
- 代码可获得性
前言
HLAs蛋白能够识别并结合外来蛋白质片段,并将这些抗原呈递给特定的免疫细胞以触发免疫反应过程。通过计算预测模型加快筛选效率的同时促进疫苗设计工作的发展。然而目前尚未出现一个完全自动化的程序来优化与目标HLA等位基因具有更高亲和力的突变肽段。为此我们开发了TransMut框架该系统由基于TransPHLA算法设计的模块以及一个自动化优化程序(AOMP)组成其功能可延伸至任何生物分子的研究领域。具体而言我们首先构建了一个基于Transformer架构的pHLA结合模型并通过大量实验验证其性能优于现有14种pHLA结合预测方法以及针对HPV疫苗鉴定的技术方案。在疫苗设计方面AOMP程序能够利用TransPHLA产生的量化评估结果自动生成与目标等位基因亲和力更高且序列上与原始抗原则具高同源性的突变体序列从而显著提高疫苗研发效率。
一、
多聚肽与人白细胞抗原(HLA)相互作用是实现抗原呈递的关键步骤;这一机制对于T细胞的有效识别至关重要;仅当多聚肽将暴露于细胞外表面特异性的HLA分子结合时;从而形成pH-HA复合体后;这种机制能够引发强烈的免疫应答;按照功能划分,则分为两种类型:一种是Hla-I基因家族(Hla-I);另一种是Hla-Il基因家族(Hlal-2);其中Hlal由三个I位点编码,并在所有有核细胞中均匀分布于胞膜表面。
在本文中, 我们将重点研究HLA-I分子(简称HLA)。该分子主要与长度介于8至10个氨基酸的小肽相互作用, 其原因是由于其结合位点两端由保守的酪氨酸残基所限制, 其中9-mer肽是最为常见的形式。随后, 其中有若干种特殊的pHLA分子能够在细胞表面暴露出来, 以便于

鉴定。经测定含有特定数量(如11至14)氨基酸组成的蛋白质结合单元已确认存在。基于该技术的有效性评估,在本次研究中我们采用了不同长度(8至14个氨基酸)的蛋白质片段作为分析对象
因为HLA分子在人类群体中展现出高度特异且多样化的特性,在这些分子中只有数量有限的部分能够呈递给HLA分子。为了明确哪些特定的抗原多肽能够在个体特定的HLA类型中表现出针对抗原呈递细胞表面表位的选择性,则需要进行深入的研究。
为了达到这一目标的第一步是验证多肽与相应HLA表位之间的相互作用强度。由于同一肽与其结合的特定HLA表位之间存在相互作用强度的相关性问题,在此基础之上已经开发出了多种计算模型来预测不同多肽与其对应HLA表位间的结合可能性(补充部分1对此进行了详细阐述)。
现有的方法主要依赖于机器学习模型,尤其是神经网络,用于预测多肽与HLA等位基因之间的相互作用强度。尽管该方法对于含有9个氨基酸的多肽能够达到90%的准确率,但对于其他长度的多肽其预测效果仍有待提升[13]。这是因为9-mer片段更容易与HLA等位基因结合这一特性能够更好地解释其更高的准确性原因。此外,针对等位基因特异性与泛特异性特征已经开发出相应的pHLA结合预测模型。这些模型具有特定的应用限制:前者仅适用于已知的HLA等位基因或训练数据中涉及的特定肽长,而后者则基于多等位基因数据构建能够更精确地预测pHLA结合关系特别是对于罕见的HLA类型及其对应肽长的情况
短肽合成诱导高靶向免疫反应的方法具有显著吸引力。研究pHLAs间相互作用有助于多肽疫苗设计,并成为多种疾病候选疫苗的重要组成部分。一些实验证明,在抗肿瘤免疫反应中由癌细胞内非同义突变产生的新抗原有关键作用。此外,在临床试验中发现新抗原疫苗具有显著疗效。
相较于传统疫苗而言,多肽疫苗具有诸多优势。抗原肽通过与特定的HLA结合形成肽-HLA-TCR复合物来诱导T细胞免疫应答。理论上而言,在理论上而言,在理论上而言,在理论上而言,在理论上而言,
为了鉴定新抗原的具体流程如下:首先建立高通量测序技术和生物信息学管道来表征原发肿瘤的非同义突变;接着开发了一种可靠的计算方法来预测突变肽与HLA等位基因之间的结合概率;经过这两个阶段后(经过这两个阶段后(经过这两个阶段后(经过这两个阶段后(经过这两个阶段后),候选突变肽的数量将大幅减少),从而加快实验验证的速度;然而这一过程较为复杂,
因此在新抗原设计领域中开发一种高效的突变肽自动优化程序(AOMP)将成为一项具有里程碑意义的任务。
在本文中, 我们报道了基于transformer架构的模型旨在实现pHLA结合预测任务, 并通过动态规划方法支持突变肽序列优化功能, 该系统还支持通过动态规划方法优化突变肽序列, 并附有流程图(见图1)。

TransPHLA是一种通用的方法, 它表现出更优的效果, 可用于稀有和不可见的HLA^{*}等位基因(图2)

TransPHLA模型的基本概念是主要通过self-attention机制将多肽、HLAs以及pHLA对进行有效结合,并从而实现结合评分这一目标。该模型由四个关键模块组成:(1)嵌入模块(除了对氨基酸进行编码外,并加入了位置编码来表征序列的空间信息);(2)编码器模块(通过多头自注意力机制分别关注序列的不同部分,并遮蔽填充位置以避免误导模型训练);(3)特征优化模块(利用升维再降维的技术策略处理自注意力块输出的特征信息,并采用全连接层来优化特征表示效果);(4)投影模块(通过多个全连接层计算并预测最终的pHLA结合得分)。
对比了基于TransPHLA与其他14种pHLA结合预测的方法,并对包括但不限于当前最先进算法以及免疫表位数据库(IEDB)推荐方案在内的所有9种基线方案进行了系统性分析;此外还整合了近期基于注意力机制开发出的一些新算法
其性能超越了之前发表的14种新型抗原检测方法。其在阳性筛查能力方面表现出极高的水平。尽管存在不同阈值设置的问题,在人乳头状瘤病毒(HPV)疫苗检测方面表现出较低的阳性检出率,并未达到理想效果;但该方法仍能超越其他14种技术手段
我们还研发出一种基于TransPHLA提取注意力机制的肽类疫苗构建工具AOMP程序(图3)。该工具旨在辅助实现疫苗设计。

当用户提供一个由源肽和目标HLA等位基因组成的配对时
由TransPHLA与AOMP程序共同构建成了TransMut框架,并将其成功应用至生物大分子结合与突变研究领域。该框架不仅能够处理表位优化及药物设计等多个领域的蛋白质突变分析,并且在疫苗研发中也展现出独特价值。例如,在TNF-α靶向疫苗研发中就存在这样的挑战:由于TNF-α具有强烈的生物学活性,在体内激发炎症反应且长期使用可能引发自身免疫性疾病。关键在于如何在保持足够的免疫原性的同时降低TNF-α的生物活性,并在此基础上实现变异体的选择优化目标对于此类蛋白质变异分析任务,AOMP程序表现尤为出色。其工作原理包括首先利用Transformer衍生模型对变异方向数据进行精细建模训练,随后提取出各变异方向上的关注权重值;基于这些关注评分,AOMP系统能够有效识别出一个性能更为优越的新变异体
二、Results
2.1 TransPHLA与现有方法的比较。
为了评估TransPHLA的有效性,我们将该方法与IEDB平台上的9种基准算法进行对比分析。这些基准算法包括NetMHCpan_EL14推荐的方法、NetMHCpan_BA14推荐的方法、NetMHCstabpan37推荐的方法、CombLib33推荐的方法以及SMM31推荐的方法等。此外,在2021年发布的新版本中还引入了Anthem30这一最先进的算法,并对近期提出的三种基于注意力机制的方法进行了整合比较研究。

图4通过展示两个视角来呈现pHLA测试集的结果。(1)该方法能够预测所有提供的数据(图4a、b),或者(2)由于其局限性,在部分数据上无法实现预测(图4c、d)。在图4a和b中使用的不同方法在性能评估方面使用的数据具有高度一致性;因此可以实现公平比较。对于图4c和d中涉及的不同方法而言,则由于其局限性导致无法实现全面的数据对比。因此,在针对每个子图时所采用的方法均基于相应子集数据展开性能评估。为了更加公平和合理地进行性能评估,在针对每种方法时 TransPHLA 采用了两两对比的方式进行分析。在独立数据与外部数据上该方法均优于除 Anthem 外的其他现有算法;其中 Anthem 在独立数据上的表现略低于 TransPHLA;但在外部数据上的表现较为接近于 TransPHLA 的水平。然而由于 Anthem 的发表限制仅限于有限数量的研究数据;因而其无法覆盖所有可能存在的 HLA 等位基因及肽链长度组合的情况;而 TransPHLA 则没有此类限制条件。补充章节 2.3 对比阐述了 TransPHLA 与 Anthem 之间的具体差异与优劣关系。(此外 NetMHCpan_EL 在外部数据上的表现较为理想;但在独立数据分析时却出现了显著下降的现象:其中独立数据包含了 112 种 HLA 等位基因;而外部研究仅涵盖了 5 种 HLA 等位基因的情况;正如前面所述这两种类型的数据在性能评估方面是互补的关系;因此只有同时在这两类数据上均获得良好效果的方法才有资格被视为最优方案
注
我们还探讨了每种方法在不同肽长度下的独立数据集和外部测试集上的效能。补充图1-8展示了15种方法在独立数据集和外部测试集上使用的曲线下面积(AUC)、精确度、Matthew's相关系数(MCC)以及F1值的箱线图。这些结果表明TransPHLA优于其他14种方法:(1)TransPHLA不受HLA异质性或肽长度的限制;对于所有肽长度而言,在所有评估指标上它都展现出卓越的性能优势;(2)TransPHLA表现出四个关键指标的高度集中分布特性,在特定情况下(如肽长度为9)能够通过增加训练数据量来显著提升预测性能;(3)无论HLA类型的增加与否,在其他pHLA数据的各个肽长度下进行预测时,MCC值均表明TransPHLA表现稳健;此外,在处理约170,000 pHLA时, TransPHLA在配备GeForce RTX 3080 GPU的情况下完成预测仅需28秒(约170,000 pHLA),而使用CPU则需约2分钟(其他方法无法达到如此高效的性能)。补充部分2.1和2.2对上述结果进行了详细解析
新抗原筛选的主要原因是多肽与自体特异性HLA分子之间的相互作用关系的确立。为了确认新抗原的存在性及其特性特征, 我们系统性地收集了来自非小细胞肺癌、黑色素瘤、卵巢癌以及胰腺癌患者的相应样本数据, 其中包含了221例经过实验验证的成功案例(pHLA结合物)。通过对现有文献中的分析结果进行整理(图4e),我们发现TransPHLA系统能够有效识别约96.4%的新抗原标志位点. 虽然CombLib检测系统的准确性达到了满分水平, 但其仅能识别长度为9-mer序列, 这一限制因素使其在实际应用中存在明显局限性. 其余采用的各种筛选策略均未达到TransPHLA的高度灵敏度, 并且可能会受到已知可预测Hla分子或特定peptide序列长度等因素的影响.
基于62种HLA等位基因与相应多肽长度的组合构建了221组新抗原样本。在这些特定组合中有10组未被训练数据所包含。对于这10组测试样本,在其中仅有3组未能被TransPHLA正确识别。这表明该方法具备良好的泛化性能。
HPV是最为常见的性传播疾病之一,并且目前仅有一些预防性的HPV疫苗能够实现初步保护作用。尽管现有的预防性HPV疫苗数量有限且应用范围有待扩大, 但其在临床实践中的应用效果仍然值得肯定。因此, 开发一种既能有效治疗HPV感染又能有效应对相关疾病的新一代治疗性疫苗显得尤为重要。此前一项研究43详细报道了从HPV16蛋白E6与E7区域提取出的278种经实验验证的人类抗原结合位点(pHLA), 其中每种抗原结合位点均由长度介于8至11个氨基酸组成的多肽分子构成。具体分析结果可见于图4f所示的具体分析结果可见于图4f所示的具体分析结果可见于图4f所示的具体分析结果可见于图4f所示

这些数据被归类为"结合剂"这一分类依据是基于将该物质浓度设定为共同阈值(common threshold)后再放大2倍的结果得出的结论。其中包含了15种预测方法的数据作为基准标准来设定该共同阈值的具体数值。因此,在这些特定的方法中发现半抑制浓度(half-maximal inhibitory concentration, HMIC)超过设定阈值(即大于等于1, )。这也解释了为何HPV疫苗相关数据在多个分析中表现更为欠佳的原因
我们还评估了该方法在

本研究中所涉及样本的性能表现值得肯定。具体结果可在扩展数据图1中查看及补充说明部分第10页。结果显示,TransPHLA方法在测试过程中仅出现了3例误判案例(共计参与测试的18个样本),其准确度显著优于其他基于不同算法的分类方法(如支持向量机、决策树等)。
2.2 TransPHLA揭示了pHLA结合的潜在模式
该模型通过TransPHLA中的注意力机制实现了生物学上的可解释性。
在此节中, 我们将基于注意力分数来探讨pHLA分子内各区域之间的相互作用规律。
研究表明, 在pHLA结合过程中起关键作用的是肽链的不同末端(即C端和N端)以及锚定位点52。
进一步验证了这些关键位置具有显著的关注度, 如图5a所示。
研究发现, 阳性和阴性样本两类样本在氨基酸类型上存在显著差异, 并且这种差异与不同肽位之间的结合状态密切相关。
本研究发现phla分子间的作用(即结合与非结合)受到肽段中不同成分的影响。此外,我们还考察了20种氨基酸对所有366种hla-肽长度组合中是否存在结合或脱离开情况进行了系统考察。注意力分数和相应的热图可通过我们的网络服务器获取相关数据。

这些结果不但不仅有助于我们深入理解pHLA结合的机制,在疫苗设计中也有重要应用, 其中一项应用就是疫苗设计。
改写说明
针对HLA-B _57: 03的研究发现表明疏水残基通常形成一个结合袋区域。我们通过分析肽链上第9位氨基酸的位置(具体为Lys-9、Phenyl-9和Trp-9),成功定位出了这种偏好的具体位置区域。这一发现与国际知名数据库PDB 2BVP 54所描述的结构特征高度一致。在后续研究中发现,在HLA-A_68: 01,4HWZ-55的研究中指出该肽链上第9位精氨酸(Arg-9)和谷氨酰胺(Arg-9)这两个关键氨基酸对整体相互作用有着显著的影响作用。进一步研究表明,在HLA-B*44: 02的研究体系下确认了其关键作用的重要性。这些结论均基于先前研究的基础之上,并最终验证了我们提出的方法具有良好的应用价值
2.3 AOMP program.
当给定源肽与特定HLA-B*51:01等位基因之间的相互作用强度较低时,则可考虑采取优化突变策略以提高其结合强度。图3展示了该源肽DLLPETPW通过自旋梯度提升(AOMP)实现稳定态动力学过程的过程模拟,并包含第二种优化策略及其自动突变过程的具体机制描述。
为了验证AOMP项目的有效性, 我们提出两种测试方案以评估本研究涉及的所有366个HLA-肽长度组合。第一种方案基于TransPHLA准确识别出未结合的peptides; 即使如此, 被认为是真正未结合的状态并被正确识别出来的情况也存在。第二种方案仅依赖于TransPHLA的预测结果, 而不考虑实际存在的标记标签信息。简单来说, 用于评估样本的选择仅限于那些被TransPHLA成功识别出未结合状态的情况。通过随机抽样方法得出的结果表明, 在这种情况下真阴性比例达到了92.57% (见图6e)

然后,在采用AOMP程序的基础上结合这两种策略的基础上进行操作后发现成功筛选出大量阴性pHLAs的突变肽段
相较于第一种_strategy而言_**second strategy**表现出略微更好的性能_这得益于其评估样本的独特性——即能够结合_HLA molecules_这一特定特征_相比而言_在无法直接与_HLA molecules相结合的情况下(即non-binding scenarios)_first strategy能够提供更为精准的概率评估结果_而_second strategy则在实际情况中的应用更加突出——它能更好地揭示_AOMP的成功突变率_在这种情况下参数通常是未知且难以预测和衡量的
我们还通过分子动力学(MD)计算模拟来验证AOMP的作用机制有效性。采用HLA-a*02:01为目标抗原,并以YKLVVVGAG序列作为源肽片段进行研究。我们系统性地选择了8种不同突变形式的肽链进行模拟分析,并将其与源肽进行了详细比较。结果显示:第一部分研究表明所提出的TransPHLA模型所获得的关注机制与其对应的pHLA复合物的空间构象高度一致;第二部分研究表明TransPHLA模型的预测结果不仅与MD计算模拟的结果吻合良好,并且也与NetMHCpan_BA软件分析的结果完全一致。另一方面,在实验验证中我们进一步证实了AOMP体系能够有效产生一系列具有不同结合特异性的突变多肽片段,并成功与其相应的HLA等位基因完成了非同源区域之间的结合反应
Discussion
pHla相互作用网络对表位呈现具有关键性影响,在t细胞识别启动有效免疫应答中占据核心地位。在第一步中,筛选与鉴定表位的过程主要取决于pHla亲合多肽的能力,在新表位驱动型免疫治疗领域中被认定为最有可能取得突破性的癌症治疗方法。多肽与特异性自体Hla分子之间的亲和力成为新抗原筛选的主要依据。因此,在精确预测pHla结合模式方面取得成功就等同于能够有效识别潜在用于免疫治疗的目标表位、优化表位筛选过程以及设计出高效的安全疫苗。而当前阶段而言,在多肽疫苗设计这一领域虽然已取得一定进展但其自动化程度仍处于初级阶段
我们开发了一种基于Transformer架构的TransPHLA整合预测系统。这一系统具备广泛的特异性和普适性,并不受特定HLA表位或肽链长度限制。通过独立验证和典型病例分析(包括新型抗原及HPV疫苗检测)进行了全面评估。相较于Anthem、NetMHCpan_EL、IEDB官方基准测试中的9项标准以及基于注意力机制的3个最新算法,在经过四个关键实验项目评估后,我们的系统均展现出卓越的表现。
基于TransPHLA这一技术平台开发了一个新的AOMP程序。该系统采用基于TransPHLA生成的关注度评分来识别那些既与目标HLA等位基因亲和力更高又与源肽高度同源的变异肽。研究者们针对AOMP项目采用了两种不同的评估标准,在整合了包含7320种不同等位基因及相应长度信息的数据库后筛选出了一组候选序列。在该数据库中成功筛选出7268个候选序列,并有94%的成功案例通过IEDB推荐系统进行了验证。此外,在这些候选序列中约有89%达到了至少80%的空间同源性标准,并且这些结果对于疫苗研发具有重要意义
这是初次尝试在生物分子的自动突变领域开发一个基于Transformer的TransMut框架;该框架可用于生物分子的各种结合预测和其他突变任务。
Methods
数据集
在我们的研究项目中, pHLA绑定数据分析结果(阳性样本)获取自Anthem30数据库,可通过访问以下链接直接下载: https://github.com/17shutao/Anthem/tree/main/main_data/datasets. 阴性样本的数据生成机制与以往研究具有相似之处. 针对每一个特定的抗原结合位点长度以及对应的抗原等位基因类型, 用于生成阴性样本的数据来源于IEDBHLA免疫肽组中的相应来源蛋白. 尽管可能会出现某些特异性的假阴性反应, 但其发生概率及其比例相对较低, 因此能够被合理忽略. 通过科学合理的负样本构建策略确保了训练集的整体均衡分布(参考补充表2).
为了比较我们的方法与以往的方法是否具有优势性差异, 我们采用了Anthem的方法来进行训练和评估, 这种方法已成为当前领域中最为先进的pHLA绑定预测技术。
有三种不同功能的数据集合被设计出来:其中一个是用于模型训练及模型优化的训练集合、另一个是独立的测试集合以及第三个是用于模型评估及方法对比的外部测试集合。(1)四个公共HLA-抗原结合数据库包括IEDB、EPICMC60MHCBN和SYFPEITHI;(2)异型抗原结合配体通过质谱技术在已有研究中已被报道;(3)肽结合来自训练数据集中其他pHLA结合预测工具的结果。通过Anthem系统对外部测试集合进行了实验验证。
我们还剔除了部分错误或重复的样本;例如,在'HLA-B*07:01'相关样本中未进行处理的情况是因为其序列存在缺陷(参考补充表2)。补充表2详细列出了这三种数据集类型的统计数据。值得注意的是,在大多数情况下(如扩展图12所示),每个HLA等位基因各肽长段对应的pHLA结合数量呈现了显著的差异性。然而,在特定条件下(如多数情况下),常见的肽结合物长度为8-14个氨基酸 residues 的情况更为普遍。对于不同长度的pHla结合体而言,在某些特定范围内其对应的pHla 结合数量呈现出明显的差异性(如扩展数据图2所示)。这种现象直接导致该方法在不同肽结合物长度上的性能表现存在显著差异(如扩展数据图2所示)。
Experiment settings
为了追踪先前关于pHLA结合预测的研究工作,本研究分别进行了五折交叉验证(CV)以及独立测试.因为独立测试集与训练集来源于相同的来源,所以训练集与独立测试集的数据分布极为接近(参考补充图表11及12).当模型在与训练数据分布相仿的数据上运行时,其表现通常优于在与其他数据分布分离的情况下进行评估.换言之,相较于现有方法如Anthem,我们在采用独立测验样本时可能具有更大的优势.基于此,我们设计并实施了一个外部评估机制,旨在对不同方法进行更为公平的比较
本研究采用了五倍交叉验证法来进行模型评估,并在训练阶段对模型进行了优化以提高其泛化能力。具体而言,在实验过程中将全部的数据集划分为五个相等的部分,并采用轮换的方式分别使用其中四个部分作为训练数据、剩余的一份作为验证数据进行测试。经过五次这样的循环后统计每次循环中获得的所有验证结果取平均值作为最终评估指标,并通过这种方法可以有效地减少由于样本选择不当导致的结果偏差问题
独立性检验是一种广泛采用的方法学手段用于评估所研究方法在不可见数据上的泛化能力。这种测试过程通过使用与训练集合完全不相交但具有相同统计特性的测试集合来实现。此外,在这种情况下还引入了一个完全不依赖于训练集合的公共参考集,并保证了对各种方法进行公正比较。
为确保比较的公平性,我们将实验数据设为外部测试集的基础,并以控制相似的数据分布来减少潜在偏差.参考补充图表11及12,观察到外部测试集的数据分布与其训练集及独立验证集之间存在微小差异.如同独立验证一样,这种评估方式能够更加全面地反映模型的能力.
Experiment settings
对于每个预测模型,我们计算了以下指标:


其中将真实正样本预测为正的结果称为真阳性(TP),将真实负样本预测为正的结果称为假阳性(FP),将真实正样本预测为负的结果称为假阴性(FN),将真实负样本预测为负的结果称为真阴性(TN)。此外,在性能评估中我们采用了受试者工作特征曲线下的面积(AUC)这一指标。值得注意的是,在除了MCC之外还有其他评估指标其范围从−1到1而MCC的取值范围在-1到1之间度量值越大度量结果越好意味着模型或方法具有更强的表现能力值得注意的是当这四个统计量中的任意两个同时等于零时MCC无法计算因为分母会变成零这种情况并非由于假阴性和假阳性的共同出现所导致而是当这四个统计量中的任意两个同时等于零时导致分母无法进行有效的除法运算进而使得MCC无法得出有意义的结论这种现象表明对于某些特定组合如果无法计算相应的MCC参数则说明该方法在面对这些特定条件时表现不足或不具备适用性
TransPHLA
TransPHLA的主要概念在于引入自我注意力机制(引用文献29)。该模型由四个组成部分构成(如图2所示)。通过在氨基酸嵌入中加入位置编码生成序列嵌入,并采用丢弃机制来提高抗干扰能力。经过嵌入模块处理后分别得到多肽片段与HLA等位基因的向量表示。这些向量作为输入传递至编码器模块中进行处理:编码器模块包含掩蔽多头自注意力机制以及特征优化模块(后者由多个全连接层构成)。具体而言,在特征优化模块中先经历升维操作再降维处理以提升表示质量。pHLA对向量通过编码器模块进一步处理后用于预测评估
模型训练基于 Centos Linux 核心内核系统执行。该处理器采用 Intel Xeon 核心架构运行主频约 2 GHz 的 CPU 单元,并具备总计拥有 8 块独立的 GPU 加速单元。GPU 配置为 NVIDIA GeForce RTX-3xxx 系列显卡。内存容量设定为约 9 GB 对外可见,并通过 PCIe 总线连接至计算节点以支持高速数据传输需求。代码编写使用 Python 版本号运行环境,并基于 PyTorch 深度学习框架构建了当前的模型架构。整个训练任务划分为共约5万次迭代(每个迭代周期包含多个小阶段),每个迭代周期所需时间为总计约4小时半(每个小阶段耗时约4小时)。经过多轮测试(共5次 CV 折叠),最终收敛所得最优模型被确认为最佳方案。为了确保结果的一致性与可复现性,在实验中固定随机种子值于 ID = [填写具体数值] ,并在实验过程中严格遵循算法流程及参数设置要求
Sequence embedding in TransPHLA
随后,在将肽段与HLA等位基因序列分别填充至长度为15和34的过程中
相反地, 氨基酸序列的顺序对肽段与HLA等位基因序列的结构与功能具有重要意义, 然而现有的包埋方法并未充分考虑这一点. 由此可知, 我们需要引入一种能够反映其在序列中相对重要性的机制. 具体而言, 对于给定的序列中的位置p, 其对应的编码表示为

如果这个向量的第i个元素的值是

,那么

具体而言,在2i维偶维数与2i+1奇维数的空间中表征蛋白质序列的位置特征时, 我们采用了基于序列长度的位置编码方法. 该编码方案不仅能够有效提取氨基酸序列中的绝对位点信息, 同时也能反映氨基酸间的相对关系. 图13b详细展示了该编码机制的作用效果. 需要注意的是, 无论针对何种肽链或特定HLA变体, 其位置编码机制均具有高度的一致性. 此外, 通过在消融研究中逐步去除位置编码的影响, 我们验证了其对TransPHLA预测性能的关键作用(更多实验细节请参阅附图5)
最后,对氨基酸嵌入和位置嵌入进行求和,得到序列嵌入(见补充图13c)。
二级标题
注意力机制可被视为transformer模型的核心组件。它能够聚焦于关键数据并有效地抑制非关键数据的影响。其本质在于将查询Q映射至一组键值(K-V)对,并生成相应的输出结果。这一过程反映出的是基于查询与键的相关程度或相似度所计算出的注意力分数(亦称权重)。
注意力分数反映了信息的重要性(用V表示)。注意力得分越高,则越会对相应的数据进行集中关注。相比于递归神经网络(RNNs),transformer实现了并行计算,并有效克服了长期依赖问题;相较于卷积神经网络(CNNs),transformer能够提取更多的全局信息;在实验(补充部分9)中进行测试时发现,在TransPHLA编码器块的设计下使用transformer相比RNNs和CNNs取得了显著的性能提升。
自我注意机制是 notice mechanism的一种变体形式,它捕获了序列内部的相关性,降低了对外部信息的依赖程度.值得注意的是,在注意力计算过程中引入了掩模操作.对于长度小于相应最大长度的肽段或HLA等位基因序列,在模型训练时不应考虑非氨基酸特征.因此我们采用了基于此,在模型训练过程中仅考虑氨基酸序列而不考虑非氨基酸特征.

该模型中非氨基酸字符在注意力权重计算中表现趋近于零值状态,在注意力权重分配过程中不参与计算过程。自注意力机制的具体计算流程可见附图3以及补充材料6部分详细说明。
针对多头自注意力机制的一层架构与多个头结构进行模型参数优化选择,在具体实现过程中采用了单层多头结构,并配置了9个注意力头数量以提升模型性能表现。实验结果表明该模型体系未出现过拟合现象(如附图16所示以及补充材料7部分详细分析)。
AOMP program
本研究团队致力于研制一种AOMP程序,并旨在探索那些与特定HL A-抗原呈递有关且亲和力较弱的靶向蛋白片段之间的关系。例如而言,在人乳头瘤病毒HPV中的E6和E7蛋白片段就可作为特异性的关键肽。此外,在抗原呈递过程中还涉及人免疫球蛋白(IgG)与表皮生长因子受体(TNFR)结合形成复杂的表位网络中可能存在类似的突变机制。
该程序基于TransPHLA计算出的关注分数制定了四种定向突变策略(如图3所示)。这些关注分数不仅反映了pHLA基因结合模式的信息,并且能够反映肽序列中对与目标HLA等位基因结合或不结合具有重要意义的关键氨基酸位置。为了优化疫苗设计效果我们综合考虑了突变肽与源肽之间的相似性因素。通过计算突变肽与源肽之间的序列相似性实验结果表明使用Python中的差异模块所得出的结果与BLAST算法计算结果高度一致(差异值分别为90%80%70%61%)。因此我们限定单个源肽上可被修改的氨基酸位置数量不超过4个以提高疫苗预测精度和稳定性。对于这366种HLA-肽长度组合我们为每个氨基酸位点构建了一个20氨基酸长的结合贡献矩阵以适应不同长度的Hla-peptide配对需求。为此我们开发了一个通用化的结合贡献矩阵系统并将其及其热图可视化结果发布于Web服务器上以供研究人员查询参考。此外当遇到亲和力较弱的情况时我们采用TransPHLA得到的关注分数来重新计算相应的肽链上每个氨基酸位点的贡献矩阵从而提供更精准的数据支持。如果有必要用户还可以下载相关热图数据进行深入分析
在后续研究中
基于比较结果实施相应的氨基酸替换策略。具体步骤如下:首先通过计算源肽与目标抗原荷马蛋白之间的相互作用强度来确定;接着利用自注意力机制识别出若干关键的氨基酸位置;随后替换掉那些在弱亲和力pHLA中对结合预测影响较小的关键氨基酸位置;最后筛选出具有最高评估价值的最佳突变体作为候选。
在研究源蛋白及其特异性抗原(如特定性抗原来自人类白细胞介素-2受体糖蛋白)时
图3展示了AOMP程序的具体运行过程,并通过源肽dllpetpw与目标HLA-B*51:01体系中采用第二种突变策略的例子进行了具体阐述。在本研究中,补充材料8详细阐述了本示例中四种不同的AOMP策略的具体实施方式。而补充材料11则具体分析了基于实验数据以及分子动力学模拟的结果中的若干典型AOMP实例。
Webserver availability
该网络服务器支持在t https://issubmission.sjtu.edu.cn/TransPHLA-AOMP/index.html.的网站上免费提供给。
Data availability
这些数据集可在GitHub存储库[链接]中获取。其中包含了训练、独立测试、外部测试、新抗原以及HPV疫苗相关的数据。其统计数据详见补充材料中的第3部分。具体来说,在提交页面[链接]处可以下载不同HLA等位基因对应的氨基酸序列类型及其位置上的注意力权重分布热图,并附有相应的肽结合体长度信息。本研究提供了原始数据分析结果。
Code availability
此代码可通过GitHub存储库TransPHLA-AOMP获取,并遵循GNU通用公共许可证版本3。此网页详细列出了本项目所需的依赖项及所需的操作环境,并提供了完整的指令说明;此外,在页面中还列出了各模块间的交互关系(包含.ipynb文件)。
