Advertisement

阅读笔记15:The functional landscape of the human phosphoproteome

阅读量:

题目:The functional landscape of the human phosphoproteome
作者:David Ochoa, Andrew F. Jarnuczak, Cristina Viéitez, Maja Gehre, Margaret Soucheray, André Mateus, Askar A. Kleefeldt, Anthony Hill, Luz Garcia-Alonso, Frank Stein, Nevan J. Krogan, Mikhail M. Savitski, Danielle L. Swaney, Juan A. Vizcaíno, Kyung-Min Noh & Pedro Beltrao
发表期刊:Nature Biotechnology
发表时间:09 December 2019

摘要解读

研究背景

蛋白质磷酸化是一种关键的翻译后修饰方式,几乎涉及所有细胞过程中蛋白质功能的调节。尽管在人类细胞中已鉴定出数以万计的磷酸化位点,但目前缺乏有效的方法来确定每个磷酸化位点(phosphosite)的功能重要性。

研究目标

本研究旨在通过整合多维数据资源,使用机器学习方法来评估和优先级排序人类磷酸化位点的功能重要性,以揭示其在不同分子机制、生物过程和疾病中的调控作用。

研究内容

研究团队手动整理了来自104种不同人类细胞类型或组织的112个磷酸化富集蛋白数据集,并重新分析了通过质量控制的6,801个蛋白质组学实验。这一过程生成了一个包含119,809个人类磷酸化位点的参考磷酸化蛋白质组。为了优先考虑功能位点,研究者使用机器学习识别了59个指示蛋白质组学、结构、调控或进化相关性的特征,并将它们整合成一个单一的功能评分。

研究结果

通过上述方法,研究团队识别了在不同分子机制、生物过程和疾病中的调控性磷酸化位点,并揭示了基因组规模的遗传易感性。此外,研究中对几个调控性磷酸化位点进行了实验验证,包括确认SWI/SNF染色质重塑复合体成员SMARCC2中的磷酸化位点在神经分化中的作用。

研究意义

该研究提供了一个系统的方法来评估磷酸化位点的功能重要性,为理解蛋白质磷酸化在人类健康和疾病中的作用提供了新的视角,同时也为未来的生物医学研究和潜在的治疗策略开发提供了宝贵的资源。

引言解读

研究问题

蛋白质磷酸化是调控生物过程的重要翻译后修饰方式,其失调与多种人类疾病相关。尽管已通过质谱等方法鉴定出大量磷酸化位点,其功能全貌仍是当前活跃研究的问题。

国内外研究现状

目前已通过集成研究鉴定出超过200,000个磷酸化位点,但分析挑战依然存在,研究重点正在转向其功能特性的确定。

目前研究的局限

虽然已提出多种优先策略,如鉴定高度保守的磷酸化位点,但大规模应用于人类磷酸化的突变研究尚不可行。机器学习方法在研究磷酸化功能相关性方面的探索还不充分。

本文的研究目标

本研究旨在生成迄今为止最大的人类磷酸化蛋白质组数据集,识别出119,809个人类磷酸化位点,并针对每个磷酸化位点编制了涵盖59个特征的注释,将这些注释整合进一个名为“磷酸化位点功能分数”的单一功能相关性评分中。

研究内容

本研究内容涉及使用高通量质谱技术和机器学习方法来系统地分析和评估大规模人类磷酸化数据,以揭示磷酸化位点在调控细胞功能中的作用,并预测有害突变的影响。通过整合多维数据,研究试图建立一个能准确识别不同机制下调控性磷酸化位点的模型,并为生物医学研究提供新的工具和资源。

这项研究不仅填补了现有研究的空白,而且通过创新的方法推动了生物医学研究的进展,特别是在精确医疗和疾病治疗策略开发方面提供了可能的新途径。此外,研究还强调了机器学习在生物医学数据分析中的潜力和重要性,特别是在处理和解释大规模生物数据集时。

研究方法详细解读

数据采集
采集方法及建库手段

本研究从PRIDE数据库(截至2017年6月)检索了所有被注释包含磷酸化信息的307个人类数据集。为确保数据质量,研究团队进行了广泛的手工整理,只选择了使用磷酸富集策略(例如金属氧化物亲和层析和抗磷酸酪氨酸抗体)的非靶向分析方法的数据集。同时,排除了来自多种物种(如感染和异种移植)的蛋白质组数据,以避免跨物种污染。此外,带有重大遗传修改的数据集也被排除在外。

组学数据

从筛选后的数据集中,最终有110个PRIDE数据集被用于进一步分析,包括对每个原始文件的生物来源和搜索参数进行注释。

样本分组及每组样本量

这些数据集涵盖了不同的人类细胞类型或组织,共6,801个质谱(MS)原始文件,这些文件经过筛选符合质量控制标准,累计实验仪器时间为575天。

生物信息学数据分析方法
统计方法与软件技术
  • MaxQuant软件和Andromeda引擎 :所有6,801个MS原始文件使用MaxQuant 1.6.0.13版本和Andromeda引擎联合搜索,搜索数据库为UniProt人类参考蛋白质组(包含71,567个序列,数据截至2017年5月)。
  • 修饰设置 :在搜索中将半胱氨酸羰基甲基化设置为固定修饰,而甲硫氨酸氧化、蛋白N端乙酰化以及丝氨酸、苏氨酸和酪氨酸的磷酸化设置为可变修饰。
显著性阈值
  • 假阳性率(FDR)控制 :使用目标-伪装策略估计FDR,对于被修饰的肽段,使用默认的MaxQuant搜索参数,包括1%的肽段-谱匹配(PSM)FDR和1%的位点级FDR。
可能选择这些方法的原因
  • MaxQuant和Andromeda :这些工具在蛋白质组学中广泛应用,特别适合于处理和分析大规模MS数据,提供精确的质谱数据处理和蛋白质鉴定。
  • FDR控制 :精确控制FDR是蛋白质组学研究中保证数据质量的关键步骤,有助于准确识别磷酸化位点,降低数据分析中的假阳性率。

如何回答研究问题或检验科学假说

通过这些高级的数据分析方法,研究团队能够:

  • 系统地识别和注释磷酸化位点 :这为深入理解磷酸化在不同生物学过程中的作用提供了基础。
  • 评估磷酸化位点的功能重要性 :通过整合多种生物信息学特征和使用机器学习模型,研究团队能够预测哪些磷酸化位点在生物学上具有调控重要性。
  • 揭示疾病相关的磷酸化变化 :理解磷酸化如何在疾病状态下改变可以帮助识别新的疾病标志物或治疗靶点。

研究结果详细解读

基于质谱的人类磷酸化蛋白质组蛋白质组图谱

1. 质谱蛋白质组学图谱的构建

研究团队从PRIDE数据库中筛选出来自104种不同细胞类型或组织的112个磷酸富集的公共数据集,重新分析了6,801个符合质量控制标准的人类质谱实验,这些实验累积了575天的仪器运行时间。通过这一综合分析,确保了假阳性率(FDR)得到了适当控制,所有的FDR均保持在1%以下。

2. 磷酸化位点的鉴定

在FDR < 1%的条件下,共鉴定出11.7百万个磷酸化的肽段-谱匹配(PSM),对应181,774个磷酸化肽段,涵盖203,930个磷酸化的丝氨酸、苏氨酸或酪氨酸。其中,只有119,809个位点通过了1%位点水平的FDR校正,其中90,443个被分类为高置信度(class I)位点。

3. 磷酸化位点的真实性与组织特异性

低真实阳性百分比表明,多个独立搜索所积累的磷酸化位点鉴定可能富含潜在的假阳性。样本的异质性有助于在各种组织中鉴定磷酸化位点,包括健康和肿瘤样本,从而鉴定出大量组织特异性的磷酸化位点。

4. 磷酸化蛋白的覆盖率

在鉴定的14,154个蛋白中,11,982个(约85%)包含至少一个经过FDR校正的磷酸化位点。尽管观察到有偏向于鉴定更多高丰度蛋白的趋势,这一趋势与样本中未修饰肽段的情况相似。即使排除了五种研究最多的细胞类型(占总仪器时间的31%),仍然能鉴定出83%的磷酸化位点。

5. 与已有数据库的比较

与PSP数据库(截至2018年1月)报告的221,236个人类磷酸化位点相比较,本研究中有11.5%的高置信度位点仅由一条串联质谱(MS/MS)证据支持,而PSP中有55%的位点处于这种支持水平。在绝对数量上,本研究鉴定了73,973个由五条或更多MS/MS证据支持的磷酸化位点,而PSP中只有47,448个位点得到了相同级别的支持。

研究结果与研究问题的关联

这些结果直接回答了研究中提出的主要问题——如何更全面、准确地定义和理解人类的磷酸化蛋白质组。通过大规模的数据整合和严格的FDR控制,研究不仅提高了磷酸化位点鉴定的数量和质量,还增强了对这些位点生物学重要性的理解。特别是高置信度的磷酸化位点的鉴定为后续的功能研究和潜在的临床应用提供了坚实的基础。此外,磷酸化位点的组织特异性分析揭示了它们在不同生物过程和疾病中可能的关键作用,从而为未来的生物标记物发现和疾病机制研究提供了线索。

总结这些发现,可以看出研究团队通过:

  1. 系统的数据筛选和质量控制 ,确保了分析数据的可靠性和代表性。
  2. 高标准的数据分析 ,使用先进的质谱技术和严格的统计方法,准确鉴定磷酸化位点,提高了鉴定结果的置信度。
  3. 广泛的生物样本来源 ,增强了研究结果的广泛适用性和生物学相关性,有助于理解磷酸化在不同细胞类型和组织中的多样性和特异性。
  4. 与现有数据库的比较 ,不仅验证了新数据的可靠性,还揭示了当前研究在磷酸化位点鉴定数量和质量上的优势,强调了整合和更新磷酸化数据的重要性。

这些结果对于解答如何更全面地理解人类磷酸化蛋白质组的研究问题至关重要,为未来相关研究提供了坚实的数据基础和新的研究方向。

优先考虑功能性人类磷酸位点

1. 功能性磷酸化位点的优先级评定

研究团队在建立了一个全面的高置信度人类磷酸化蛋白质组后,对每个磷酸化位点计算了一系列可能表明其对生物适应性重要性的特征。这些特征大致可分为四类:MS证据(例如光谱计数和定位概率)、磷酸化位点调控(包括该位点在多少种条件下被调控或与激酶基序的匹配)、结构环境(例如在界面和表面可及性)以及进化保守性。这些特征共计59项,被用来标注所有磷酸化位点。

2. 特征对于鉴定调控位点的价值

在MAF1蛋白(参与mTORC1信号通路)的65-80氨基酸段中,磷酸化位点S68和S75已知可以抑制MAF1的RNA聚合酶III抑制功能,而该区域中其他三个MS鉴定的磷酸化位点功能尚不明确。与其他位点相比,pS68和pS75显示出更高的光谱计数、更高的保守性、更好的激酶特异性匹配以及在细胞处理mTOR抑制剂rapamycin和Torin1时的条件特异性下调。

3. 整合59个功能特征

利用来自PSP数据库的2,638个已知调控蛋白功能的磷酸化位点作为参照,通过机器学习分别对丝氨酸/苏氨酸和酪氨酸磷酸化的功能特性进行区分。测试了不同的机器学习算法,最终选择了梯度提升机(Gradient Boosting Machine)作为最终模型,该模型的平均曲线下面积(AUC)分别为86.1%和85.7%。

4. 功能得分的应用

所得到的磷酸化位点功能得分被用来生成每个MS鉴定的磷酸化位点的得分,反映其对生物体适应性的重要性。该得分将已知的功能磷酸化位点排名高于整体背景,更有趣的是,与人类疾病相关的磷酸化位点在模型中的排名也高于其他两组。

5. 功能得分在多种机制中识别功能性磷酸化位点

磷酸化位点功能得分的分布表明,该方法并没有严重偏向于特定的分子机制。例如,Y34位点在Ras同源家族成员A中的功能得分较高,部分是因为它存在于多个相互作用界面中。这表明Y34位点可能调节蛋白-蛋白相互作用。

6. 验证功能得分的广泛应用

在RANBP1蛋白中,PLK1调控的S60位点得分最高,该位点在okadaic acid处理下上调,并且靠近Ran相互作用界面和跨膜核运输蛋白Ran GTPase激活蛋白1。通过亲和纯化实验比较了野生型RANBP1和S60E突变的RANBP1,发现尽管对RAN和RCC1的结合能力没有变化,但突变体与NEMP1的结合能力显著下降,表明pS60位点在调控RANBP1的蛋白相互作用中起着关键作用。

7. 磷酸化位点与转录因子活性的关联

研究还探讨了磷酸化位点优先级如何用于识别与转录活性调控相关的位点。通过分析77个乳腺癌样本中磷酸化和基因表达数据的相关性,研究发现STAT1蛋白中的pS727磷酸化与其转录活性增加相关。这种方法的扩展显示,功能得分能够优先考虑那些磷酸化变化与转录因子活性强相关的位点。

研究结果与研究问题的关联

这些研究结果直接回应了研究的核心问题:如何识别和优先考虑人类蛋白质磷酸化位点中的功能性关键位点。通过整合多种生物学特征并运用机器学习技术,研究成功地建立了一种评估磷酸化位点生物学重要性的系统方法。此外,研究还展示了如何利用这些功能得分来识别和验证与疾病相关或可能影响蛋白质功能的磷酸化位点,从而在生物医学和疾病研究中具有重要应用潜力。

这些成果不仅增强了我们对磷酸化作用机制的理解,还为未来的药物靶点发现和疾病机理研究提供了有力的工具和数据支持。通过精确地识别和功能性排序磷酸化位点,研究为深入探索蛋白质磷酸化在细胞信号传导与疾病发生中的作用铺平了道路。

遗传变异对高功能磷酸化位点的影响

研究发现,高功能的磷酸化位点在基因组中引入了遗传约束,因此这些位点对变异的容忍度较低。通过分析自然人群中的等位基因频率信息和人类疾病上突变的临床意义,研究观察到预期的约束——映射到功能得分高的磷酸化位点的突变在人群中更可能是罕见的,并且具有致病性。例如,Tubulin beta 2B的S172P替换与大脑发育疾病多灶性脑回异常有关,这种异常导致tubulin难以正确组装进入微管。S172位点的高功能得分(0.43)表明磷酸化调控是与疾病相关的重要机制。这一发现为疾病变异与功能注释磷酸化蛋白质组的关联提供了机会,有助于在信号传导背景下解释疾病,扩展诊断和治疗策略的可能性。

人类SWI/SNF重塑复合体成员SMARCC2中的调控性磷酸化位点

为了进一步说明功能得分的实用性,研究团队研究了在神经分化过程中控制SMARCC2(即BAF170)功能的调控位点。作为人类SWI/SNF染色质重塑复合体的一部分,SMARCC2在神经发生中起着重要作用。在向神经前体细胞分化的过程中,SMARCC2的表达增加,取代SMARCC1,形成特异于神经前体的SWI/SNF复合体(或npBAF复合体)。这一转换招募了REST(RE1-沉默转录因子共抑制子)复合体,这一相互作用对于神经发生至关重要。研究鉴定了SMARCC2中两个高得分的磷酸化位点(S302和S304),推测这些位点在神经发生中可能具有重要的调控功能。使用小鼠模型的神经分化和基因敲入系统进行研究,通过CRISPR基因编辑技术在小鼠胚胎干细胞中独立生成了三个纯合和两个杂合的双丙氨酸突变克隆(S302A/S304A),以及对照克隆(CRISPR未引起突变)。在为期12天的神经分化过程中,通过RNA测序(在第8天和第12天进行)比较了mRNA水平,发现突变状态显著影响基因表达,纯合突变克隆在第12天与所有克隆在第8天显示出转录相似性,表明分化延迟。此外,纯合突变体在神经形态上也表现出较少的分化,这表明这些磷酸化位点在SMARCC2调控神经分化中起作用。

研究结果与研究问题的关联

这些结果直接回答了研究的核心问题:如何识别和优先考虑人类蛋白中可能具有重要调控功能的磷酸化位点。通过整合多种生物学特征并运用机器学习技术,研究成功地建立了一种评估磷酸化位点生物学重要性的系统方法。此外,研究还展示了如何利用这些功能得分来识别和验证与疾病相关或可能影响蛋白质功能的磷酸化位点,从而在生物医学和疾病研究中具有重要应用潜力。

这些成果不仅增强了我们对磷酸化作用机制的理解,还为未来的药物靶点发现和疾病机理研究提供了有力的工具和数据支持。通过精确地识别和功能性排序磷酸化位点,研究为深入探索蛋白质磷酸化在细胞信号传导与疾病发生中的作用铺平了道路。

在之前的讨论中,提到的文章中使用了机器学习方法来整合和分析磷酸化位点的生物学特征,并优先考虑那些对生物适应性具有重要意义的磷酸化位点。下面是关于所使用的机器学习方法的详细解析:

使用的机器学习方法

在研究中,使用了多种机器学习算法来整合59个特征,其中包括随机森林、梯度提升机(Gradient Boosting Machine, GBM)、广义线性模型、正则化线性模型、多元自适应回归样条(MARS)和回归树。这些算法中,最终选择了梯度提升机作为最终的模型。

如何使用这些方法

特征集的构建 :首先,为每个磷酸化位点计算了一组多样化的特征,这些特征可能表明其对生物适应性的重要性,如光谱计数、定位概率、磷酸化位点的调控情况、结构环境和进化保守性等。

标准数据集的建立 :使用来自PSP数据库的2,638个已知调控蛋白功能的磷酸化位点作为正样本,以及未知功能的磷酸化位点作为负样本,进行模型的训练和验证。

模型训练与验证 :通过嵌套重复交叉验证方法来估计模型的泛化误差和调整超参数。内部循环使用五折交叉验证重复十次以调整参数,外部循环使用三折交叉验证重复五次以量化模型性能。

性能评估 :使用接收者操作特征曲线(ROC)分析来评估模型识别功能性磷酸化位点的能力。

获得的结果

梯度提升机模型显示出良好的性能,对丝氨酸/苏氨酸和酪氨酸位点的平均曲线下面积(AUC)分别为86.1%和85.7%。这表明该模型能够有效区分功能性磷酸化位点和非功能性磷酸化位点。

此外,模型结果表明,与单独的特征相比,综合预测器显示出更高的性能。例如,单独的蛋白质丰度特征在与其他特征一起使用时显示出更高的相关性和预测价值,而不是单独使用时。

总结来说,通过这种方法,研究团队能够有效地识别和优先考虑那些对生物体适应性具有重要意义的磷酸化位点,这为未来的生物医学研究提供了重要的工具和数据支持。这种基于机器学习的方法为理解和解释复杂的生物学数据提供了一个强大的框架,特别是在磷酸化蛋白质组学研究中的应用。

讨论部分解读

主要讨论点:

大规模蛋白质组数据的利用
研究利用了PRIDE数据库中存储的大量蛋白质组数据,生成了一个全面的人类磷酸化蛋白质组。尽管排除了一些研究最多的细胞系(如HeLa细胞),研究还是实现了很高的覆盖率。

数据分析的挑战和限制

复制代码
 * 在低丰度蛋白中检测到的磷酸化肽段较少,磷酸化事件的精确定位也存在困难,表明当前磷酸化蛋白质组的数据仍不完整。
 * 稀释曲线分析表明,尚未达到鉴定位点数量的饱和,磷酸化位点的上限仍未知。
 * 并行MS搜索的不当聚合可能导致大量假阳性的积累。

功能得分的准确性与应用

复制代码
 * 功能得分虽然准确,但仍有已知功能的磷酸化位点得分较低的情况。
 * 功能得分本身并未预测机制,且可能未准确优先级排序在群体中起作用的调控位点,尽管包括了捕获局部调控效应的特征。

得分在实验设计中的应用

复制代码
 * 功能得分和相关特征构成了理解人类信号转导的系统资源。
 * 提供了如何使用这些信息来设计实验以鉴定新的调控性磷酸化位点的示例。
讨论的逻辑展开:

研究首先强调了利用现有大规模数据资源的优势,并指出了数据分析中面临的挑战,如数据的不完整性和假阳性的问题。接着,讨论转向了功能得分的准确性和实用性,指出尽管得分有助于鉴定功能性磷酸化位点,但在某些情况下可能存在局限性。最后,讨论了如何利用这些得分指导实验设计,以及如何通过进一步的实验和计算方法来深入研究磷酸化的生化后果。

结论:

研究提供了一个系统的方法来评估磷酸化位点的功能重要性,并创建了一个资源,以支持对几乎所有细胞过程中涉及的蛋白质调控的研究。尽管存在一些局限性,如功能得分可能未能完全准确地反映所有调控性磷酸化位点的重要性,但该方法为未来的功能研究和潜在的临床应用提供了重要的工具和数据支持。

分析原因与研究目标的关联:

这些讨论点和结论直接关联到研究的目标——全面理解和定义人类磷酸化蛋白质组的功能景观。通过建立和验证一个能够预测磷酸化位点功能重要性的模型,研究增强了我们对磷酸化调控复杂性的理解,并提供了一个实用的工具,用于未来疾病机理的研究和治疗目标的发现。通过这种方法,研究不仅解决了识别和功能性评估磷酸化位点的问题,也为未来在基因组尺度上理解人类信号传导提供了方法和框架。

全部评论 (0)

还没有任何评论哟~