matlab中-psi_建议收藏 | 生物信息学中的可变剪切,这些内容你了解吗?
聊点学术

声明: 荷官衷心感谢Carina的文章 contributions to our publication. 整篇文章均为Carina独立完成, 其中重点梳理了生信领域的可变剪切技术.
查阅TCGA中关于可变剪切的相关文献时发现,尽管总量相对较少,但到了2019年却大幅增加至49篇,而到了2020年上半年发文数量更是超过了之前的一半.这一现象表明可变剪切研究在生物信息学领域的热度呈现增长态势.

1.基础知识****1.1 可变剪切的定义与生物学意义
定义:可变剪切(Alternate Splicing)是将转录生成的预 mature mRNA经过切除内含区并保留外显区形成正常mRNA这一过程。
②生物学意义:

1.2可变剪切的类型
基于特定基因的某一种转录本与其参考转录本(可视为最长长度的版本)之间的对比分析。从而能够对不同基因的所有可能相关转录体进行归类分析。
由MDAnderson癌症中心开发的Java基软件用于探究高通量RNA-seq数据中的可变剪切模式。而SplAdder则主要采用Python或Matlab语言开发。此外,在此领域还存在多种其他方法用于识别和分析可变剪切模式。
SplAdder软件支持以下五种独特的剪切模式:外显子的非连续剪切;内含子的保留剪切;动态3'端剪切位置选择;动态5'端剪切位置选择;以及互斥使用的外显子区域。

该软件通过分析实验数据,获得了七种不同的剪切类型.在此基础上进一步划分出两种特殊的剪切模式

1.3可变剪切的调控
可变剪接通过细胞类型和发育阶段特异性的调节作用完成调控任务[2]。其调控机制主要依赖于广泛存在的RNA-蛋白质相互作用网络来实现协调控制。
最保守型顺式剪接元件主要由各自明确划分内含子与其前后外显子边界的关键部位组成,并且包含位于3’剪接位点前方的分支定位区与聚合区
除了这些核心元件之外,在外显子或侧翼内含子里存在的某些辅助顺式序列也能够充当增强型剪接调控元件或沉默型剪接调控元件,并通过其与反式剪接调节因子(尤其是RNA结合蛋白RBP)的相互作用来介导外显子剪接过程被调控。
例如,在不同细胞类型中作用的剪接调节剂(如ESRP、CELF、MBNL、RBBFX以及PTB家族成员)表现出多种mRNA亚型特征,并通过调控其在细胞中的转录活动(即通过与它们在细胞中的同源顺式元件相互作用),从而影响上皮、肌肉及神经元细胞的转录模式及其发育潜能[2]。
可变剪切主要受人类遗传变异和疾病突变的影响。许多突变会通过影响前体mRNA中的剪接位点信号、剪接增强子或沉默子元件来实现这一目的。进而产生异常的mRNA分子以及相应的蛋白质产品。
约占15%至60%的人类疾病中存在这种顺式剪接突变。此外,在反式作用被破坏型剪接调控子发生突变的情况下,则会导致许多下游目标基因发生剪接异常
2.可变剪切拼接图谱和PSI
2.1可变剪切拼接图谱
在识别可变剪切方面,多种方法普遍采用基于剪切图谱的方法。构建剪切图谱的过程通常涉及将不同转录本进行合并处理,并生成该基因对应的统一剪切图谱结构。为了深入理解相关知识,请参考后续提供的实例说明。

2.2PSI
PSI(percentage of intron retention, pIR)是指内含子保留百分比,在基因表达分析中具有重要意义。它能够量化可变剪切事件的发生程度,并通过确定特定外显子是否被包含在转录本中进行分析;这一指标不仅适用于单一样本分析还能够用于不同组别样本间的比较和研究
PSI = splice_in / (splice_in+splice_out)
2.3spliceseq探索TCGA样本的AS示例

上左图展示的是经过spliceseq算法处理得到的可变剪切矩阵。
①第一列展示可变剪切的类型:ES、AT、AP等等。
②第二列展示发生可变剪切的外显子位点:外显子1、2、3等等。
③第三列对应发生可变剪切的基因:基因名。
后续的指标分别代表不同类型的肿瘤(便于在不同癌症类型间进行比较分析,并采用统一癌种的所有病例数据计算平均值得出每个指标的具体数值)。当后续指标涉及不同癌症亚组时,则每个指标的具体数值基于相应亚组的测试结果计算得出。
该图形表示为可变剪切矩阵的boxplots可视化结果。该图形可用于直观分析不同肿瘤类型间某种可变剪切类型的差异性。
上右图通过连接NCBI和Uniprot等平台展示了基因的相关信息;而exon table则对现有基因的外显子序列进行了汇总;这对于设计感兴趣序列的连接方式具有重要意义。
上右图通过连接NCBI和Uniprot等平台展示了基因的相关信息;而exon table则对现有基因的外显子序列进行了汇总;这对于设计感兴趣序列的接头方式具有重要意义。
下图是一个基于右上角标记基因(如FBLN2)而生成的可变剪切模式图。通过对可变剪切矩阵的分析可知:该基因发生的剪切模式是外显子11的缺失而非其他类型。
位于外显子11处的三个不同外显子连接中(包括外显子  10-  外显on  1
以及
外
显
子
)之间),其各自的 OP
KM 值分别为:
0.3(OP
KM 是一种校正基因长度及样本数量的技术参数,
其含义与 RP
KM 相似)、0.4(READS 是原始数据)。
而在这些连接之外的 OP
KM 值则高达 2。
这些结果表明,
基因 FBLN2 倾向于通过缺少外
显
子
)
的转录模式,
因此可以推断出该基因发生了内含子间跳跃现象。
此外,在剪切谱图中值得注意的是,在同一个基因的不同外显子之间可能发生相同类型或不同类型的可变剪切事件。具体而言,在NEIL3的外显子10和外显子8.2之间发生了相同类型的可变剪切事件。

3.可变剪切研究思路
3.1可变剪切分析流程

在可变剪切分析过程中,第一步需要将待分析的RNA-seq raw data导入软件系统中。随后软件通过其预先配置好的参考基因组数据库来进行RNA测序数据的注释与比对工作。接着系统会为每个基因构建对应的剪切图谱,并对识别出的可变剪切事件进行量化分析(这些识别出的基因可变剪切模式包括已经在现有数据库(如GENECODE=ensemble、RefSeq=NCBI、UCSC)中记录过的模式以及尚未被注释的新模式)。
在最后阶段, 主要是将识别出的可变剪切事件与其临床意义建立联系, 从而探讨其在疾病发展、治疗效果以及预后预测中的影响
3.2可变剪切后续研究
① 可变剪切事件与患者预后的单因素或多因素cox分析
②可变剪切事件与剪切因子表达的相关性分析[4]
③可变剪切事件与蛋白质组数据库(CPTAC)的联合分析
参考文献
Li Y et al. explored the prognostic alternative mRNA splicing patterns in non-small cell lung cancer patients through comprehensive molecular analyses (CancerLett, 2017). Kalsotra and Cooper investigated the functional consequences of developmentally regulated alternative splicing mechanisms in the context of human genetics (Nat Rev Genet, 2011). Xiong et al. conducted a large-scale study to profile the alternative splicing patterns across colorectal cancers and identified significant correlations with clinical outcomes (EBioMedicine, 2018). Zhu et al. systematically analyzed the alternative splicing signatures in ovarian cancers to identify predictors for prognosis (Gynecol Oncol, 2018).
