gsea富集分析结果怎么看_基因富集分析算法介绍

之前我们介绍了富集分析的基本的内容:GO分析和KEGG分析都是啥?。但是富集分析还是有很多不同的算法的,对于主要的算法过程其实不用太多了解,这个由专业人士来解决就行。但是对于其输入条件和主要区别还是要了解的,这样能方便我们使用。
◆ **◆ ◆****ORA (Over Representation Analysis)**过表达分析
我们常规的做的或者公司给的富集分析的结果里面给的GO分析和KEGG分析的结果就是使用ORA的算法来做的。
这个算法采取的类似于一刀切的逻辑思维,我们需要对差异的结果设置一个标准(通常也就是我们差异表达的条件)。如果达到这个标准了,那就可以当作候选分析的基因。最后我们把所有候选分析的基因都选出来,把基因名都输入到算法里面,再结合背景数据库就得到分析的结果了。
所以这个算法的主要输入条件其实就是基因名即可。一般而言ORA使用的背景数据集就是GO和KEGG这些。

数据可视化策略
在ORA(Overexpression by Relative Affinity)的数据可视化方面而言。由于富集差异性筛选通常依据P值进行判断。因此,在分析过程中可以通过柱状图或气泡图来进行直观展示。例如下文中的柱状图展示了相关结果。

◆ **◆ ◆****GSEA (Gene Set Enrichment Analysis)**基因集富集分析
相较于ORA一刀切的方式来选择输入基因,GSEA的算法认为,虽然有一些基因不满足严格的筛选标准,但是也是有可能起作用的。比如说:
我们有两个基因TP53的表达差异是1.1,而TP21的表达差异是0.9。如果按照ORA的方法,按照1作为筛选标准,ORA的算法,那么TP53就可以进入后续分析,而TP21则会扔掉。但是真实情况是,在生物过程当中,TP21真的不起作用吗?显然不是的。基于这种考虑,所以才开发出了GSEA算法。

GSEA则基于全部基因集合及其对应的表达水平(如logFC值或expression matrix)来进行通路意义分析。
因此,在实际操作中,在输入时我们需要提供整个基因组的所有基因及其对应的logFC值或expression matrix。
对于GSEA算法而言,则采用了MSigDB中的背景数据库集合(GO与KEGG相关数据)。
通过应用GSEA算法,我们可以计算出相应的Enrichment Score(ES)值来衡量通路富集程度。此外,在分析过程中还提供了相应的可视化图表。

对于GSEA图形的解读,我们可以把GSEA分析的图分成三个部分来进行解读。这三个图,纵坐标不一样,横坐标相同。我们就一部分一部分的解释这个图。
每个图片先看标题,这个GSEA分析其实是做了两个通路的GSEA的结果。其中绿色线条是一个通路,褐色线条是一个通路。

接着详细说明横坐标的含义:每个基因在经过数据集降序排序后的排列位置。因为GSEA将所有的测序基因纳入分析中,在这种情况下我们通常依据基因排名来处理问题。根据上图中的展示可知,在该研究中被分析的基因总数达到了6000个。让我们从上至下逐步解读这张图表:首先查看x轴和y轴的具体含义;然后观察曲线的变化趋势;最后结合数值注释进行详细解读。
该纵轴表示每个基因在两组间的差异分析后的对数比值(logFC)。当按照对数比值(logFC)进行降序排列时,则会呈现出这样一条平滑的曲线。值得注意的是,在此图表中每一根竖线实际上对应一个特定的基因。图中则标出了这两个通路中所涉及的研究焦点基因。

中间环节代表的是在GSEA分析过程中,涉及目标通路的相关基因在其基因差异分析中的位置。若将横坐标调整至相应的位置,则会呈现这样的特征

顶部区域则是GSEA富集分析中通路的可视化分布图,在此过程中涉及的是来自该分布图中顶点位置的数据

◆ **◆ ◆****NTA (Network topology Analysis)**网络拓扑学
这个和之前两个稍微有点儿不一样。其实和我们在文献当中所说的蛋白相互作用 (protein-protein interaction, PPI) 类似,基本就是基于基因来构建一个相互作用的网络,通过网络来展示输入基因之间的相互关系。我们需要输入的就是基因名即可。可视化选择
对于网络拓扑的可视化,一般都选择网络的方式来进行展示。对于网络当中的具体信息,我们可以以后再说。

写在最后
就目前而言,关于富集分析的主要内容已经涵盖了。从上述内容可以看出,在富集分析方面取得了一些成果;算法本身是固定不变的;尽管这些数据库通常被称为GO或KEGG。然而基因的功能也在不断地在完善中;因此GO和KEGG数据库也在不断地被更新和完善中。如果所使用的工具无法及时更新背景数据库的话,则可能导致结果出现偏差。这个时候就需要对DAVID进行一番评论了:这个文献经常用到的富集分析库其实已经很久没有更新了。。
