Advertisement

ActivePathways--整合多维组学通路分析

阅读量:

概述

功能:ActivePathways可通过集成多个分子数据集和路径注释来提高系统对健康和疾病中细胞组织的理解。
软件安装:https://github.com/reimandlab/ActivePathways
分析原理:
在这里插入图片描述如果想了解更多,可参考这篇文章

输入文件

ActivePathways的输入文件只需要两类,一个是p-values(这里的P值可以是差异基因表达、基因必要性、突变或拷贝数变异负荷等的显著性P值)的数值型矩阵(该矩阵不能包含缺失值),另一个文件是一个GMT格式的基因集(作者建议使用GO 或者 Reactome 通路数据)。
在这里插入图片描述

P值矩阵示例:data.txt
在这里插入图片描述
gmt文件示例: go.gmt
在这里插入图片描述

分析

代码示例

可以把各种整理好的gmt文件放到安装路径下面会比较方便调用。比如我的放在"/public/analysis/xxx/anaconda3/envs/GDCRNATools/lib/R/library/activePathways/extdata/"。

复制代码
    library(activePathways)
    scores <- read.table('data.txt', header=TRUE, row.names='gene')
    scores <- as.matrix(scores)
    scores[is.na(scores)] <- 1
    res <- activePathways(scores, gmt.file, cytoscape.file.tag="enrichmentMap_")
    
    #调整一下连接符,
    res$overlap <- sapply(res$overlap,FUN = paste,collapse = "//")
    res$evidence <- sapply(res$evidence,FUN = paste,collapse = "//")
    res$Genes_X3UTR <- sapply(res$Genes_X3UTR,FUN = paste,collapse = "//")
    res$Genes_X5UTR <- sapply(res$Genes_X5UTR,FUN = paste,collapse = "//")
    res$Genes_CDS <- sapply(res$Genes_CDS,FUN = paste,collapse = "//")
    res$Genes_promCore <- sapply(res$Genes_promCore,FUN = paste,collapse = "//")
    
    #保存结果文件
    write.csv(res,file = "result.csv", row.names = FALSE)
结果展示: result.csv

在这里插入图片描述每一列的含义:

The term.id, term.name, and term.size column give information about each pathway.

The adjusted.p.val column gives the adjusted p-value for each column indicating the confidence that the pathway is enriched after multiple testing correction.

The overlap column gives the intersection between the genes annotated to the term.

The evidence column gives the individual gene lists in scores in which the pathway is found to be enriched.

Cytoscape绘图展示

绘图攻略参考这里
在这里插入图片描述在这里插入图片描述

其他应用示例:mRNA-DMP 联合分析

ActivePathways 的应用可以说非常灵活了,为组学之间的联合分析提供了新思路。这里展示的是mRNA 与甲基化数据的联合分析。
在这里插入图片描述
cytoscape 绘图展示
在这里插入图片描述

优势和特点

与标准方法相比,ActivePathways显示出更高的通路富集分析敏感性,尤其是涉及非编码突变的通路,而这些非编码突变在任何单基因列表中都没有明显的表达,使用ActivePathways却可能有行发现。

ActivePathways 对整合的基因列表使用宽松的统计域值进行筛选。其次通过数据融合的方法,将多个数据集等对应的多个较弱的p值结合起来,得到单个较强的p值,从而对某些基因进行了更新。因此,与单个数据集中的原始排序相比,整合程序优先选择特定的通路相关基因。

准确性:

ActivePathways有最高的准确率:100%的编码driver基因(87/87)和85%的非编码候选基因(79/93)被检测到。

假阳性率:

使用破坏通路基因的注释的方法,错误率只是略有升高。

全部评论 (0)

还没有任何评论哟~