宏基因组分析-基于Reads比对
- 介绍
宏基因组(Metagenome)代表特定环境内所有生物遗传物质的集合。其中涵盖了能够生长以及难以生长微生物所拥有的基因。通常会从取样的环境中提取微生物的基因组DNA,并通过高通量测序技术获取数据以分析其多样性特征及其在生态体系中的作用机制等关键信息。
宏基因组学研究主要采用三种不同的技术手段来解析宏基因组数据。具体而言,在组装层面采用构建参考基因组的方法进行序列比较与功能预测,在测序层面则利用读长信息推断物种水平遗传变异,在分类统计层面则通过将高通量测序数据分 bin 区来进行差异表达与功能注释。
下面我们介绍基于Reads比对的分析方法。
- 分析流程介绍
以Reads为依据开展宏基因组测序分析,并对经过质控处理后的优化序列与已知物种及功能数据库进行对比分析,最终可获取各标本所对应的物种名称及其相应功能注释信息,并计算其在总丰度中的占比情况。该方法的优势在于能够通过科学的方法准确鉴定功能来源的物种,并不仅有助于了解物种的功能组成,还能揭示各个具体的功能来源于哪些特定的物种;同时该方法还具有较高的效率和速度优势。

三、详细流程
******一、**Kranken2物种注释:
Kraken2利用k-mer精确比对算法以及LCA(最小共同祖先)的方法来实现物种注释功能。Bracken(基于Kraken实现丰度的贝叶斯重新估计)是一种高效精确的统计分析工具,能够从宏基因组数据中准确评估物种丰度情况。
基于质控流程的关键步骤, 通过结合Kranken2软件及微生物数据库(其中包括RefSeq最新99号本基因组数据集)鉴定样本中的生物种类, 并通过Bracken对Kraken2分析结果进行后续贝叶斯校准以评估宏基因组样品中物种级别的相对丰度.

物种风分布柱形图
注:横坐标代表样本数量,纵坐标反映各个级别的相对丰度;建议您参考下方的目录查看其它级别的图。
采用 krona 软件对物种注释数据进行可视化呈现,在结果显示中发现:圆圈由内而外依次对应各类别层次分布特征,并通过扇区面积大小反映各注释类别的占比比例。

Krone
α多样性(Alpha diversity)涉及多个指标,如Chao指数、Ace指数、Shannon指数以及Simpson指数等。其中,Chao指数与Ace指数主要衡量样本群落中的物种丰富性(speciesrichness),仅表示群落中物种的数量而不反映种间密度的差异。相比之下,Shannon指数与Simpson指数则综合考量了样本群落中的物种丰富性和均匀性(speciesdiversity),其数值受这两种因素共同影响。在保持相同物种丰富性的情况下,在群落内部物种分布越趋于均匀,则其被视为具有更高的多样性。
Alpha多样性指数:主要基于界至种不同层级的物种丰富度数据按照Alpha多样性指数的计算方法进行评估

Alpha index
评估β多样性(beta diversity)的方法是用于比较两个样本在物种组成差异程度的一种统计手段。该方法通过分析各物种群在样本中的丰度变化情况,并计算两样本之间的β多样性数值。常用的具体指标包括Bray-Curtis和Jaccard指数等多选指标系统。我们计划基于这两种方法构建的丰度矩阵,在此基础上分别进行非度量多维标定(NMDS)、主坐标分析(PCoA)以及构建聚类树图等多元统计分析

PCoA (Bray_curtis/Jaccard)
******二、**HUMAnN功能注释:
该软件最初由Huttenhower实验室针对HMP项目研发出来的一种用于分析宏基因组测序数据的工具包,并能实现样品中的微生境组成预测以及代谢通路水平的功能解析过程。该程序不仅限于人类微生物组学研究领域,在细菌多样性研究中同样发挥着重要作用,并已成为当前宏基因组分析领域的主流软件之一。在2020年已正式推出新版命名为HUMAnN3。

基于质控流程的优化策略,在HUMAnN3软件平台下运用蛋白组学数据库(UniRef90)进行对比分析。结合UniRef90 ID与各功能数据库ID的对应关系,系统评估各功能数据库间的功能相对丰度指标;
基于 HUMAnN3 的分析结果推导出功能的物种来源后, 制作功能物种来源组成 Stratified 柱形图. 通过查看图表我们可以得知功能的丰度以及功能来源于哪些物种.

Patway Stratified Barplot
在 pathway(通路)图上进行颜色标记,在通路图中标注检测到的关键基因;对于具有不同功能特性的基因分组,在同一幅绘图中展示其对应的分类信息,并分别以不同的颜色框标出

******三、**FMAP功能注释:
采用FMAP软件将经过严格筛选的优化样本与参考数据库进行对比(以Diamond算法为基础)。根据比对结果,统计出每个样本对应于各ARO reference sequence的reads数,并进而计算出各个物种相对于该参考系统的丰度。利用数据库对应的物种-功能关系和基因-药物作用关系等信息基础,在此基础上分别计算上述三个分类类别中各类别的丰度。

Resistance Mechanism Barplot
四、差异分析
假设教师提供了分组数据,则我们可以通过物种多样性、功能多样性以及α值和β值等多维度对数据进行区分分析。具体涉及参数检验法(如t检验)、非参数检验法(如曼-惠特尼U检验)以及LFSE方法等技术手段。
五、 相关性分析
功能模块与物种群间的关联、物种群与临床评估指标间的相关关系均可以通过对采用同一研究对象检测的任意两个评估指标进行统计学分析来实现。其可视化呈现主要采用Spearman相关热力图和网络拓扑关系图的形式。

相关性热图
图中
该指标以颜色表示:其中蓝色则表示负相关而随着色调越深其对应的负向关联程度亦随之增强粉红色则表示正向关联并且色调越深正向关联的程度越高具体对应关系标注在图中右上角的位置
(2)横轴代表的是临床因子,纵轴代表的是代谢物。
(3)图中的*代表P值,为0.05>P>0.01,**为0.01>P>0.001…..,只要是图中标注了的,都是有显著相关的。
(4)左侧和上面的树都是根据相关性系数的相似性情况进行聚类的。

图中:
(1)图中形状象征不同的检测类型:该图表展示的是细菌与真菌之间存在的关联关系,并且这种图表同样涵盖了物种间的相互作用及其功能关联。
(2)spearman的结果显示出p值小于0.05,并且其绝对值超过0.6。
(3)节点的大小直接反映了样本中的物种相对丰度及其间的关系强度。
(4)图中节点的颜色直接对应不同分类门类。
注意:网络图中展示的信息需要根据老师的要求来设计。
