【宏基因组学】微生物宏基因组学论文摘要集锦
微生物宏基因组学论文摘要集锦
- 62. 通过测序建立人类 gut 微生物基因目录。
- 182. “可随请求”: 微生物群落数据不够理想。
- 183. 基于测序整合代谢组学管道揭示细菌传播模式与全球生物地理学的新模式。
- 184. 生物信息学方法揭示土壤微生物群落代谢基因组特征。
- 185. 使用生物膜技术提升微生境调查中微生物相互作用研究的有效性。
- 186. 利用 SEED 和 KEGG 分析功能代谢组与转录组以进行功能分析。
- 133. 使用受约束非负矩阵分解从元数据推断聚合功能特性并应用于人类 gut 微生物群落纤维降解。
- 187. 大规模元数据机器学习综述: 方法与生物学洞察。
- 188. MetaComp: 比较元生分析全面分析软件包.
- 145. 人类 gut 微生物群系统生物学揭示与肥胖和炎症性肠病相关的拓扑变化。
- 58. 测序时间序列元生态: 揭示微生物动力学.
- 189. metaSPAdes: 新颖通用元基因组 assembler.
- 190. 使用短枪测序人类唾液中的微生态群落鉴定.
- 191. 基于测序的菌株水平种群结构及其遗传多样性分析.
- 9. 微生态, 元基因组学及高维组合数据分析.
- 157. SmashCommunity: 元生分类与分析工具.
- 167. RAST 元生服务器: 自动化进行元生态和功能分析的公共资源
A human gut microbial gene repository constructed via metagenomic sequencing data.
摘要
大约有超过100万亿个微生物存在于我们的体内,并比人类自身的细胞数量多出一倍以上。这些微生物所携带的遗传物质是人类自身遗传物质含量的100倍以上。其中绝大多数微生物生活在肠道中,并对人体生理功能和营养吸收等方面具有显著影响。对于维持人体健康具有至关重要的作用
宏基因组测序是一种用于分析复杂微生物群落的rRNA测序的非常有效的方法[13-15].
数据
肠道宏基因组与人类基因组的功能互补性
肠道宏基因组与人类基因组之间的功能互补性超出了本研究的探讨范围。为了提供一个概括性的介绍,我们评估了两个关键因素:最小宏基因组功能的保留情况以及功能的存在与否(如补充表11所示)。肠道菌群主要依赖发酵活动获取能量,将糖类转化为短链脂肪酸(SCFA),后者被宿主细胞作为主要能源物质利用[31]。醋酸盐对于肌肉、心脏和脑细胞的能量代谢至关重要[31]、丙酸盐则用于宿主肝脏新生糖代谢过程[32],而丁酸盐对肠道菌群同样具有重要意义[32]。除了SCFA之外,许多氨基酸对于人类健康不可或缺[33],这些氨基酸也可由肠道菌群提供[34]。此外,这些微生物还能向宿主提供某些维生素(如生物素、叶黄素)[3].这些生物合成步骤均可由最小的宏基因组所编码完成。
大量共有物种支持普遍存在的观点是有限制而不是过高的数量限制。
方法 :
使用公共数据 。自2009年1月10日起从NCBI数据库(http://www.ncbi.nlm.nih.gov/)获取在GenBank中收藏了806个测序细菌基因组的资料。已知人类肠道细菌基因组序列自HMP数据库(http://www.hmpdacc-resources.org/cgi-bin/hmp_catalog/main.cgi)、Genbank(共67个基因组)、圣路易斯华盛顿大学(提供85个基因组,版本为2009年4月,《 genome. wustl.edu 》)、以及MetaHIT项目(提供17个基因组版本为2009年9月,《 sanger.ac.uk/pathogens/metahit/ 》)。本研究所使用的其他肠道宏基因组数据包括:
- 来自美国个人测序的人类肠道宏基因组数据集8;
- 来自日本个人的人类肠道宏基因组数据集是从BL rebuk's 研究室下载的EMBL资源库中的信息(http://www.bork.embl.de)。
在本研究中构建的一个整合性NR数据库集合,并整合了来自已知人类肠道细菌基因组的所有相关基因为基础。
基于MetaGene进行非冗余基因集构建 。首先我们采用MetaGene这一工具它基于给定序列GC含量估算双密码子频率并且结合匿名基因组数据推断整个研究区间的起始读码框(ORF)。这一过程涉及从124个样本中的每一个重叠区域以及整合后的重叠区域进行分析。
随后通过BLAT工具将预测出的所有起始读码框进行比对。
满足以下两个条件的一对起始读码框即被认为是高度相似且具有较长比对长度:其一它们具有超过95%的一致性;其二它们对应的比对长度超过一定阈值。这样的一对起始读码框能够覆盖超过90%的所有较短基因进而形成功能相关联的功能块。
在此基础上我们将共享基因为不同组合并筛选出每条功能块中最长的那个起始读码框作为代表其余成员则被视为冗余部分。
最终我们通过去除了所有冗余部分并剔除了长度小于100bp的所有起始读码框从而得到了最终的目标非冗余ORF集合。
为了优化基因检测的效率与准确性之间的平衡关系,在个体微生物群体中探究测定所需测序深度对物种数量估计的影响是一项关键研究课题。随着所需测序深度从2提升至6时...
基因归属划分**是基于整合NR数据库后执行Blastp比对的结果预测其遗传学归类。筛选出e值大于1E-5的所有Blastp结果后,在每个基因中保留其最高命中e值小于10倍该值的关键匹配以区别不同遗传群体特征。随后,在MEGAN42软件中应用基于最低共同祖先(LCA)算法来确定各基因的具体遗传层次关系。该LCA算法根据特定遗传群体层次划分标准将基因分配至相应的群体层级中:如果一个基因在多个物种中表现出高度保守性,则将其归入这些物种间的最低共同祖先(LCA)所在的群体层级而不是单独某个物种所属群体中。
基于功能分类的基因分析 。通过Blastp工具在eggNOG与KEGG数据库中进行查询分析来预测蛋白质序列,并筛选出计算所得e值低于1E-05的结果范围。这些基因被标记为其对应的最低e值所对应的NOG或KEGG同源的功能特征。eggNOG系统整合了COG与KOG注释功能。COG注释将这些基因划分为25个不同的类别;而KEGG则根据通路结构将其划分为多个具体通路。
物种共存网络 。对于至少一个物种(基于Illumina基因组测序覆盖),我们评估了由 155 个物种组成的社区中各物种读 shallow depth ≥ 1% 的个体群落测序深度(丰度)之间的成对物种间的 Pearson 相关系数。基于得到的 11,175 对物种的相关性数据中,在 Cytoscape43 中绘制了相关性绝对值大于或等于 0.4 的网络图(n = 342),并以每个物种的平均基因组测序覆盖深度作为图中节点大小表示。
182. “Available upon request”: not good enough for microbiome data!
182. "按照需求提供":对于微生物数据质量不高
An integrative metagenomic framework is employed for strain profiling to unveil distinctive transmission pathways and the global biogeography of bacteria.
183.一种用于菌株分析的综合宏基因组管道揭示了细菌传播与全球生物地理之间的新型关联模式
摘要:我们开发了一个集成计算管道MIDAS(MacroBial多样性分析系统),该系统能够量化细菌物种丰富度及应变水平的基因组变异特征包括基因含量和单核苷酸多态性从猎枪宏基因组数据库中提取的数据集。该数据库包含了超过30,000个细菌参考基因组并按物种分组它们覆盖了人类微生物组中大多数丰富度较高的物种但在其他环境如土壤和海水中的适用范围较为有限仅涵盖了少部分微生物物种。我们将MIDAS应用于98名瑞典母亲及其婴儿粪便宏基因组研究发现通过使用罕见单核苷酸变体能够有效揭示出生时婴儿肠道菌株的垂直传播现象但随后的时间点其定植来源于母亲体内的菌株却不再具有可追溯性这种现象在物种水平分析中被忽视因为随着时间推移婴儿肠道微生物群落成分趋向于成人水平收敛状态。此外我们还将MIDAS应用于198份全球分布的海洋环境宏基因组数据结果表明许多流行的细菌物种表现出与其地理位置相关的群体结构特征表明基于更高分辨率分类学分析时这些遗传变异性能够清晰地展现出现有的广泛空间结构及其动力学行为。
为了研究不同环境下的宏基因组多样性如何被当前基因组序列涵盖,在参考数据库(Methods)中包含了测序代表的所有物种水平宏基因组图谱中所含有的微生物基因组图谱(其中包括古细菌和真核生物物种而不包含病毒)。我们将这一比例命名为数据库覆盖率,并指出它反映了样本中的物种与新型之间的关联程度。
随后我们推出了MIDAS系统作为一款功能强大的软件平台。通过精准且高效的分析方法,该系统能够对鸟类枪击型宏基因组进行分析并全面评估数据库中的物种丰富度与菌群水平的变化情况。所有细菌物种的基因组变异将被系统自动识别并记录下来。
184. Insights into Soil Microbial Communities Emerge Through Metagenomic Analysis Using Bioinformatics Techniques
- 通过生物信息学方法深入解析土壤微生物群落的宏基因组特征
近年来高通量测序技术得到了广泛的应用,并已成为研究土壤微生物群体特性的关键技术之一。作为一种新兴的研究工具,在分析土壤微生物群落特征方面发挥了重要作用。特别关注于那些编码16S rRNA系统的特定标记基因序列,并结合相关的宏基因组数据进行了深入解析[7]、[8]以及整体-宏基因组鸟枪测序方法也被广泛应用于相关研究领域[9]-[13]。然而这些研究往往忽视了菌群在功能性和代谢方面的动态特征而更多地聚焦于揭示群落组成结构的信息[14]。面对具有高度生物多样性的土壤生态系统关于构建菌类分层系统及其相互作用网络等复杂生态系统的综合代谢分析仍处于初步探索阶段
近年来,在人类微生物群体项目快速发展的背景下
方法:
宏基因组数据集的收集和质量控制 。本研究共收集到来自5个自然土壤环境的33个宏基因组样本,其中14个来自草地,7个来自森林土壤,9个来自沙漠,2个来自北极土壤,另一个来自红树林沉积物。所使用的宏基因组数据集可以根据表S1所示的序列登录号或网页链接列表进行下载。使用Roche 454或Illumina平台,通过全基因组鸟枪法测序产生所有数据集。表1列出了关于这些选择的宏基因组的更多参考信息。对于没有质量控制的FASTQ格式化序列读数的数据集,我们使用Biopieces软件包( http://www.biopieces.org )对碱基进行质量检查。每次读取的低质量结束被trim_seq修整。进行修剪直到3-bp片段中的所有碱基都具有最小质量得分20。如果满足以下标准,则保留高质量读数:在20bp的滑动窗口中最小平均质量得分为15; 最小读取长度为50 bp。
估计微生物组成 。MetaPhlAn v1.7[24]和BLAST v2.2.22[25]被用于分析宏基因组数据集中的分类进化枝。简而言之,首先使用BLASTN将宏基因组读取映射到由独特的分化特异性标记基因组成的MetaPhlAn参考数据库。用于BLASTN测序相似性搜索的非默认参数如下:ee值截止值为1e-10,字长为12,最小对齐长度为75nt。然后通过MetaPhlAn评估从域级到物种级的所有分类学级别的相对丰度评分。在文中,所提到的分类群显示丰度的平均值。为了评估来自不同微生物群落的土壤样品之间的组成相似性,使用Beta多样性的Bray-Curtis度量[26]来比较每个样品对之间使用vegan包中的R函数vegdist的所有成对分类学丰度[27]。然后估计基于置换的多变量方差分析(PERMANOVA)和二维应力值。基于得到的Bray-Curtis相似距离矩阵,采用非度量多维尺度(NMDS)对群落结构的分散进行可视化。使用vegan包[27]和R( http://www.R-project.org )[28]进行多变量分析。
宏基因组的代谢重构 。代谢重建使用HUMAnN方法设计用于功能分析的meta’omics [29] 。 高质量的读取最初使用加速翻译的BLAST程序USEARCH v6.0.307[31]映射到特征蛋白质功能数据库KEGG Orthology v54[30]。将截断E值设定为1e-6,然后使用最佳命中值通过HUMAnN v0.98估计KEGG直系同源(KO)基因家族的相对丰度。基于得到的KO信息,MinPath被用来计算手动定义的功能单元的KEGG模块的覆盖率和相对丰度[32]。表示微生物分类学组成和代谢模块的圆形包装图通过使用独立的图形工具GraPhlAn v0.9.5( http://huttenhower.sph.harvard.edu/GraPhlAn )来实施。
宏基因组生物标志物的检测 。为了进一步测试某些分类单元/代谢模块在个体土壤栖息地中是否显着过多,根据推断的相对丰度进行统计分析。通过线性判别分析(LDA)效应大小(LEfSe)的方法确定了差异性丰度的特征,并且可以用作宏基因组生物标志物[21]。由于样本量在这个测试中并不是很大,因此Krushkal-Wallis(KW)检验的alpha参数的显着性阈值设定为0.01,截断对数LDA评分为2.0。这些分析是通过Galaxy服务器进行的[33]。此外,使用R函数cor.test,使用Spearman等级相关性的非参数检验,每个KO入口和分类单元的相对丰度被用来估计群落组成和功能特征的共变化。
检测微生物相互作用 。最近开发的计算方法被用来研究土壤内部和土壤之间的微生物共生和共排斥关系[22]。 通过Cytoscape插件CoNet 1.0b2( http://psbweb05.psb.ugent.be/conet/ )构建了显着的共现和共排斥相互作用的微生物网络。使用MetaPhlAn估算的分类丰度来准备由三个地点(草地,沙漠和森林土壤)的数据组成的输入矩阵。使用下面列出的非默认参数进行分析:50个初始顶边和底边; 四种相似性测量(Spearman,Pearson,Kullbackleibler和Bray Curtis); 随机化例程的edgeScores; 1000个排列和bootstraps。由此产生的网络根据Simes方法[34]和Benjamini-Hochberg错误发现率(FDR)校正[35]进行合并。FDR截止值设定为0.05。Cytoscape 2.8 [36]显示了集合共现网络。
结果与讨论
微生物组成与功能的相关性 。类似于Segata等人提出的方法[38]的研究框架。我们探讨微生物组构成分与其功能性间的相关性关系。研究表明,在土壤微生物群落中鉴定到进化分支特征与功能性基因家族之间存在显著关联现象(Spearman非参数检验; Benjamini-Hochberg多倍检验p值<0.01)(图S2)。值得注意的是,在上述特定土壤群落中发现的一些关键生物标志物特征进一步通过进化分支与功能性基因家族间的强相关关系得到了验证支持。
土壤微生物相互作用网络 。为了深入解析单一土壤栖息地中的复杂生态关系网络体系,在森林、草地及沙漠等典型地形下的土壤微生物群落间相互作用研究中我们进行了重点分析工作。由此构建的宏基因组水平作用网络体系包含了门群间建立的126个显著关联关系(Benjamini-Hochberg多倍检验p值<0.05)(图5)。在这些门间系统发育型相关联关系中约54%表现出共同存在特征其余则呈现出互相排斥特性。有趣的是我们发现四分之三以上(约74%)的共生模式均源自于同一科内的分类群单元而几乎所有共存排斥模式均源自于不同科系内的分类单元组合这一发现再次为以往关于具有密切进化关系系统单元倾向于共同出现的观点提供了有力证据支持[8]
结论
Improving Metagenomic Studies of Microbial Interactions using Biofilm-Based Techniques
该研究聚焦于利用生物膜技术促进仅微生物之间的相互作用来展开宏观基因组研究。摘要指出,在这一领域中应用独立培养技术显著提升了相关领域的研究深度。其中一种关键的方法即为宏观基因组学方法,在这种方法中研究人员从土壤、水和其他环境样本中采集菌体群落数据。通过对大量环境样本中提取并测序分析其携带的核酸序列数据,在基于生 物信息学计算的方法下能够推断出菌体间的相互作用关系。通常情况下,在大多数自然环境中这些菌体间的相互作用主要集中在表面附着形成的生物膜上层结构中。
本综述系统性地介绍了宏观基因组学方法与生物膜生物学的基础理论,并提出了一种创新的研究策略:在样本采集阶段引入专门针对表面附着菌体群落进行富集处理的方法。
在全球范围内观察到微生物的广泛分布令人印象深刻,在陆地生态系统的深层地表区域[1]以及海洋环境[2]中均可发现这些生物群落的存在;与此同时,在更高层的大气环境中[3]也发现了它们的存在形式。尽管培养技术正在改进,在大多数自然环境中尚未被成功的微生物培养所获取;借助包括宏基因组学在内的多种非培养方法(如测序技术和基因组分析),科学家得以估算微生物组成的多样性以及它们之间的相互作用情况[4]。早期分子研究的一个重要成果是识别出三种基本的生命形式:古细菌(古菌)、细菌和真核生物[5];随着测序技术的发展从传统Sanger协议到高通量测序方法(如焦磷酸测序)以及基于Illumina平台的测序技术的进步性发展已经导致了大量数据的产生;为了系统性地分析这些数据并构建相应的基因组序列模型则需要投入大量的生物信息学分析工作[7]。通过宏基因组学分析得出了一系列显著的结果;其中包括鉴定出一种新的菌株HTCC1062,“Candidatus Pelagibacter ubique”。“Ca. P. ubique”这种极端环境下生长能力极强并且营养需求极为简单的菌种最初被认为是存在于深海中的富营养化区域中的最丰富微生物之一[8][9]。
从微生物群体中提取和处理宏基因组DNA的方法可分为两类:直接法与间接法。Ogram等人提出的直接法[11]是将环境样品中的细胞外DNA经过碱性缓冲液处理后分离出来,并通过机械敲打等手段裂解细胞基质以释放DNA片段。随后通过离心等步骤回收浓缩并纯化这些DNA片段。相比之下,在间接法中[12]样品中的微生物细胞被回收后需经过化学或酶促作用进行裂解以释放DNA片段,并完成后续的纯化流程。尽管这种方法操作时间较长且存在潜在污染风险[13]但其显著优点是可以避免样品中的非细菌DNA污染问题。另一方面直接法虽然能提供更高产的小尺寸DNA片段但也可能因效率较低而消耗更多资源并且无法保证获得较大的基因组片段[14]因此需要根据具体的实验目标权衡两者的优缺点以选择最适合的研究方案
采用宏基因组DNA的直接测序方法完成后续步骤,并结合序列分析技术获取详细信息
依附于表面形成的微生物群落被科学上命名为生物膜[10],普遍存在于各种环境类型中。其表观特征便于理解,在流动系统中(例如河流或管道)尤其明显——由于微生物依赖于剪切力而能够稳固地依附于表面。营养物质以被动态结合的方式吸附在表面上层体之间,则会吸引更多种类丰富的微生物群落——这一现象通常被称作瓶效应[32]。当其内部生物处于生长阶段时,在生物膜内代谢活动与遗传信息传递之间的协调会得到显著增强。
生物膜的另一个显著特征是细胞专业化的重要标志 。在社会细菌及其黄色粘球菌形成的生物膜中,这一现象表现得尤为突出且具有典型性:其中一些细胞参与繁殖过程,另一些则专注于营养获取,在少数情况下则承担结构性作用[59]。类似的研究也存在于其他生物体系中[43]。此外,在营养水平、pH值以及氧气浓度(需氧时)等化学梯度的存在下会产生生理梯度[60]。值得注意的是,在这种复杂的结构中(图2),内部的组织结构和分化程度已经被成功地类比为一个由不同功能单元组成的'微菌落'系统[61]。通过采用'城市隐喻'这一概念工具[60]进行研究分析,在这种比喻模型下:个体小菌落可被看作是独立的小型建筑群,并与邻近的小菌落形成生态互动(协同作用、拮抗作用、合成代谢作用以及基因交流等)。
普遍发现,在大多数环境中微生物都以表面粘附的生物膜形式存在[10]。其中,在生物膜内部会进行多种微生物间的相互作用与过程。天然形成的生物膜群落主要包括可培养微生物及不可培养微生物[4]。如宏基因组学等基础广泛的分子生物学手段能够有效鉴定菌种及其功能基因,并能提供关于菌群代谢特征及功能蛋白组成的宝贵信息;然而传统获取遗传物质的方法通常基于较大的样品量进行采样, 因此所得的数据与分析结果均基于样品的平均值, 其中包含了生物膜、浮游菌群体以及可能存在的细胞碎片与胞外DNA. 理论上而言, 通过广泛的宏基因组学手段能够有效鉴定菌种及其功能基因, 并结合RNA-seq [74], 代谢组学 [75], 和蛋白质组学 [76] 等技术用来检测菌群的代谢特征与功能蛋白组成; 此外, 单细胞水平或小型群体中的菌群动态变化研究更为精确.
186. Function analysis of metagenomes and metatranscriptomes using SEED and KEGG
186.基于SEED和KEGG的宏基因组与宏转录组功能解析
宏基因组学致力于利用DNA测序技术来研究微生物群落的组成与功能。经过更为严格的数据测序技术和更加完善的参考数据库的支持,这种分析方法的应用前景日益广阔,并取得了显著成效。尽管 macrogenomics 能够提供关于微生物群落中存在哪些特定基因的数据信息, 但 metagenomics 则可能在特定的时间点和地点中揭示该菌群的实际代谢途径及其变化规律。
MEGAN操作简便只需一个BLAST输出文件即可完成安装与使用
在现代通路分析领域已形成一套高度可靠的数据库即"京都基因与基因组百科全书"(KEGG)[15]。该软件包提供了一个KEGG查询界面让用户不仅能够识别存在于数据集中的KEGG通路信息 并且能够深入探讨这些路径的具体组成及其功能特征 这一模块特别支持从多个角度解读复杂网络的关键节点及其相互作用关系.此外 MEGAN还提供了一种独特的可视化工具让用户能够以交互式方式探索其构建的核心网络模型.
现在作为新兴功能 MEGAN借助 SEED 分类体系[1]展开功能性解析工作在此分类架构中基因被指派至特定的功能角色而这些角色则被划分为若干个独立的子系统 SEID 分类体系可采用一棵有根树结构其中内部节点代表各个子系统而叶子节点则对应具体的功能角色值得注意的是若某个角色在多个子系统中出现则该树结构即为"多标记的"即同一叶子节点可能对应多个相同的功能角色当前构建的 SEID 树总计拥有约 10,000 个节点为确保准确解析 MEGAN将具有最高 BLAST 分数值的基因的功能作用分配给蛋白质数据库
通过应用MEGAN来进行KEGG分析,在对每个reads进行处理时旨在使每个reads与KEGG ortholog(KO)条目相匹配,并基于已知的最佳匹配的参考序列进行操作。随后系统会计算并报告每个KEGG通路对应的命中次数,在结果页面上提供详细的数据展示信息以供研究者查询和分析。研究者可以通过系统提供的功能选择特定路径进行详细查询,并根据KEGG数据库映射结果对相关路径进行颜色标注以生成相应的视觉表示图以帮助直观理解研究发现。该工具不仅支持同时分析多个数据集还能通过设置不同的颜色标注区分各数据集对应的功能区域从而更好地识别潜在的功能关联性;此外该方法特别适用于研究涉及多物种微生物联合作用的情况由于其能够聚焦于特定功能类别如通过限制通路分析仅关注NCBI分类学中的某个或多个功能群组从而提高研究效率[15]
比较不同数据集的功能内容 。MEGAN支持分类内容的同时分析和比较,现在也支持多种数据集的功能内容。一套宏基因组的功能内容可以用一个新的基于SEED的树视图来模拟地打开和比较(见图2)。此外,可以使用六个不同的生态指标,即UniFrac测度[2]和不同的距离分析技术(详见[14])对数据集进行比较。
数据准备 :对于第一个案例研究,我们使用了由热液孔微生物群落获得的来自FLX-titanium焦磷酸测序数据集(Roche-454)的1408个序列组成的小亚组。我们使用了来自普利茅斯海洋实验室的八个海洋数据集,其中包括四个宏基因组(DNA)和四个来自挪威卑尔根(Bergen)进行的细胞间实验的转录组(cDNA)(详情见[16])。在本文中,我们将这些称为PLM-Bergen数据集。使用BLASTX工具[18]将所有的宏基因组和元转录组与NCBI-NR数据库进行比对。然后将结果导入MEGAN [12](使用默认参数),使用“从BLAST导入”选项并保存为MEGAN自己的’rma文件’。
基于MEGAN-SEED的功能分配 :MEGAN使用LCA算法,基于为读取提供的BLAST匹配,将给定数据集的每次读取放置到NCBI分类法的一个分类群(或“节点”)中。为了以类似的方式进行功能分配,MEGAN使用SEED分类提供分层表示。通常,读取被映射到NCBI分类法,并且程序提供分配给任何给定节点的读取的确切数目以及以该节点为根的子树中的任何节点的命中数目。以功能分析的类似方式,使用来自SEED服务器的’seed2ncbi.gz’文件将读取映射到SEED子系统。
基于功能组分的大规模多标记基因组学对比分析:
首先,在打开所有样品后,在软件界面找到并选择"Compare"菜单项以执行分类内容对比操作,在新的结果窗口中展示对比信息(如图2所示)。接着,在此生成的结果窗口中找到"SEED"菜单选项并激活它。
其次,在SEEDview界面切换到"Option"菜单选项下的"Nets"子选项以查看当前处理的数据集间的网络对比视图(如图3所示),该模块还支持六种不同的网络距离计算方法(参考文献[14])。
最后,在完成上述分析后,请您将当前所选软件的工作流程与另一款名为MG-RAST的功能注释服务系统进行详细对比研究。其中,MG-RAST因其在功能注释方面的领先地位而被广泛采用;而本研究则旨在通过构建详细的案例库来进行系统性地对比探讨。
我们首先在一个未公开的1408序列(454 FLX-钛焦磷酸测序)的数据集中提取了来自热液孔微生物群落转录组的数据,并通过MEGAN-SEED注释功能进行了标记并与其平行分配进行比较。随后,在Bergen数据库中获取了Time1-Bag1-DNA样本集合(共计209,073个序列),并利用该数据集继续进行研究工作。基于KEGG的功能分析模块——KEGGviewer——用于解析宏基因组水平上的代谢通路。该模块设计采用RefSeq数据库中的条目编号作为输入依据,并将其映射至KEGG系统中的正交分类(KO编号)。其功能特性亦已被MG-RAST所确认
133. Extracting Aggregated Functional Traits from Metagenomic Data via a Constrained Non-Negative Matrix Decomposition Approach: A Study on Human Gut Microbiota Fibre Degradation
133.使用有约束的非负矩阵分解从宏基因组数据中推断聚合功能特性:在人类肠道微生物群对纤维降解的应用
摘要 :全基因组鸟枪法(WGS)宏基因组学已越来越多地用于从分类学和功能角度研究复杂微生物生态系统的结构和功能。其他未经培养的微生物群落的基因清单使微生物群落的直接功能分析成为可能。群落聚合性状的概念已经从环境和植物功能生态学改变为微生物生态学的框架。通过计算相关标记基因的丰度,从WGS数据量化群落聚集性状。它们可以用来研究生态系统层面的关键过程,并将环境因素与生态系统功能相关联。在本文中,我们提出了一种新的基于模型的方法来推断表征生态系统代谢过程的聚合性状的组合。我们制定了这些组合聚集功能性状(CAFTs)的模型,该模型考虑了与微生物基因组相关的基因的等级结构,其在生态系统水平上通过复杂的共现或相互作用进一步连接。该模型完成了特别设计的约束利用可用的基因组信息,以支持生物相关的CAFTs。通过求解约束非负矩阵分解(NMF)问题来获得CAFT结构以及它们在生态系统中的强度 。我们为CAFT的数量制定了一个多准则选择程序。我们阐述了我们的方法在人类肠道微生物纤维降解的生态系统功能性状上的建模。 我们使用了来自几个高通量测序项目的1408个基因丰度样本,发现仅需要四个CAFT来代表纤维降解潜力。这种数据缩减强调生物学一致的功能模式,同时提供原始数据的高质量保存。我们的方法是通用的,可以应用于肠道或其他生态系统中的其他代谢过程。
我们开发了一种基于模型的新方法,并将其成功应用于卫星数据分析与系统生物学领域的整合研究中。该研究特别关注某些特定生态系统的代谢动态变化规律,在复杂生物环境中展现出显著的应用价值。通过整合多源生物信息数据集及其相关分析技术手段,在理论框架下构建生态系统代谢网络模型的基础上进行深入探讨与预测分析工作
我们采用的方法基于非负矩阵分解技术(NMF),这是一种在数据与图像分析领域内广泛应用于机器学习的方法。
NMF最初应用于基因组数据挖掘领域的微阵列数据分析领域,并在文献[12, 13]中有记载。
如今在宏基因组学框架内被引入,并且也被用作分析各种生态系统的数据集。
特别关注该方法作为不同生态系统中进行"软"聚类分析的工具。
系统地研究了不同环境生态系统中的物种丰度。
分别比较了基于蛋白质家族概况的方法与基于系统发育和功能数据的方法在人体遗址上的应用情况。
在文献[18]中基于网络结构的先验信息,在二元网络重构框架内开发了一种结合源分离分析与先验知识的方法,并将其方法应用于基于微阵列数据重建调控信号的过程
我们工作的原创性体现在采用受限型非负矩阵分解法,并将其限制目标设定为通过生物相关联的功能组件特征选取来表征生态系统的运作过程。这些限制条件源自于贝叶斯视角下的可用先验信息提取,并辅之以谨慎的标准筛选流程以确定组合功能性状的数量和类型。
为了证明这一概念, 我们采用我们的方法构建了基于1408个基因丰度样本的人类肠道菌群对纤维降解生态系统的功能性状模型
一种整合生态系统的功能表现特征模型
我们的第一个建模假设是生态系统中潜在的功能标记丰度模式呈现一种特定的结构特征 。事实上,在微生物生态系统的基因组层次上进行分析时会发现一种独特的分层结构:首先与微生物基因组建立关联关系;随后将这些关系进一步划分为微生物亚群落层次;每个亚群落都包含数百种不同的细菌物种;这些物种通过复杂的共生关系或相互作用连接起来;同时受到环境因素(如营养物质或温度)的影响;最终形成了一个具有特征性的功能标记丰度分布模式。
我们第二个建模假设正是由这一事实推动提出的:即使在许多微生物群落中;尽管其组成成分随时间和样品的不同而发生变化;但在群落水平上的代谢过程普遍存在,并且在时间上表现出更高的稳定性. 因此我们假定这一模式是由生态系统的所有样本共同遵循的.
例如对于肠道生态系统来说;这种模式反映了宿主饮食中的厌氧条件以及温度等环境因素对菌群组成的调控作用。
我们的建模框架的第一个重要结果是基因组信息可以转化为对CAFTs结构的约束。
两个额外的假设 。首先,我们假定所考虑的代谢过程中的一部分反应是众所周知的,从而可以提取由每个反应消耗或产生的代谢物的列表。其次,我们假设代谢物分为两类。第一个对应于已知从细胞中输出的代谢物,来自实验证据或已发表的数据。第二个收集实际上已知留在微生物细胞内的代谢物,以及强烈怀疑的代谢物。为了方便起见,这两个类别将被称为细胞外和细胞内代谢物,尽管在某些情况下这可能是误导的。
参数的选择 :最小化问题需要选择CAFT数目k和调整参数α的值。在NMF生物数据的大多数应用中提出的参数选择程序是基于用于解决问题的迭代算法的几个初始化的权重矩阵W的稳定性[12,13,15,16],特别是关于样本的聚类。由于我们的NMF的使用集中在提取以特征矩阵H为特征的可再生生物机制,所以我们相对于数值解更关心生物稳定性。因此,我们提出对[16]开发的一致性指数进行修改,即对两个矩阵之间的一致性进行评估,以评估独立数据集上计算的CAFT的一致性。在我们的方法中,通过反复分裂生物样品组,对每个子集进行NMF分解,并通过一致性指数评估两个性状基质之间的相似性,来模拟H在新数据集上的再现性。即使索引公式与[16]提出的索引公式相同,但由于作者评估了在整个数据集上实施的NMF算法的各种初始化之间的可重复性,所以解释是不同的。请注意,正如前一节所述,我们的算法也包括重复的随机初始化,并且通过选择提供最佳重构的初始化来获得在数据的子集上计算的每个NMF分解。为了加强解释,这个标准是与两个更经典的:重建误差的斜率变化和双交叉验证误差[20]。选定的值是在确保其他标准可接受的同时优化H的一致性的值。
应用:纤维分解代谢CAFT在人类肠道微生物中
数据和代谢过程描述 :我们利用来自8个不同健康状况和人群(欧洲,中国,美国)不同研究的1408个全基因组鸟枪法宏基因组样本中的基因频率[3,21-27]。 对于每个样品,基因频率是通过对由990万个非冗余基因组成的综合基因组目录(IGC)[ 21 ]的样品读数进行计数而获得的。 纤维分解代谢的功能标记由Kegg Orthologies(KO)[ 28,29 ]以及糖苷水解酶(GH)和果胶裂解酶(PL)家族定义[ 30 ]。 仔细地手动选择86个相关标记物(25个GH-PL和61个KO,列于表11和2中 ) 2 ),其被仔细地手动选择为与人类肠道微生物群中的纤维分解代谢特异性相关。 最后,通过对相应的基因频率求和得到1408×86矩阵的标记频率A. 代表糖发酵的图显示在图4中 。 它包含43个主要代谢物,其中25个已知或被认为是细胞内的,18个已知是细胞外的。 它是根据生物分解代谢途径从纤维的水解导致单糖随后发酵成短链脂肪酸(SCFA)和甲烷。
我们的研究焦点在于NMF的不同应用场景。我们确定了NMF并非用于聚类生物样本这一单一方向的研究路径,在相反的方向上展开工作——即解析与生态相关的代谢途径特征。基于此,在方法论层面我们更关注于深入分析H矩阵的详细推导而非传统的权重矩阵W分析方法
我们开发了一个详细的栖息地微生物生态系统功能多样性模型,并将其定义为主群落贡献的具体方面。每个群落的特点是由功能性标记指标频率分布形成的混合体决定的。这些配置文件被命名为基于参考函数特性的结合体,在这种情况下是根据从微生物随机样本中社区级测量得出的结果,并且与它们所属的生命学分类无关。通过整合两者间功能标记组合的具体细节以及个体间集合特性之间的关系,在理论上形成了一个连贯且易于操作的整体代谢网络框架,并直接反映了该特性所对应的群落结构。
我们主要取得了创新性成果一种基于设计限制条件的新型NMF模型CAFT推断方法。标准NMF方法在生物数据分析中得到广泛应用的原因在于传统降维技术如截断奇异值分解(SVD)或主成分分析(PCA)等通常会导致数据表示中出现负系数这一缺陷 这使得这些方法无法直接提供有效的数据解释。然而 虽然SVD与PCA能够提供一个独特且严格限定的数据缩减结果 在最佳ℓ 2-误差准则下 NMF存在多个最优解的问题
我们的做法是基于贝叶斯理论,在利用先验信息时考虑可用的优势以分析数据的内在规律,并建议形成一种基于基因组结构与代谢相关联的知识框架的方法。我们发现基因频率并非随机分布在宏基因组以及由微生物基因组编码代谢关联所不具备随机性分布的特点。因此在这种代谢结构化所导致的制约因素扩大后应在该层次上进行解释我们设计了一种局部约束仅涉及代谢过程中的曲线图表示相邻功能标记之间的关系因此这种较弱限制仍然保留了相当大的自由度用于构建反应矩阵并设计CAFT矩阵无需强制重建通路网络
我们探讨了一种新型的方法用于确定CAFTs的数量。这种做法并非依赖数值稳定性分析,在生物领域中更为常见。我们开发了一个衡量计算独立性数据集间CAFT一致性标准的方法,并将其与经典的程序结合使用。
我们开发了基于人肠道菌群样本1408的梅塔日内斯丰度策略以识别与远端肠道相关的纤维降解CAFTs
187. Machine Learning-based Meta-Analysis of Massive Metagenomic Data Sets: Analytical Tools and Biological Implications
187. 大规模宏基因组数据集的机器学习元数据分析:工具和生物学见解
摘要 :人类相关微生物组的鸟枪宏基因组分析提供了在人类疾病和健康状况的背景下用于预测和生物标志物发现的丰富的微生物特征。然而,使用这种高分辨率微生物特征带来了新的挑战,缺乏用于学习任务的有效计算工具。此外,分类规则在独立研究中几乎没有得到验证,对整个队列中疾病预测模型的普遍性和泛化提出了疑问。在本文中,我们全面评估基于宏基因组学的预测任务的方法和定量评估潜在的微生物组学表型关联的强度。我们使用定量微生物组概况开发预测任务的计算框架,包括物种水平的相对丰度和菌株特异性标记的存在。综合荟萃分析,特别强调跨群体的概括,在824个大型研究的2424个可公开获取的宏基因组样本中进行。交叉验证显示出良好的疾病预测能力,这通常通过特征选择和使用菌株特异性标记而不是物种级分类学丰度来改善。在交叉研究分析中,在研究之间转移的模型在某些情况下比通过研究内交叉验证测试的模型不准确。有趣的是,将来自其他研究的健康(对照)样本添加到训练集提高了疾病预测能力。一些微生物物种(最显着的是咽峡炎链球菌(Streptococcus anginosus))似乎表征微生物群的一般生态失调状态,而不是与特定疾病的关系。我们在建模“健康”微生物组特征方面的结果可以被认为是定义一般微生物失调的第一步。数千个样品的软件框架,微生物组概况和元数据可以在http://segatalab.cibio.unitn.it/tools/metaml上公开获得。
MetaComp is a comprehensive analysis tool for comparative omics and also incorporates comparative metagenomics.
188. MetaComp:比较宏组学
摘要:背景:随着高通量测序技术和质谱技术的进步,在宏基因组学、宏转录组学、宏蛋白质组学及代谢组学等多维数据表征微生物群落方面取得了显著进展。基于上述四类数据的整体分析框架下展开比较研究以阐明微生物群落的多样性及其与生物因子之间的相互作用关系。研究证实比较宏观层面特征尤其是比较宏基因组学对于阐明分类群组成及功能基因丰度的显著差异具有重要价值已获得广泛认可;而随着生态因子与代谢特征之间相关性研究的深入生物学家愈益关注其对菌群适应性的作用机制这一方向亦备受关注。
结果:本研究团队开发了一个名为MetaComp的图形化综合分析平台整合了多种统计分析工具以及基于宏基因组学的元数据对比可视化功能该平台能够自动识别并处理来自不同上游程序生成的数据文件加载后系统会执行多变量统计分析包括双样本多样本及两两分组样本假设检验并结合新的环境因素回归模型对元元素作为自变量与环境因素作为因变量进行建模此外该平台还具备根据输入数据特征自动选择最优分组测试方案的能力并通过交叉验证评估其预测性能最终展示了在不同层次上的应用效果包括基于宏基因组学、宏蛋白质组学及代谢组学的数据集分别构建了各自的对比模型并进行了效果验证。
结论:MetaComp系统作为一个全面性的工具框架不仅能够满足传统意义上的数据分析需求还能通过其创新性的环境因素回归模型为无专业知识背景的研究者提供友好的使用界面从而有效缓解在大数据时代面临的挑战;该软件目前可通过http://cqb.pku.edu.cn/ZhuLab/MetaComp/及https://github.com/pzhaipku/MetaComp/两个途径获取。
The metagenomic systems biology approach of the human gut microbiome uncovers topological changes linked to obesity and inflammatory bowel disease.
145. 人类肠道微生物组的宏基因组系统生物学阐明了与肥胖及炎症性肠病相关的结构变化
58. Metagenomics intersects with time series analysis: unveiling microbial community dynamics
58.宏基因组学遇见时间序列分析:解开微生物群落动态
摘要:近年来微生物时间序列研究的数量显著增加为从世界海洋到人类微生物群的微生物群落的稳定性和动力学提供了更深入的理解。专用的时间序列分析工具能够充分运用这些数据资源。这些工具不仅能够揭示周期性模式并有助于建立预测模型而且能够量化使社区行为不可预测的违规行为亦或是反过来说它们有助于识别由小扰动引发的突然变化以及这些变化与环境条件变化或多个稳定状态的存在之间的关联只需足够的样本时间和点就可以检测到这种替代状态另外微生物相互作用的变化也可以通过时变网络进行捕捉在这里我们将这些技术应用于多个纵向数据集以展示其在微生物群研究中的应用潜力。
189. metaSPAdes: a new versatile metagenomic assembler
189.metaSPAdes:一种新的多功能宏基因组组装器。
摘要:虽然宏基因组学已经成为分析细菌种群的首选技术,但宏基因组数据的组装仍然具有挑战性,从而扼杀了生物学的发现。此外,最近的研究表明,复杂的细菌种群可能由数十个相关菌株组成,从而进一步放大了宏基因组装的挑战。metaSPAdes利用计算思想解决了宏基因组装的各种挑战,这些计算思路被证明在单细胞和高度多态性二倍体基因组的装配中是有用的。我们将metaSPAdes与其他最先进的宏基因组装体进行对比,并证明它可以在不同的数据集中实现高质量的组装。
190. Community Microbiome Analysis of Oral Fluid Utilizing Next-Generation Metagenomic Sequencing
摘要:口腔唾液作为临床健康信息的重要来源。鉴于下一代测序技术(NGS)现已被广泛应用于鉴定细菌及其定量分析的基础上本研究对两位健康志愿者的唾液样品进行了宏基因组测序并将所得数据与来自‘人类微生物组计划’中的五个代表性数据集进行了整合分析。我们通过采用未配对短NGS读数的方法构建了GENIUS系统该系统能够有效鉴定并定量化存在于唾液样品中的各类细菌物种包括已知共生于人体内的多种菌类如流感嗜血杆菌脑膜炎奈瑟菌肺炎链球菌及伽玛蛋白抗原相关菌等此外该系统还能够识别出与常见病原体相关的其他未知物种。研究结果表明基于BLASTn算法进行并行基本局部比对搜索工具分析报告所包含的数据量较实际样本数量多出约五倍这表明该方法在检测能力上具有显著优势。此外基于BLASTn算法进行并行分析所获得的结果仅能反映主要属类信息而无法提供更为精确的物种组成描述这使得GENIUS系统在精确性方面表现出了显著的优势并且其运行速度比传统方法快至少1万倍以上由此可知在宏基因组样品中鉴定细菌种类及/或菌株时GENIUS系统能够提供一个高效且精确的方法
191. Microbiotic strain-level compositional profile and genetic diversity index within metagenomes
191.宏基因组的微生物菌株水平种群结构和遗传多样性
摘要:宿主表型通常仅受致病微生物群体中少数几类菌株的影响。尽管长期以来对单个细菌特性的分子生理学研究至关重要,在不依赖培养基的高通量宏基因组学研究中揭示单个宿主特异性菌株变异特征仍面临挑战。为此我们开发并引入了StrainPhlAn这一新的应变鉴定方法,并将其用于分析北美、南美、欧洲、亚洲及非洲国家共1500份肠道宏基因组中的超过125个物种及其数千个菌株的遗传结构特征。该方法基于物种特异性标记基因内的每样本显性序列变异重建技术,在主要鉴定宿主特异性菌株差异(小于5%跨宿主共享),并发现单个菌株通常主导每个物种且随时间保持稳定(超过70%物种)。此外我们发现微生物种群结构与宿主地理分布之间存在若干关联性,在某些情况下特定亚种(如直肠真杆菌属与普雷沃氏菌属)或连续型遗传变异(如Faecalibacterium prausnitzii)与不同的人类群体地理分布相关联。此外在多个相互独立的群体中还发现了少量具有特定遗传多样性的稀有菌株。通过本研究我们系统评估了肠道微生物群体间的遗传变异性特征其中拟杆菌属物种表现出显著的一致性(各同源核苷酸位点平均差异仅为0.45%),而假单胞菌属则展现出最大的遗传适应性。因此我们通过该研究首次较为全面地揭示了难以以前深入探索的肠道微生物群体水平应变机制并提供了关于肠道微生物多样性的综合遗传变异性特征。
本节主要探讨微生物群落(Microbiome)、metagenomics 和高维组分数据分析(High-Dimensional Compositional Data Analysis)之间的关系
基于微生物组学、宏基因组学及高通量测序技术的数据分析这一新兴领域的发展趋势及其在生命科学研究中的重要性日益凸显。
摘要:人类微生物群落是指体内所有微生物的集合体,在健康与疾病状态下的作用日益受到科学界的重视。
通过高通量测序技术的应用,科学家得以对组成特定样品的所有微生物进行精确量化测定。
通常情况下,在单个样品中可获得数亿条短序列数据。
随着新技术的应用范围不断扩大,在微分子水平上获取的大规模测序数据不仅数量庞大而且具有独特的结构特征。
这些复杂的数据分析带来了前所未有的统计推断与计算处理难题。
当前研究的核心问题主要集中在以下几个方面:
(1)如何实现代谢物丰度与细菌基因之间的标准化转换;
(2)如何将系统发育信息有效整合到宏基因组测序数据分析中;
(3)如何建立适合高维数据的多变量统计分析模型。
综上所述,在现有研究方法的基础上进一步优化现有模型框架仍具有重要的理论价值与应用前景。
针对现有方法所存在的主要局限性,
通过系统性讨论现有的理论框架体系与其在实际应用中的局限性问题,
提出了若干新的研究方向与创新思路。
157. SmashCommunity: A metagenomic annotation and analysis tool
157. SmashCommunity:一个专业的宏基因组注释与分析系统
The metagenomics RAST tool – an open resource for automatically conducting phylogenetic analysis and functional studies within metagenomes.
167.宏基因组学RAST服务——一个宏基因自动系统发育与功能分析的在线资源
