Advertisement

宏基因组数据分析专题之展望与数据质控

阅读量:

宏基因组数据分析专题之展望与数据质控


导读

宏基因组测序(Metagenomics Sequencing)是对特定环境中的微生物群落所含全部微生物总DNA的测序分析。通过此方法能够系统地探究微生物种群的结构特征、分类学定位及其进化规律,并揭示基因的功能活性特性以及不同物种之间相互作用关系的同时,也能够解析微生物与环境间的相互作用关系。相较于传统的基于纯培养菌株的研究模式而言,该方法为环境 microbiota 研究提供了一条更为便捷有效的途径。然而,在实际应用中仍面临诸多技术挑战:如序列组装和参考基因组构建等基础问题;此外,在实验设计层面也面临着诸多限制性条件:例如现有大多数科研团队仍依赖专业测序公司完成数据处理工作;而这些公司往往仅负责标准化的数据流程分析,并未深入考虑单个实验的具体设计思路及潜在生物学意义;这在一定程度上导致实验结果难以达到理想状态。因此掌握宏基因组数据分析技术将显著提升科研效率与质量;本团队基于前期的技术攻关工作成果已基本掌握了完整的宏基因组测序数据处理流程;在此基础上我们将重点为大家讲解如何深入解读宏基因组测序数据。

背景知识

目前主要采用16S rRNA基因扩增技术和宏基因组学方法来进行微生物群落的研究工作

宏基因组测序数据分析流程

在这里插入图片描述

此处采用MetaWRAP的数据分析流程作为范例进行说明。 红色模块代表核心算法部分, 绿色模块对应宏基因组数据处理功能, 橙色模块涉及中间状态管理环节, 黄色模块则用于最终分箱处理步骤. 在后续阶段中, 我计划利用此数据分析流程图作为教学工具来介绍宏基因组数据分析方法. 图片素材来源于Uritskiy及其团队的研究成果(Uritskiy et al., 2018)

质控软件安装

所需的软件是fastqc,请访问其官方网站[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/获取更多信息。根据你的电脑操作系统或使用的Cluster环境来选择合适的版本进行下载。以下简要介绍如何在Linux服务器上进行安装:使用以下Linux命令。请参考官网获取更多信息。

wget -c https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip #用于获取fastqc_v0.11.8.zip文件

unzip fastqc_v0.11.8.zip #解压

cd FastQC #进入该目录

fastqc -h #查看帮助文档

chmod 754 fastqc #增加可执行权限

echo ‘export PATH=/home/xxx/FastQC:$PATH’ >> ~/.bashrc #任何路径下可直接调用

FastQC 常规参数选择

-o --outdir 生成的报告文件的路径

–extract 让程序不打包(默认会打包成一个压缩文件)

–noextract 结果文件压缩

-t --threads 程序运行的线程数(与文件数量一致就行)

-q --quiet 安静运行模式(不选这个选项的时候,程序会实时报告运行的状况)

-f --format 输入文件格式.支持bam,sam,fastq文件格式

-c --contaminants 制定污染序列。文件格式 Name[Tab]Sequence

-a --adapters 指定接头序列。文件格式 Name[Tab]Sequence

软件运行

fastqc -o./output/ -t 2 ./input/data/A.fq #单个fq文件的质控

ls $input/data/*.fq | while read id; #多个fq文件的循环质控

do

fastqc_dir/fastqc -t 2 id -o $output;

done

后续

涉及数据质量控制结果的分析, 计划在后续内容中对相关情况进行详细阐述, 请关注.

链接:

[1]参考来源:该网页详细介绍了FastQC的原理与应用。
[2]研究来源:该文章探讨了微生物组学分析中的FastQC方法。

深度基因小伙伴温馨提示 :

  • 如果存在对文章理解上的偏差,请随时向我们提出建议或指出不足。我们将重视听取您的意见并据此改进工作质量。
    此外, 我们热切欢迎所有有兴趣加入我们小团队的老师和同学, 请将邮件发送至指定邮箱: deepgener@gmail.com
    希望在科研道路上与大家携手共进,在生活的点滴中保持好心情!

全部评论 (0)

还没有任何评论哟~