Advertisement

基因组生物信息学实验(三):基因组模拟测序(1)

阅读量:

通过NCBI的子库Genome获得了YJM1386菌株的基因组测序数据,并使用artillumina软件对基因组进行了5次全基因组测序模拟(f值分别为2、4、6、8、10)。每次模拟中参数设置如下:-l 100(序列长度)、-m 150(理论覆盖度)、-s 10(丢失率)、-o ./result/Scpaireddata至e(输出路径)。通过wc命令统计了每个sam文件的行数并计算了覆盖度、丢失率及覆盖率。结果显示随着f值的增大,覆盖率逐渐提高。最终结论为:随着f值增大,覆盖率也随之增大。

基因组模拟测序(1):主线的内容

step1:方法
利用 NCBI 子库中的 GenBank 数据获取 YJM1386 菌株的基因组测序数据集。
采用 art 系列软件(Art Tools)中的 Art Illumina模块对导入的基因组序列数据进行处理。具体操作如下:基于 Hiseq2000 测序平台对基因组序列进行5次模拟全测序实验,并参考附表中的参数设置完成测试任务。实验结束后对模拟结果进行统计分析,计算理论覆盖度(m)、丢失率以及实际覆盖情况。

-l -f -m -s
第一次 100 2 150 10
第二次 100 4 150 10
第三次 100 6 150 10
第四次 100 8 150 10
第五次 100 10 150 10

step2:涉及的脚本

复制代码
    #其它参数保持一致,修改 f 值做 5 次测序模拟,f=2,4,6,8,10
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 2 -m 150 -s 10 -o ./result/Sc_paired_dat_a
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 4 -m 150 -s 10 -o ./result/Sc_paired_dat_b
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 6 -m 150 -s 10 -o ./result/Sc_paired_dat_c
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 8 -m 150 -s 10 -o ./result/Sc_paired_dat_d
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 10 -m 150 -s 10 -o ./result/Sc_paired_dat_e
    #查看每个测序结果对应的 sam 文件的行数(在 sam 文件的文件夹下)
    wc -l Sc_paired_dat_a.sam
    wc -l Sc_paired_dat_b.sam
    wc -l Sc_paired_dat_c.sam
    wc -l Sc_paired_dat_d.sam
    wc -l Sc_paired_dat_e.sam

step3:结果

n 碱基总长度(Mb) 理论覆盖度 基因组大小(Mb) 实际覆盖度 丢失率 覆盖率
2518312 25.1832 2 12.6155 1.996 1.36*e^-1 86.41%
503762 50.3762 4 12.6155 3.993 1.84*e^-2 98.16%
755600 75.5600 6 12.6155 5.989 2.51*e^-3 99.75%
1259364 100.7472 8 12.6155 7.986 3.40*e^-4 99.97%
第五次 125.9364 10 12.6155 9.983 4.54*e^-5 99.99%

n 表示 sam 文件中去掉注释后的行数。理论覆盖度为 m = 碱基总长度 / 基因组大小;其中碱基总长度等于双端数据大小 (l) 乘以 (sam 文件行数 - 注释行数)。

step4:结论
随着 f 值的增大,覆盖率也随之增大。

全部评论 (0)

还没有任何评论哟~