基因组生物信息学实验(三):基因组模拟测序(1)
 发布时间 
 阅读量: 
 阅读量 
通过NCBI的子库Genome获得了YJM1386菌株的基因组测序数据,并使用artillumina软件对基因组进行了5次全基因组测序模拟(f值分别为2、4、6、8、10)。每次模拟中参数设置如下:-l 100(序列长度)、-m 150(理论覆盖度)、-s 10(丢失率)、-o ./result/Scpaireddata至e(输出路径)。通过wc命令统计了每个sam文件的行数并计算了覆盖度、丢失率及覆盖率。结果显示随着f值的增大,覆盖率逐渐提高。最终结论为:随着f值增大,覆盖率也随之增大。
基因组模拟测序(1):主线的内容
step1:方法
利用 NCBI 子库中的 GenBank 数据获取 YJM1386 菌株的基因组测序数据集。
采用 art 系列软件(Art Tools)中的 Art Illumina模块对导入的基因组序列数据进行处理。具体操作如下:基于 Hiseq2000 测序平台对基因组序列进行5次模拟全测序实验,并参考附表中的参数设置完成测试任务。实验结束后对模拟结果进行统计分析,计算理论覆盖度(m)、丢失率以及实际覆盖情况。
| -l | -f | -m | -s | |
|---|---|---|---|---|
| 第一次 | 100 | 2 | 150 | 10 | 
| 第二次 | 100 | 4 | 150 | 10 | 
| 第三次 | 100 | 6 | 150 | 10 | 
| 第四次 | 100 | 8 | 150 | 10 | 
| 第五次 | 100 | 10 | 150 | 10 | 
step2:涉及的脚本
    #其它参数保持一致,修改 f 值做 5 次测序模拟,f=2,4,6,8,10
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 2 -m 150 -s 10 -o ./result/Sc_paired_dat_a
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 4 -m 150 -s 10 -o ./result/Sc_paired_dat_b
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 6 -m 150 -s 10 -o ./result/Sc_paired_dat_c
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 8 -m 150 -s 10 -o ./result/Sc_paired_dat_d
    art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
    -f 10 -m 150 -s 10 -o ./result/Sc_paired_dat_e
    #查看每个测序结果对应的 sam 文件的行数(在 sam 文件的文件夹下)
    wc -l Sc_paired_dat_a.sam
    wc -l Sc_paired_dat_b.sam
    wc -l Sc_paired_dat_c.sam
    wc -l Sc_paired_dat_d.sam
    wc -l Sc_paired_dat_e.sam
        step3:结果
| n | 碱基总长度(Mb) | 理论覆盖度 | 基因组大小(Mb) | 实际覆盖度 | 丢失率 | 覆盖率 | 
|---|---|---|---|---|---|---|
| 2518312 | 25.1832 | 2 | 12.6155 | 1.996 | 1.36*e^-1 | 86.41% | 
| 503762 | 50.3762 | 4 | 12.6155 | 3.993 | 1.84*e^-2 | 98.16% | 
| 755600 | 75.5600 | 6 | 12.6155 | 5.989 | 2.51*e^-3 | 99.75% | 
| 1259364 | 100.7472 | 8 | 12.6155 | 7.986 | 3.40*e^-4 | 99.97% | 
| 第五次 | 125.9364 | 10 | 12.6155 | 9.983 | 4.54*e^-5 | 99.99% | 
n 表示 sam 文件中去掉注释后的行数。理论覆盖度为 m = 碱基总长度 / 基因组大小;其中碱基总长度等于双端数据大小 (l) 乘以 (sam 文件行数 - 注释行数)。
step4:结论
随着 f 值的增大,覆盖率也随之增大。
全部评论 (0)
 还没有任何评论哟~ 
