质体基因组注释方法-1
随着二代测序的成本不断降低,植物叶绿体基因组与动物线粒体基因组的公布越来越广泛,也伴随着NCBI数据库等的数据审核更加严格。论文投稿返修难度也在不断增加,其实这种问题很大一部分是因为注释问题而导致。在本处将以植物叶绿体基因组为例,来介绍一种难度较低且准确程度较高的质体基因组注释方法。
大致流程:初步注释(植物叶绿体基因组在geseq网站中,动物线粒体基因组在mitos2中)→获得初步注释的gb文件(geseq可以直接获得,mitos需要用tbl或gff跟fa一起进行文件格式转变)→gb文件初步修正→转为sqn格式→在sequin软件中修正→导出为gb文件。在本文中,介绍gb文件初步修正及之前的步骤,在注释中切记gb文件初步修正十分重要。
一、geseq注释植物叶绿体基因组(初步注释)

页面往下滑

再往下滑还有一个trnascan-se,这个最好选上,对于trna注释的准确性非常重要
二、获得初步注释的gb文件
完成下载genbank文件

三、gb文件初步修正
下载完成后要对获取的初步注释结果(gb文件)进行修改,修改内容主要分为2个方面:
1、重复内容剔除,可能在注释中比对到多条相似序列,仅有一两个碱基的差异,这个时候我们可以把第二条删掉(对于cds的重复,在此步骤中哪怕把正确的删掉了也无所谓,后续会使用sequin软件进行调整。对于trna的重复根据完成高质量注释的近缘物种进行删除与保留的抉择,对于rrna的话保留第一个)

删除完成后不要有空行,

也可能会出现一段序列可能是两个基因,多出现在植物叶绿体基因组中,如图所示

修改完成后

如果两个注释出现一两个碱基的差异(对于trna来说两个注释或许不一定是同一个基因名,cds跟rrna一般是同一个基因名),对于cds的重复,在此步骤中哪怕把正确的删掉了也无所谓,后续会使用sequin软件进行调整。对于trna的重复根据完成高质量注释的近缘物种进行删除与保留的抉择,对于rrna的话保留第一个

2、冗余信息删除,例如 /info=、/annotator=等信息删除,exon跟intron也进行删除(gene跟cds可以反应这部分信息)
蛋白编码基因仅保留以下信息:

trna仅保留以下信息:

rrna仅保留以下信息:

其它一定全部删除干净,注释信息中一定仅保留上述图片所展示,其它的一定全部删除,不然在后续改错的时候怎么都改不对。
完成上述步骤后保存。
在《叶绿体基因组、线粒体基因组高质量注释结果获取-2》中将介绍后续的注释修正内容,完成后的注释结果可直接上传至ncbi数据库。
