Advertisement

后基因组时代的基因组功能注释

阅读量:

Abstract

Keywords

自1920年代起,科学家便开始尝试用蛋白质化学方法创造出了第一个"人工合成"染色体模型,即后来被命名为"人工染色体"(artificial chromosome)的概念.伴随着人类基因组计划( Human Genome Project, HGP )的启动,科学界逐渐将目光转向序列化和系统化地研究生物遗传物质这一新方向.这一时期标志着生命科学领域的重大转折:基于测序数据建立的研究框架逐渐取代了传统的形态结构研究方法,成为衡量一个国家生物科学研究水平的重要指标.

基因组功能注释的研究内容与方法
顾名思义,基因组功能注释的研究对象是基因组序列,其研究内容可分为以下三个层次.
1 1 基因组组成元素的识别
首先要预测基因组的全部编码区或称“开放阅读框架(openreadingframe,ORF)”.ORF的识别手段可以分为两大类:一类是评估未知DNA片段的编码可能性,称为概率型方法,如应用隐马尔可夫模型的GENSCAN[9];另一类是通过同源性比较搜寻蛋白质库或dbEST库找寻编码区[10].需要指出的是,EST测序的飞速发展,使得dbEST中的记录已经超过一百多万条.对于人基因组来说,理论上接近所有的基因都在dbEST库中有对应的EST.这种方法越来越受到重视,不仅因为它可以判断一段DNA中是否包含ORF,而且能精确地给出该基因的内含子和外显子的剪切模式.在线虫基因组的ORF识别中,综合运用了上述两种手段[3].总的来看,原核基因组的基因识别正确率较高;真核生物比较低,方法学上仍需要改进.非编码区包括各类重复序列、基因表达调控序列等,对它们的注释同样具有重要意义.相对编码区而言,这方面的工作较少.
1 2 注释所有ORF产物的功能
这是目前基因组功能注释的主要层次.对于已有实验证据的基因产物只需将功能描述与相应基因关联即可.对于无实验证据的基因,从生物信息学[11]研究的角度出发,目前主要有三大类方法可用于大通量的基因组功能注释工作:a 用最大相似的同源基因的功能注释咨询序列;b 用模体(MOTIF)搜索,因为模体往往是功能相关的保守序列;c 用Tatusov等的COG(clusterofortholo gousgroup)———直系同源簇方法[12],即用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇,从而可以用同一簇中的已知基因注释未知基因的功能.在序列分析之外,还有两个新兴领域对基因组功能注释意义重大:结构基因组的研究与蛋白质组的研究.它们正在使得基因组功能注释发生深刻的变化.有关具体问题下面还将细述.
1 3 基因之间相互作用及比较基因组学研究
基因组的各组成基因在序列水平,有位置排列的顺序关系;在转录、表达水平,又有基因、基因产物之间的相互作用.因此完整地了解基因的功能必然要研究其在生物体代谢途径中的地位,并尽可能揭示它们之间相互调控的机制,绘制出调控网络的图式.比较基因组研究不仅可以揭示生命的起源、进化等重大生物学问题,还具有不可低估的实用价值.比如通过细菌、真核生物的比较基因组研究,有望筛选出只在细菌中保守的基因,作为广谱抗菌素的药靶.目前该层次的研究正处于起步阶段.
2 当前基因组功能注释的主要进展
后基因组时代的到来必然要求基因组功能注释工作成为功能基因组学研究中的重要组成部分.我们在这里主要讨论当前最受关注的第二个层次,即应用生物信息学方法进行ORF功能预测问题.
2 1 最大序列相似性搜索
基于序列比较的最大相似法为序列基因组学解决了许多问题,在各种基因及蛋白质的进化、结构、催化等特性的研究中取得了很多成果.但是现在经大规模基因组比较资料发现这肯定会导致错误.比如1998年的网络杂志《InSilicoBiology》第一期[13]中,列举了大量此类错误.错误的根源在于“同源=功能相似”的假定.相似比较没有解析各种族基因间的进化关系,如趋同和趋异、重复(duplication)、基因缺失(genelose)、基因水平转移(genehorizontaltransfer)等.由于其具有大通量与自动化的优势,与线虫基因组测序同期完成的线虫与酵母之间的直系同源体的搜索[14]仍然采用这种方案.为减少错误,实际运用中作了改进:设立了几个同源性指标等级,如P值从10-100到10-10之间有4档,另外还有同源区域的长度比例条件.这样包含了一对多、多对多的直系同源关系,部分改善了最高相似法的结果,但没有从根本上解决问题.
2 2 序列模体搜索
序列模体搜索的是查找序列上的局部特征.在序列整体同源性不明显的情况下,模体搜索可以提高功能预测的灵敏度,模体分析一般由两部分组成:首先收集现有的蛋白质家族,通过蛋白质家族各成员的多重联配来构造模体数据库,而后通过搜索该数据库预测未知蛋白质的功能.典型的模体数据库有Prosite[15]等.越来越多的事实表明,模体本身具有层次性,在一个蛋白质家族具有相同的模体的情况下,亚家族可能具有各自特异的模体,它们与功能的联系更为特异[16].而目前现有的模体库在制作时没有深入考虑进化关系,其形成的模体往往不是功能特异的.这成为用模体搜索法作基因组功能注释的最大障碍.
2 3 COG方法
Tatusov等[12]的COG方法是在基因组水平上找寻直系同源体,从而预测未知ORF的生物学功能,所谓直系同源(ortholog)是指不同物种中由同一个祖先基因特化而来的对应基因,相应旁系同源(paralog)是指基因组内基因复制形成的多个基因[17].一般而言,直系同源之间保持了同样的功能,旁系同源则进化出不同的功能.因此确定直系同源对功能注释的可靠性很重要.COG的构建者提出了三项考核标准,即A基因组的某个基因a是B基因组中基因b的直系同源需满足:第一,a是b在A基因组中同源性最高的基因;第二,若C基因组与B基因组在系统发育树上的距离大于A到B的距离,c是b在C基因组中同源性最高的基因,则要求ab之间的同源性好于cb之间的同源性;第三,ab的同源区域大于各序列长度的60%.若三条件在ab互换时也成立,则ab两基因互为直系同源.他们以7种全基因组序列已知的生物为对象,用BLAST交错搜寻,构造出720个COG,由于“直系同源=功能相似”比“同源=功能相似”更接近于生物学的客观实际,从而可以将功能信息从COG的一个成员传递到COG中其他功能未知的成员.该方法充分利用了全基因组已知的优势,大大提高了功能注释的准确度.目前其考察的基因组已扩大到8个.
2 4 进化分析方法
最近,COG方法也面临挑战.COG的核心即直系同源的判断方法仍在序列相似性比较的框架内.Eisen[18]主张用较为严格的进化分析的方法划分直系同源.具体方案是:先找寻同源性为基础的蛋白质家族,再用进化分析方法将其分为亚家族,并用亚家族中已知蛋白质的功能描述注释该亚家族中功能未知的成员.由于基因树与物种进化关系形成的种族树之间常有矛盾,Page等[19]发展了和谐树———“RECONCILEDTREE”方法来识别基因重复与基因丢失等进化事件.和谐树反映了基因在基因组载体上的进化历程(图1).进化分析的范围可以从单个基因组扩大到具有不同系统发育位置的多个基因组.进化分析方法涉及的分析工具较多,无法自动化操作,难以实现高通量的功能注释.图1 基因树、种族树与和谐树图中基因树与种族树是不和谐的.若引入一次基因重复(R)和四次基因丢失(L)则构成和谐树.a~d:表示基因;A~D:表示各种族.
2 5 进化印记搜索
在上述方案的基础上,我们研究小组发展出一种利用生物分子进化印记———直系同源体特异的模体注释基因组功能的简便与有效的方案[20].该方案综合了进化分析的准确与模体搜索的快速的特点,对5个家族检验获得初步成功,显示出该方案具有潜在的优势.
2 6 亚细胞定位
蛋白质的功能与其亚细胞定位密切相关.蛋白质序列分析有助于推测亚细胞定位.而亚细胞定位所提供的信息往往可以在同源性分析得出的结果模棱两可时起到“一锤定音”的效果.目前预测未知蛋白质的亚细胞定位的方法主要是从蛋白质的氨基酸组成出发.Reinhardt等[21]将蛋白质按来源分为真核、原核两大类,用神经网络法根据蛋白质的氨基酸组成来判断该蛋白的亚细胞定位,结果比较好,其中原核生物蛋白质的定位准确率达到81%.Andrade等[22]指出用整个蛋白质的氨基酸组成显得比较粗糙,决定蛋白质亚细胞定位的主要因素是蛋白质表面氨基酸的性质.他们用主成分分析法研究蛋白质在核内、胞质、胞外的分布,总准确率高于前一种方法.
2 7 结构基因组
结构基因组学的兴起使得三维结构模建和结构类的识别成为基因组功能注释的一个重要方面.越来越多的例子表明,同样的三维结构可以由很不相似的序列折叠而成,而三维结构尤其是关键部分的三维结构是决定蛋白质生物学功能的基础.如果能够模拟出未知基因的蛋白质产物的三维结构,就可以根据结构与功能的关系作出功能注释.由于目前从头预测三维结构尚难达到实际应用的程度,而同源模建要求有一定程度的序列同源性的模板蛋白,所以很多未知ORF的蛋白质产物无法模建出可信度高的结构.在这种情况下结构类的识别较有实际意义.由于结构类与蛋白质超家族有对应关系,故可根据蛋白质所属的超家族对其功能作出初步的推测.目前的结构类识别方法研究的热点领域是“穿线”法———Threading[23].有若干研究小组正通过实验与模拟方法系统地分析基因组上所有基因产物的空间结构,因此赋予结构基因组学以新的含义.类似于序列模体的概念,由蛋白质特定区域形成的空间上的三维模体得到越来越多的重视,三维模体搜索方法发展得很快[24],有望成为一种新的功能注释的信息来源.进一步,结构基因组学的研究可以深入探求蛋白质为何具有特定的生物学功能.Bryant等给出了一个实例[25].PTEN基因编码一个403个氨基酸残基的蛋白质,已有文献报道其123、124、129位的突变可能导致Cowden病.由于其结构尚未解出,不能理解致病机制.用BLAST搜索,找不到具有已知结构的同源序列.他们用“同源”的可传递性找到PTEN的一个有结构信息的同源蛋白Cdc14b2,其PDB编号为1VHR,编码一个磷酸酶.通过“穿线”法作出序列———结构联配.比较之后,发现PTEN124位的半胱氨酸与1VHR磷酸酶活性位点的半胱氨酸对应.而1VHR该位点突变为丝氨酸会破坏其磷酸酶活性.由此推断PTEN该位点突变为精氨酸导致Cowden病的机制也是磷酸酶的活性的破坏.
2 8 蛋白质组
蛋白质组是生命状态的直接体现,随发育阶段、特定组织甚至所处的环境的变迁而变化,反映了蛋白质后加工等作用,蕴藏着巨量的动态的生命活动信息[26].序列分析难以处理的没有任何同源序列的“孤儿”基因,有望从蛋白质组的表达变化规律中找到其生物学功能的线索,进而揭示出它在整个功能网络中的地位[27].目前,蛋白质组的核心技术2D Gel和质谱分析发展很快,可以一次分离几千甚至上万蛋白质点和鉴定出翻译后加工的机制.随着蛋白质组技术的日益成熟,其不仅可以作为现有功能注释的鉴定和补充,甚至可以独立地完成基因组的功能注释.
3 基因组功能注释的展望
随着基因组序列数据的积累和生物信息学的飞速发展,将会有更灵敏、更有效的算法出现,功能注释的可靠性会不断提高,范围会不断扩大.随着完整基因组数量的增加,比较基因组学也将提供更多的生物进化历程的信息. 我们认为,基因组功能注释有几个值得重视的方向.a 非编码区的功能注释.由于目前测定的基因组多是单细胞原核生物,非编码区比例很小,所以研究工作相对较少.而高等真核生物基因组的90%以上是非编码区.其中有很多是具有生物学功能意义的片段,它们对于全面理解基因组功能,尤其是了解各相关基因之间的调控关系是不可缺少的.随着多细胞真核生物的基因组序列的出现,可以预计,非编码区的功能注释将成为新的热点.b 人类物理图谱、基因图谱的利用.1998年10月23日出版的《Science》的基因组专辑发表了国际上几个知名研究机构共同努力完成的包含人3万个基因的物理图[28],准确度比以往提高了2~3倍.通过这张图,可以将功能注释与基因定位数据联系起来,再通过OMIM(人遗传疾病表型)等数据库查询临床表型.这具有非常重大的理论和实际意义.在以上各分析方法的基础上,今后的基因组功能注释将向更高层次发展,即确定所有基因组成分在生物体功能网络上的地位,并进而从根本上沟通基因型与表型,即整体生物学.完整的生物学功能是在生化途径(biochemicalpathway)例如代谢途径、调控途径等中体现出来的.Karp等[29]制作的大肠杆菌的完整代谢图谱———ECOCYC就是一个典型代表.日本京都大学的Bono等[30]重建了E.coli,H.influenzae等5种全基因组已测定的微生物的20种氨基酸的代谢途径.在这个过程中,一些原来没有功能信息或标定错误的ORF得到了正确的功能描述.他们将陆续积累的研究结果以超文本形式发放到INTERNET上,取名KEGG(KyotoEncyclopediaofGenesandGenomes).目前已发展到9 0版.今后此类研究将引起更大的关注.表1中列出了目前互联网上有关基因组功能注释的一些WWW站点地址.

全部评论 (0)

还没有任何评论哟~