Advertisement

生物信息学_分子数据库(三)蛋白质数据库

阅读量:

蛋白质的空间结构是其发挥功能的关键基础,因此蛋白质同时拥有序列和结构数据库


蛋白质序列数据库

蛋白质序列数据库有很多,如SwissProt,TrEMBL,Pir等。

Pir是世界上第一个具有分类和功能注释的蛋白质序列数据库。

SwissProt包含来自EMBL的翻译蛋白质序列,并经人工校对与注释处理,其重复率较低。

针对人工注释速度较慢的问题

UniProt数据库

通过汇编SwissProt、TrEMBL和Pir三个数据库的资源,我们开发出了一个通用蛋白质数据库。

UniProt分为三层:

  • UniParc

因为蛋白质序列存在冗余,在处理过程中将相同序列的归并为单一的一条,并赋予每条序列一个独特的编号。

  • UniRef

通过优化检索机制,在UniParc内对序列按照预设的标准进行分类处理,并剔除重复数据以提高搜索效率。

  • UniProtKB

将分为UniRef/TrEMBL和UniRef/SwissProt的两个类别,并为其提供详细的序列信息


蛋白质结构数据库

蛋白质空间结构

一级:组成蛋白质的氨基酸序列。

二级:由氨基酸序列在空间构成的有规律的结构,一般依靠氢键,疏水键等非共价键维持空间结构,如α螺旋,β折叠。

结构域:介于二级和三级结构之间,蛋白质上的功能区域。

三级:在二级基础上经过进一步弯曲折叠形成的结构。

四级:单体蛋白通过非共价键结合形成的聚合体。

在这里插入图片描述

PDB数据库

PDB用于记录蛋白质分子空间结构所含的原子坐标数据。所获得的数据主要源自X射线衍射等技术手段。

PDB通过文本形式保存数据以便于查阅相关文献,并与RasMol、MBT和JSmol等结构模型显示软件集成以便于查看三维结构。

蛋白质结构家族分类数据库

相较于序列而言,在进化过程中蛋白质的结构表现得更为稳定;具有相同特征的结构家族之间的亲缘关系更为可信;这些家族成员的功能通常具有高度的一致性;从而能够推导出它们的功能关联性。

蛋白质结构家族分类数据库主要由:SCOP,CATH,FSSP。

SCOP(人工分类)

CATH(半自动分类)


蛋白质组

基因组 转录组 蛋白质组

基因组:构成完整生物体的全部DNA。

转录组:一个基因组表达的全部RNA。

蛋白质组:一个基因组表达的全部蛋白质。

蛋白质组随着时间而变化,并且蛋白质组因为选择性剪切和翻译后修饰等存在,蛋白质组总是多于基因组的基因数目。

全部评论 (0)

还没有任何评论哟~