生物信息学_分子数据库(三)蛋白质数据库
蛋白质的空间结构是其发挥功能的关键基础,因此蛋白质同时拥有序列和结构数据库
蛋白质序列数据库
蛋白质序列数据库有很多,如SwissProt,TrEMBL,Pir等。
Pir是世界上第一个具有分类和功能注释的蛋白质序列数据库。
SwissProt包含来自EMBL的翻译蛋白质序列,并经人工校对与注释处理,其重复率较低。
针对人工注释速度较慢的问题
UniProt数据库
通过汇编SwissProt、TrEMBL和Pir三个数据库的资源,我们开发出了一个通用蛋白质数据库。
UniProt分为三层:
- UniParc
因为蛋白质序列存在冗余,在处理过程中将相同序列的归并为单一的一条,并赋予每条序列一个独特的编号。
- UniRef
通过优化检索机制,在UniParc内对序列按照预设的标准进行分类处理,并剔除重复数据以提高搜索效率。
- UniProtKB
将分为UniRef/TrEMBL和UniRef/SwissProt的两个类别,并为其提供详细的序列信息
蛋白质结构数据库
蛋白质空间结构
一级:组成蛋白质的氨基酸序列。
二级:由氨基酸序列在空间构成的有规律的结构,一般依靠氢键,疏水键等非共价键维持空间结构,如α螺旋,β折叠。
结构域:介于二级和三级结构之间,蛋白质上的功能区域。
三级:在二级基础上经过进一步弯曲折叠形成的结构。
四级:单体蛋白通过非共价键结合形成的聚合体。

PDB数据库
PDB用于记录蛋白质分子空间结构所含的原子坐标数据。所获得的数据主要源自X射线衍射等技术手段。
PDB通过文本形式保存数据以便于查阅相关文献,并与RasMol、MBT和JSmol等结构模型显示软件集成以便于查看三维结构。
蛋白质结构家族分类数据库
相较于序列而言,在进化过程中蛋白质的结构表现得更为稳定;具有相同特征的结构家族之间的亲缘关系更为可信;这些家族成员的功能通常具有高度的一致性;从而能够推导出它们的功能关联性。
蛋白质结构家族分类数据库主要由:SCOP,CATH,FSSP。
SCOP(人工分类)
CATH(半自动分类)
蛋白质组
基因组 转录组 蛋白质组
基因组:构成完整生物体的全部DNA。
转录组:一个基因组表达的全部RNA。
蛋白质组:一个基因组表达的全部蛋白质。
蛋白质组随着时间而变化,并且蛋白质组因为选择性剪切和翻译后修饰等存在,蛋白质组总是多于基因组的基因数目。
