蛋白质SCOP数据库介绍
SCOP(Structural Classification of Proteins)数据集与CATH数据集是两个广受欢迎的蛋白质结构分类系统。这些系统采用多样化的策略对现有蛋白质三维结构进行分类。这些系统有助于促进研究人员对蛋白质进化联系及其功能的理解。
SCOP数据库简介 SCOP| Structural Classification of Proteins
SCOP(Structural Classification of Proteins)是以蛋白质三维结构为基础的手工分类系统。该系统由研究者根据蛋白质结构的相似性与进化关系进行人工搭建
- Family (家庭):主要根据蛋白质序列高度相似的原则将具有类似结构与功能的蛋白质归为一类。
- Superfamily (超级家庭):即使其序列相似程度较低的情况下仍可推断具有共同进化背景的蛋白质结构会被归入同一个超级家庭。
- Domain (领域):在SCOP系统中所划分的基本单元,在此单元内既能在空间中独立折叠又具备特定功能的部分。
- Hierarchy (层级系统):从细节到宏观层面分为四个层次:家庭、超级家庭、折叠类型以及等级分类。
SCOP定期自动更新一次是为了基于结构与功能的相似性来进行更加细致地分类蛋白质。
CATH数据库简介 CATH: Protein Structure Classification Database at UCL
CATH数据库也对蛋白质进行分类,并融合了 automation 和 manual adjustment methods. CATH的分类系统主要依据 structural domain levels, 其层次结构如下:
- C类:由蛋白质的二级结构单元构成,在生物体内主要以α螺旋和β折叠的形式存在。
- A类:描述蛋白质结构域的整体形状特征。
- T类:通过连接特定类型的二级结构单元形成特定拓扑模式。
- H类:根据共同演化起源对具有相同祖先特征的蛋白质进行系统性分类。
CATH采用了自动算法(如DALI和SSAP)来进行类似蛋白质结构的鉴别工作,在完成自动化分析后由专业人员进行人工校正与确认工作。因此相对于SCOP而言,在处理数据量方面具有显著优势。
SCOP和CATH的区别
分类依据 :
SCOP更加注重进化关系,在分类过程中强调蛋白质的进化起源,并以手工分析为主;CATH则更加结合了自动化工具,并特别关注结构域的几何特性,在通过自动算法来识别蛋白质结构方面具有显著优势。
分类层次 :
SCOP采用层级划分方法,涵盖家族、超家族以及折叠等维度,并侧重于进化关系;而CATH则分为四个层次,在除了进化层面的基础上也注重几何特性。
更新策略:SCOP主要基于定时定时人工专家维护更新操作(效率较低),而CATH则融合了自动化的改进与人工干预(效率更高),能够处理容量更大的数据集
应用场景 :
SCOP专为深入探索生物进化历史而设计,在研究同源蛋白时表现出色;CATH则被广泛应用在蛋白质结构预测领域,并能够高效处理复杂的结构比较任务。
总体而言,在蛋白质结构研究领域中,SCOP与CATH分别提供了独特的分类视角。具体而言,在这一领域中,SCOP侧重于进化过程与功能特性;而CATH则专注于基于几何形状的自动分类方法。值得注意的是,在揭示蛋白质结构及其功能关联方面,“它们之间存在协同效应,在揭示蛋白质结构及其功能关联方面具有重要意义。”
