Advertisement

生物信息学数据库分类

阅读量:

生物信息学数据库

在这里插入图片描述

(一)文献数据库

PubMed is a database containing over 260,000 biomedical literature, originating from MEDLINE, which is the database of biomedical literature, journals in life sciences, and online professional books. Link: PubMed (nih.gov).

PubMed存在的问题

(1)搜索1995年前文献中排名位置用于确定后续研究者
(2)搜索1976年以前的文献摘要缺失
(3)1965年前的文献较为困难获取

(二)一级核酸数据库

GenBank 由美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)创建于1980年代初作为大型开放获取的DNA序列数据库。该系统主要收集基于公共资源中的序列数据,并通过接受科研人员直接提交的数据以及参与基因组测序计划获取最新成果来实现这一目标。为了确保尽可能全面地收集和存储这些数据,《GenBank》与其他两大重要国际数据库——欧洲分子生物学研究资料库( European Molecular Biology Organization ,EMBL)下的欧洲DNA资料库( European DNA Database ,DDBJ)以及日本全国生物有机化学资料中心( Japan National Genomic Information Center ,JNGIC)——共同形成了国际核酸序列资料库合作联盟 (International Nucleotide Sequence Databases Collaboration (INSDC)。联盟成员每天都会进行实时更新与整合工作以保证数据最新性与完整性。更多信息可通过访问地址 GenBank Overview (nih.gov)查阅

ENA:自欧洲分子生物学研究室自1980年代初起负责开发和维护的欧洲核苷酸序列数据库(European Nucleotide Archive, ENA),这是一个国际性的重要生命科学数据资源平台。

3、DDBJ:DDBJ

DDBJ名为日本DNA数据库(正式名称:DNA Data Bank of Japan),设立于日本国家遗传学研究所,并负责运营该数据库。

以上三个数据库共同构成国际核酸序列数据库合作联盟(International Nucleotide Sequence Database Collaboration, INSDC)。亦即该数据库的信息可实现互通共享,并能同步更新维护。INSDC:International Nucleotide Sequence Database Collaboration

(三)、二级核酸数据库

二级核酸数据库所包含的内容十分丰富。经常涉及的几个数据库包括:由NCBI下属的RefSeq项目提供的RefSeq数据集、dbEST项目的 EST sequences数据集以及Gene组学数据库。

The RefSeq database: a reference sequence database, which is composed of non-redundant sequences selected through automated and manual processes, encompassing genomic, transcriptomic, and proteomic sequences.

基于 EST 数据库而言,dbEST 是一个专门用于存储 expressed sequence tags (ESTs) 的信息库。

Gene数据库是一个专为研究者提供的在线资源。它专门提供了基因序列注释与检索功能,并涵盖超过5,300个物种共计4,3百万条基因记录的信息。

ncRAdb:一个长非编码RNA数据库(lncRNA database),它提供了关于长非编码RNAs(long non-coding RNAs)的序列数据及其功能特性。该数据库整合了起源于99种细菌、原核生物以及真核生物共计约3万条长非编码RNA序列数据

该资源的详细信息可访问以下链接:http://biobases.ibch.poznan.pl/ncRNA/

miRBase:主要用于存储已公开发布的microRNA序列及其相关注释信息。该系统能够系统地分析microRNA在其基因组中的定位位置以及深入挖掘各微RNA之间的相互作用关系。

miRBase链接: http://www.mirbase.org/

(四)一级蛋白质序列数据库

1、UniPort数据库 ,链接:UniProt

swissprot :人工注释,注释可信度高、冗余度小

TrEMBL :计算机注释,包含为蛋白质编码的核酸序列的所有翻译产物

PIR:涵盖基因组学、蛋白质组学以及系统生物学研究的整合型共享生物信息学数据库

UniParc :收录所有UniPort数据库子库中的蛋白质序列,量大,粗糙

UniRef :归纳UniPort几个主要数据库并将重复序列去除后的数据库

UniProtKB :有详细注释并与其他数据库有链接的数据库

(五)一级蛋白质结构数据库

PDB即为蛋白质结构数据库(简称PDB),它是全球仅有的专门存储生物大分子三维(3D)结构的数据库。此外还包含单体核酸以及两者结合形成的复合体。仅凭实验手段获取的数据才能被收录。
链接:RCSB PDB: Homepage

(六)二级蛋白质数据库

Pfam集合:Pfam系统是由众多蛋白质结构域组成的集合体,并包含了大约16,000个不同的蛋白质家族。

CATH 是一种专门用于结构分类的数据库。基于各特定区域在空间上的分布特点, 可以将相应区域进行归类处理。该数据库包含四种层次的细分体系: 第一层细分为 protein classes (标记为 C), 第二层分为 protein architectures (标记为 A), 第三层划分为 protein topologies (标记为 T), 最后一层则依据 homologous superfamily (标记为 H) 对其进行划分

3、SCOP2 作为专门的蛋白质结构分类数据库,在其知识库中系统性地阐述了已知蛋白质结构及其所涉及的关键进化事件和功能特性之间的相互作用关系。通过将基于序列相似性的树状层次体系拓展为一种无回路的单向网络架构,SCOP2实现了对蛋白质家族动态演化的精确建模

(七)专项数据库

KEGG 是京都基因与基因组百科全书(KEGG),它涵盖了基因、蛋白质、生化反应及通路等领域的知识,并以多个子库的形式构建了一个全面的生物信息资源系统

OMIM 是一个在线人类孟德尔遗传数据库(OMIM),专门记录各类人类遗传病,并通过分类记录功能将各类遗传病与相应的基因组数据库关联起来

全部评论 (0)

还没有任何评论哟~