2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
-
·学习目标
-
定义分子数据库的类型
-
定义索引编号和RefSeq标识符的意义
-
描述主要的基因组浏览器和使用它们来研究基因组区域的特点;
-
-
利用数据分析方法研究单一生物分子(如基因或蛋白质)及其大量同源体和相关蛋白的信息
-
2.1 生物信息学知识入门
-
当前状况下, 全球已建成拥有超过百terabytes (约一百万亿, 即约> ¹⁰¹⁷至4×¹⁰¹⁷) DNA碱基对的数据量, 并将这一规模迅速扩展至超 petabytes (十万亿级)水平, 即超过> ¹⁰¹⁸碱基对。这些数据源自超过30万个物种群体。本章旨在介绍如何建立和管理大型生物信息数据库的方法与技术, 同时阐述从这些库中提取有价值信息的关键方法。
-
2.2 建立大型生物序列数据库
-
International Nucleotide Sequence Database (INSDC)

* GenBank数据库
* 欧洲分子生物学实验室-核苷酸序列存储数据库(EMBL-Bank)
* 日本DNA数据库(DDBJ)
* DNA序列在三大数据库之间共享

* 个数据存储库的DNA序列的增长

* SRA目前的DNA碱基个数是GenBank和WGS数据库的3000多倍。(2015年2月)
* DNA碱基对单位

* 文件大小范围及案例

-
2.3 DNA、RNA与蛋白质数据库
-
GenBank
- 涵盖大多数已知公开的DNA序列与蛋白质序列(不包括二代测序数据)的一个公共资料库;并提供相关的文献资料及生物注释信息;其相关基因组数据可通过NCBI免费访问。
-
GenBank、EMBL-Bank和DDBJ作为重要的生命科学数据库,在生物多样性研究领域具有重要地位。
- 收录了多达31万多种生物的数据,并且每月还会新增超过1000种生物的相关信息。(Benson等, 2015)
-
在分类学研究中具有重要价值的代表性数据库。

* GenBank中十大测序最多物种

- GenBank、EMBL-Bank 和 DDBJ 分别包含 DNA、RNA 和蛋白质序列数据
- 这三个生物大分子的序列分别储存在不同的数据库中,并且每个数据库内部还采用多种展示形式
- 通过生物中心法则的角度来看待这些分布在不同数据库中的数据

大型基因组数据库
单个基因通常由一段特定的DNA序列构成,并包含调控区、编码蛋白质的外显子以及内含子。
人类基因通常在10到100kb之间。
- 基因组层次的数据:特定位置标记(STSs)
- 这些特定位置标记长度约为500bp,并且能够提取或获取DNA序列信息以及图谱特征的关键特征标记。
DNA层面数据:基于基因组检测的序列(GSSs)。
GSS部分包含以下几类数据类型:具有随机性的一次性基因组测序序列。
* 粘粒、BAC、YAC末端序列
* 外显子捕捉的基因组序列
* Alu聚合酶链反应(PCR)序列
-
DNA层面数据:大规模全基因组测序数据(HTGs)
-
为了迅速获取当前‘尚未完成’的基因组序列数据而建立了HTGS数据库。该数据库记录了由高通量测序中心通过测序生成的未完成的大规模全基因组序列数据。
-
RNA 数据
- RNA 层面数据:位于该层面的数据由与相应表达基因配对生成的 cDNA 构成
-
负责存储该转化过程中的互补 DNA 序列
-
RNA层面上:expressed sequence tags (ESTs)
-
表达序列标签数据库(dbEST) is a sub库 of the GenBank database. It collects cDNA sequence data and associated information from multiple species' single-read测序. Each EST represents a portion of the DNA sequence within a cDNA clone.
-
表达序列标签作为一个特定的cDNA文库中得到的一段cDNA序列。
-
目前GenBank把EST分成三大类:人类、小鼠和其他生物。
-

- RNA层面的数据:UniGene系统(特异基因数据库)
- UniGene项目的目的是将 EST 数据自动分类为不溶性集合从而构建基因源簇 最终每个物种的每个基因都对应一个UniGene簇
- 当前已涵盖142个物种及其19个主要类群

- UniGene簇作为一个基因的数据库条目*

从理论上讲,在人类基因组数据库中(GenBank)共有约2.7万个非同源开放阅读框(ORF),而这些ORF的分布并不均匀。大多数ORF的转录活性较低。从理论上讲,在 UniGene build 235版本中, 约有64,987个人类 UniGene 簇仅有1个 EST 数据支持, 而约有1万多个 UniGene 簇仅有来自少数几个 EST 的少量数据支持
-
在cDNA合成过程中被转录的部分并不直接对应真实转录本,在此过程中可能包含来自克隆体内的额外产物。
-
一个基因可能被多个UniGene所对应。在完成全基因组测序之后,在一定范围内 UniGene 会聚集在一起,这将导致 UniGene 的数量随着时间推移逐步减少。
-
蛋白质数据库
- NCBI中的蛋白数据馆整合了来自GenBank转录的编码区域,并融合了其他外部蛋白序列库如UniProt、PIR、SWISS_PROT等。EBI则通过这些核心蛋白数据馆提供了丰富的蛋白信息。
- 该系统为研究者提供了一个高效可靠的蛋白信息检索平台。
-
Universal Protein Knowledge Base (UniProt)
-
最权威且涵盖最为全面的蛋白质序列数据库
- Swiss-Prot
-
其中以详尽的注释著称
-
TrEMBL
- 提供Swiss-Prot没有收录的蛋白质的自动化注释
-
Protein Sequence Database
- 另一个由专家注释的蛋白质数据库
-
-
- Swiss-Prot
-
UniProt分为三层数据层次
- UniProtKB
- 主要包含手动标注和自动标注内容
- UniProtKB
-
UniProt Reference Clusters * * 基于UniProtKB构建的非冗余参考簇集合中包括能够分别达到50%、90%和100%序列一致性水平的UniRef簇成员。
-
UniProtArchive * * 是一个可靠且去重的蛋白质序列存储库;它提供多源支持以确保数据的一致性。
-
生物信息学领域核心数据库:NCBI及其重要资源库中的丰富数据与EBI。
-
PubMed作为一个重要的在线医学资源平台,则拥有超过2400万条文献索引以及众多优质在线期刊的访问入口。
-
Entrez
-
整合科学文献、DNA数据库以及蛋白质序列与三维结构数据,并构建一个紧密集成的系统。
-
BLAST
- 序列相似性搜索工具
-
OMIM
- 人类基因和遗传疾病的目录
-
Taxonomy
-
-
-
包含了生物的主要分类浏览器,提供一系列分类信息

-
Structure * 本系统提供了一个专门针对复杂结构的大数据分析平台。该平台整合了立体模型呈现功能和对比分析功能。
* EBI重要资源- 拥有6个核心分子数据库
-
EMBL-Bank
- DNA、RNA序列数据库
-
Swiss-Prot和TrEMBL
- 蛋白质数据库
-
MSD
- 蛋白质结构数据库
-
Ensemble
- 基因组浏览器
-
ArrayExpress
- 基因表达数据库
-
- 拥有6个核心分子数据库
-
Ensemble
- 成立于1999年,则专注于标注人类基因组,并已标注了70多种脊椎动物。
