【学习笔记】山东大学生物信息学-01 生物数据库
课程地址 :山东大学生物信息学
文章目录
- 一、生物数据库
 - 
- 
1.1 PubMed 文献数据库
 - 
1.2 一级核酸数据库
 - 
- 1.2.1 INSDC = Genbank + ENA + DDBJ
 - 1.2.2 基因组数据库 Ensemble
 - 1.2.3 微生物宏基因组数据库
 
 - 
1.3 二级核酸数据库
 - 
1.4 一级蛋白质序列数据库 UniProt
 - 
1.5 一级蛋白质结构数据库 PBD
 - 
1.6 二级蛋白质数据库 Pfam,CATH,SCOP2
 - 
1.7 专用数据库 KEGG,OMIM
 
 - 
 
一、生物数据库
1.1 PubMed 文献数据库
- PubMed 文献记录的内部结构
 - 按作者名 AU 搜索:Down [AU]
 - 按标题 TI 搜索:Down [TI]
 - 按实验室地址 AD 搜索:Down [AD]
 - 关于使用 PubMed 的几个小建议 :
使用引号(“down syndrome” )
使用逻辑词 AND, OR, NOT(dUTPase [T] AND bacteria [T] NOT Smith [AU])
使用正确的名字缩写 (“Abergel C”)
使用每篇文献唯一的 PubMed ID(PMID: 24933525) 
1.2 一级核酸数据库
1.2.1 INSDC = Genbank + ENA + DDBJ
- NCBI GenBank
 - ENA 欧洲核苷酸序列数据集
 - DDBJ 日本 DNA 数据库
 
- Genbank,ENA 与 DDBJ 共同构成国际核酸序列数据库合作联盟 (International Nucleotide Sequence Database Collaboration, INSDC)。通过 INSDC,三大核酸数据库的信息每日相互交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据。
 - 原核生物与真核生物基因的不同 :

 
GenBank
(1)原核生物核酸序列: Nucleotide 中搜索 X01714
LOCUS:基因名
ACCESSION:基因编号,唯一不变



FEATURES :描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源 (source),启动子 (promoter) 等。

* **source** :说明了核酸序列的来源,据此可以容易的分辨出该序列是来源于**克隆载体** 还是**基因组** 。当前序列(全长)来源于大肠杆菌的基因组 DNA。
* **promoter** :列出了启动子的位置。细菌有两个启动子区,一个 **-35 区** (5’-TTGACA-3’) 位置在第 286 个碱基到第 291 个碱基,一个 **-10 区** (5’-TATAAT-3’) 位置在第 310 个碱基到第 316 个碱基。
* **misc_feature**  
        
* **CDS** (Coding Segment) : 记录了一个 **ORF** ( open reading frame),从第 343 个碱基开始的 ATG(起始密码子)到第 798 个碱基结束的 TAA (结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。  
        
 


FASTA 格式 :
第一行,大于号 加名称或其它注释
第二行以后:序列,每行 60 个字母

Graphics :获得序列的图形概览

下载纯文本格式 (Flat File) 的数据库记录

(2)真核生物核酸序列 mRNA: Nucleotide 中搜索 dUTPase 的 成熟 mRNA 序列信息 U90223。
- 
注意看清 CDS 的 note 部分,这里编码的是线粒体型 的

 - 
CDS 和 mat_peptide 末尾差了 3 个碱基,因为 CDS 最后 3 个碱基是终止密码子,不翻译氨基酸。

(3)真核生物核酸序列 DNA: Nucleotide 中搜索 dUTPase 的 基因组 DNA 序列信息 AF018430。 - 
source / map

 - 
gene / mRNA

 - 
剪切后形成的 mRNA 有 2 种:
上面的 mRNA 多一个外显子,将被翻译成定位线粒体的信号肽 ,从而翻译出 线粒体型(mitochondrial form) 蛋白质。
下面没有信号肽的 mRNA 将被翻译成 细胞核型(nuclear form) 蛋白质。

 - 
exon :当前这个序列所包含的外显子的位置及编号。

 
1.2.2 基因组数据库 Ensemble
1.2.3 微生物宏基因组数据库
- 美国国立卫生研究所 (NIH) 建立了人类微生物组学计划 (Human Microbiome Project,HMP)。目前 HMP 主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。
 - Human Microbiome Project Data Portal
 
1.3 二级核酸数据库
- RefSeq 数据库:参考序列 数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。
 - dbEST 数据库:表达序列标签 数据库,包含来源于不同物种的表达序列标签 (EST)。
 - Gene 数据库:为用户提供基因序列注释和检索服务,收录了来自 5300 多个物种的 430 万条基因记录。
 - 非编码 RNA 数据库:ncRNA databases 汇总
 
1.4 一级蛋白质序列数据库 UniProt
- 
UniProt = Swiss-Prot + TrEMBL + PIR
 - 
UniProt 三个层次数据库 :
◆ UniParc : 收录所有 UniProt 数据库子库 中的蛋白质序列,量大,粗糙。
◆ UniRef : 归纳 UniProt 几个主要数据库并将重复序列去除后 的数据库。
◆ UniProtKB : 有详细注释 并与其他数据库有链接的数据库,分为 UniProtKB/Swiss-Prot (人工注释,reviewed) 和 UniProtKB/TrEMBL (计算机自动注释,not reviewed)。 
1.5 一级蛋白质结构数据库 PBD
● 蛋白质的结构可分为四级:
- 一级结构 Primary structure: 氨基酸序列
 - 二级结构 Secondary structure:周期性的结构构象,α 螺旋,β折叠等
 - 三级结构 Tertiary structure:整条多肽链的三维空间结构,3D 结构
 - 四级结构 Quaternary structure:几个蛋白质分子(亚基)形成的复合体,如四聚体
 
● 蛋白质结构数据库 (Protein Data Bank, PDB) 是全世界唯一存储生物大分子 3D 结构 的数据库。这些生物大分子除了蛋白质 以外还包括核酸 及两者的复合物 。只有通过实验方法 获得的 3D 结构才会被收入其中。目前 PDB 数据库每周更新一次,至今,PDB 收录的结构数据已超过十二万条,其中 90%以上为蛋白质结构。
- 
详见视频 :一级蛋白质结构数据库:PDB-01 P20
 - 
PDB ID :数据库检索号,一个结构对应一个 PBD ID ,而不是一个蛋白质对应一个 PBD ID。

 - 
PDB 文件注释解读 :一级蛋白质结构数据库:PDB-02 P21
 - 
PDB 文件 3D 展示 JSmal :一级蛋白质结构数据库:PDB-03 P22
 
1.6 二级蛋白质数据库 Pfam,CATH,SCOP2
- Pfam 数据库 是一个蛋白质结构域家族的集合。
 - CATH 数据库:结构分类 数据库。CATH-Gene3D 还为超过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测 。Gene3D 里的信息为绝大多数还未解析 3D 结构的蛋白质提供了重要的功能研究依据。
 - SCOP2 数据库:结构分类 数据库。更多考虑蛋白质的进化关系。SCOP2 分类基于四个层次:从顶部到底部分别为类 (Class)、家族 (Family)、超家族 (Super family) 和折叠 (Fold)。
 


