Advertisement

【MOOC-生物信息学-生物数据库】

阅读量:

一、为什么需要生物数据库

构建?No!使用?Yes!

HIV病毒基因组:9752bp,编码9个基因;然而,人基因组:3,000,000,000bp……

生物数据库:系统地分类存储着海量生命科学数据。这些数据便于通过计算机系统高效获取,并且能够实现有效的管理和定期维护。

天文数字单位

中文名称 英文名称 10的几次方 常用
yotta 24
zetta 21
exa 18
peta 15
tetra 12
giga 9
mega 6
kilo 3
hecto 2
deca 1
mono 0

二、生物数据库的分类

生物数据库有多少?目前2000+!

著名期刊 Nucleic Acids Research(NAR)有生物数据库专刊
(内含 GenBank 和 PDB(Protein Data Bank)的最新版本数据库)
在这里插入图片描述

三、文献数据库—PubMed

链接:https://pubmed.ncbi.nlm.nih.gov

PubMed包含超过240万的生物医学文献。这些文献主要源自MEDLINE(生物医学文献数据库)、生命科学领域的学术期刊以及在线的专业书籍中。其中文献部分提供了大量完整的全文链接。

高级搜索1—利用索引

格式:搜索词+空格+[缩写1+缩写2+……]+空格+搜索词+空格+[缩写1+缩写2+……]+……

缩写 全称
PMID Pubmed ID
DP Publication Date
TI Title
PG Page
AB Abstracts
AD Laboratory Address
AU Authors
高级搜索2—利用Advanced

无限添加条件

Tips
  1. 请在Markdown环境中使用双引号将相关关键词组合起来。
    2. 请结合以下逻辑关系进行文献查找:
    - 使用dUTPase [TI] 和 bacteria [TI]
    - 不包含 Smith [AU]
    3. 确保所有术语采用规范的缩写表示。
    4. 请参考每篇文章对应的PubMed标识符。

四、一级核酸数据库—GenBank

链接:https://www.ncbi.nlm.nih.gov

在这里插入图片描述
在这里插入图片描述

注释

词条 记录的内容
LOCUS 基因座的名字、核酸序列长度、分子的类别、拓扑类型、更新日期
DEFINITION 序列的简短定义,即标题
ACCESSION 检索号(在数据库中是唯一且不变的,即使数据提交者改变数据内容)
VERSION 版本号(格式是“检索号.版本编号”)
GI(GenInfo Identifier) GI号(与版本号系统平行运行,一条序列改变后,将有新的GI号且版本号增加)
KEYWORDS 几个关键词描述该条目(可用于数据库搜索)
SOURCE 基因序列所属物种的俗名
ORGANISM 对所属物种更详细的定义,包含科学分类
REFERENCE 基因序列来源的文献(一条基因序列的不同片段可能来源于不同文献)
COMMENT 自由撰写内容(如:致谢、无法归入前面的内容)
FEATURES 核酸序列中各个已确定的片段区域(如:source,promotor)
source 核酸序列的来源
gene 拼出完整基因所需片段的检索号以及具体位置、基因名字
mRNA 所有外显子在片段中的具体位置
promoter 启动子的位置
misc_feature 杂项
RBS(Ribosome Binding Site) 核糖体的结合位点
CDS(Coding Segment) 编码区
sig_peptide 编码用于亚细胞定位的信号肽的碱基位置
mat_peptide 编码成熟的蛋白的碱基位置
exon 当前序列所包含的外显子的位置及编号
ORIGIN 核酸序列(以“//”作为整条记录的结束符)
关于LOCUS和ACCESSION

特别说明:此处为改写后的文本

关于链接

1.Fasta: DNA/RNA序列的fasta形式
2.Graphics:通过图表形式展示序列特征
3.Send+Creat File:如PubMed文献列表一样以纯文本格式完整保存一条记录

五、一级核酸数据库—Ensembl、JCVI

Ensembl—基因组数据库

http://www.ensembl.org

JCVI—微生物宏基因组数据库

http://www.jcvi.org

六、二级核酸数据库

RefSeq—参考序列数据库

https://www.ncbi.nlm.nih.gov/refseq

dbEST—表达序列标签数据库

https://www.ncbi.nlm.nih.gov/dbEST

Gene—提供基因序列注释和检索服务的数据库

https://www.ncbi.nlm.nih.gov/gene

ncRNA—非编码RNA数据库

http://biobases.ibch.poznan.pl/ncRNA

microRNA—已发表的microRNA序列和注释的数据库

http://www.mirbase.org

七、一级蛋白质序列数据库—UniProtKB

链接:https://www.uniprot.org

在这里插入图片描述
在这里插入图片描述

注释

词条 记录的内容
Entry 检索号
Entry_Name 检索名
Function 蛋白质功能
Names & Taxonomy 蛋白质的各种名称、所属物种及其分类学系谱
Subcellular location 蛋白质亚细胞的定位
Pathology & Biotech 蛋白质突变或缺失导致的疾病及表型
PTM() / Processing 蛋白质翻译后修饰或加工的信息
Expression 基因在mRNA/细胞中蛋白质水平上的表达或在不同器官组织中的表达
Interaction 蛋白质之间的相互作用
Structure 蛋白质二/三级结构
Family & Domains 蛋白质家族及结构域
Sequences 蛋白质的氨基酸序列
Cross-references 其他含有该蛋白质信息的数据库链接
Publications 有关这个蛋白质已发表的文献信息
Entry information 有关这条数据库记录的录入信息、免责声明
Miscellaneous 杂项
Similar proteins 在UniRef数据库里找到与该蛋白质在序列水平上相似的其它蛋白质(相似度从高到低)

索引

在这里插入图片描述

八、一级蛋白质结构数据库—PDB

链接:http://www.rcsb.org

索引

在这里插入图片描述
在这里插入图片描述

九、二级蛋白质数据库—Pfam、CATH、SCOP2

Pfam—结构域家族数据库

http://pfam.xfam.org

CATH—结构分类数据库

http://www.cathdb.info

SCOP2—结构分类数据库

http://scop2.mrc-lmb.cam.ac.uk/

十、 专用数据库—KEGG、OMIM

KEGG—京都基因与基因组百科全书

https://www.genome.jp/kegg

OMIM—人类孟德尔遗传在线

https://www.omim.org

全部评论 (0)

还没有任何评论哟~