【MOOC-生物信息学-生物数据库】
 发布时间 
 阅读量: 
 阅读量 
一、为什么需要生物数据库
构建?No!使用?Yes!
HIV病毒基因组:9752bp,编码9个基因;然而,人基因组:3,000,000,000bp……
生物数据库:系统地分类存储着海量生命科学数据。这些数据便于通过计算机系统高效获取,并且能够实现有效的管理和定期维护。
天文数字单位
| 中文名称 | 英文名称 | 10的几次方 | 常用 | 
|---|---|---|---|
| 尧 | yotta | 24 | |
| 泽 | zetta | 21 | |
| 艾 | exa | 18 | |
| 拍 | peta | 15 | |
| 太 | tetra | 12 | √ | 
| 吉 | giga | 9 | √ | 
| 兆 | mega | 6 | √ | 
| 千 | kilo | 3 | √ | 
| 百 | hecto | 2 | |
| 十 | deca | 1 | |
| 个 | mono | 0 | 
二、生物数据库的分类
生物数据库有多少?目前2000+!
著名期刊 Nucleic Acids Research(NAR)有生物数据库专刊
(内含 GenBank 和 PDB(Protein Data Bank)的最新版本数据库)

三、文献数据库—PubMed
链接:https://pubmed.ncbi.nlm.nih.gov
PubMed包含超过240万的生物医学文献。这些文献主要源自MEDLINE(生物医学文献数据库)、生命科学领域的学术期刊以及在线的专业书籍中。其中文献部分提供了大量完整的全文链接。
高级搜索1—利用索引
格式:搜索词+空格+[缩写1+缩写2+……]+空格+搜索词+空格+[缩写1+缩写2+……]+……
| 缩写 | 全称 | 
|---|---|
| PMID | Pubmed ID | 
| DP | Publication Date | 
| TI | Title | 
| PG | Page | 
| AB | Abstracts | 
| AD | Laboratory Address | 
| AU | Authors | 
高级搜索2—利用Advanced
无限添加条件
Tips
- 请在Markdown环境中使用双引号将相关关键词组合起来。
2. 请结合以下逻辑关系进行文献查找:
- 使用dUTPase [TI] 和 bacteria [TI]
- 不包含 Smith [AU]
3. 确保所有术语采用规范的缩写表示。
4. 请参考每篇文章对应的PubMed标识符。 
四、一级核酸数据库—GenBank
链接:https://www.ncbi.nlm.nih.gov


注释
| 词条 | 记录的内容 | 
|---|---|
| LOCUS | 基因座的名字、核酸序列长度、分子的类别、拓扑类型、更新日期 | 
| DEFINITION | 序列的简短定义,即标题 | 
| ACCESSION | 检索号(在数据库中是唯一且不变的,即使数据提交者改变数据内容) | 
| VERSION | 版本号(格式是“检索号.版本编号”) | 
| GI(GenInfo Identifier) | GI号(与版本号系统平行运行,一条序列改变后,将有新的GI号且版本号增加) | 
| KEYWORDS | 几个关键词描述该条目(可用于数据库搜索) | 
| SOURCE | 基因序列所属物种的俗名 | 
| ORGANISM | 对所属物种更详细的定义,包含科学分类 | 
| REFERENCE | 基因序列来源的文献(一条基因序列的不同片段可能来源于不同文献) | 
| COMMENT | 自由撰写内容(如:致谢、无法归入前面的内容) | 
| FEATURES | 核酸序列中各个已确定的片段区域(如:source,promotor) | 
| source | 核酸序列的来源 | 
| gene | 拼出完整基因所需片段的检索号以及具体位置、基因名字 | 
| mRNA | 所有外显子在片段中的具体位置 | 
| promoter | 启动子的位置 | 
| misc_feature | 杂项 | 
| RBS(Ribosome Binding Site) | 核糖体的结合位点 | 
| CDS(Coding Segment) | 编码区 | 
| sig_peptide | 编码用于亚细胞定位的信号肽的碱基位置 | 
| mat_peptide | 编码成熟的蛋白的碱基位置 | 
| exon | 当前序列所包含的外显子的位置及编号 | 
| ORIGIN | 核酸序列(以“//”作为整条记录的结束符) | 
关于LOCUS和ACCESSION
特别说明:此处为改写后的文本
关于链接
1.Fasta: DNA/RNA序列的fasta形式
2.Graphics:通过图表形式展示序列特征
3.Send+Creat File:如PubMed文献列表一样以纯文本格式完整保存一条记录
五、一级核酸数据库—Ensembl、JCVI
Ensembl—基因组数据库
http://www.ensembl.org
JCVI—微生物宏基因组数据库
http://www.jcvi.org
六、二级核酸数据库
RefSeq—参考序列数据库
https://www.ncbi.nlm.nih.gov/refseq
dbEST—表达序列标签数据库
https://www.ncbi.nlm.nih.gov/dbEST
Gene—提供基因序列注释和检索服务的数据库
https://www.ncbi.nlm.nih.gov/gene
ncRNA—非编码RNA数据库
http://biobases.ibch.poznan.pl/ncRNA
microRNA—已发表的microRNA序列和注释的数据库
http://www.mirbase.org
七、一级蛋白质序列数据库—UniProtKB
链接:https://www.uniprot.org


注释
| 词条 | 记录的内容 | 
|---|---|
| Entry | 检索号 | 
| Entry_Name | 检索名 | 
| Function | 蛋白质功能 | 
| Names & Taxonomy | 蛋白质的各种名称、所属物种及其分类学系谱 | 
| Subcellular location | 蛋白质亚细胞的定位 | 
| Pathology & Biotech | 蛋白质突变或缺失导致的疾病及表型 | 
| PTM() / Processing | 蛋白质翻译后修饰或加工的信息 | 
| Expression | 基因在mRNA/细胞中蛋白质水平上的表达或在不同器官组织中的表达 | 
| Interaction | 蛋白质之间的相互作用 | 
| Structure | 蛋白质二/三级结构 | 
| Family & Domains | 蛋白质家族及结构域 | 
| Sequences | 蛋白质的氨基酸序列 | 
| Cross-references | 其他含有该蛋白质信息的数据库链接 | 
| Publications | 有关这个蛋白质已发表的文献信息 | 
| Entry information | 有关这条数据库记录的录入信息、免责声明 | 
| Miscellaneous | 杂项 | 
| Similar proteins | 在UniRef数据库里找到与该蛋白质在序列水平上相似的其它蛋白质(相似度从高到低) | 
索引

八、一级蛋白质结构数据库—PDB
链接:http://www.rcsb.org
索引


九、二级蛋白质数据库—Pfam、CATH、SCOP2
Pfam—结构域家族数据库
http://pfam.xfam.org
CATH—结构分类数据库
http://www.cathdb.info
SCOP2—结构分类数据库
http://scop2.mrc-lmb.cam.ac.uk/
十、 专用数据库—KEGG、OMIM
KEGG—京都基因与基因组百科全书
https://www.genome.jp/kegg
OMIM—人类孟德尔遗传在线
https://www.omim.org
全部评论 (0)
 还没有任何评论哟~ 
