生物信息学初学——山大公开课笔记
2019年8月20日,南京闷热
课程内容
生物数据库;序列比较;分子进化系统发生;蛋白质结构预测与分析;基因组学与蛋白组学;序列算法;统计基础;数据挖掘;编程基础与网页制作
生物信息学研究对象
核酸
测序及应用;基因序列注释;基因预测;核酸序列比对;核酸数据库;比较基因组学;宏基因组学;基因进化;RNA结构预测;等
蛋白质
蛋白质数据库;蛋白质序列比对;二/三级结构预测;相互作用分析;分子动力学模拟;分子对接;蛋白质组学;等
其他
代谢网络模拟;数据挖掘分析;序列算法开发;计算进化生物学;生物多样性研究;等
课程提纲
生物数据库 序列比较 分子进化系统发生 蛋白质结构预测与分析 基因组学和蛋白组学 序列算法 统计基础 数据挖掘 编程基础及网页制作
第一节:生物数据库
Nucleic Acids Research中有NAR Database Summary Paper Category List 2015年底累计收录数据库1685个,世界上大约超过2000个,但不一定都是活的。
分类
-
核酸数据库:
一级数据库:直接测序获得的,或衍射获得的结构数据库(NCBI GenBank;EMBL ENA;Ensenbl;DDBJ;等)
二级数据库:由一级数据库加工分析后(WormBase;FlyBase;UniGene) -
蛋白质数据库:
一级数据库:蛋白质序列/结构数据库(Swissprot;TrEMBL;PDB;PIR)
二级数据库:CATH;STRING;SCOP;PRINTS;Pfam;proSite -
专用数据库:ZINC;KFLGG;PubMed;OMIM
第二节:文献数据库PubMed(生物医学文献,来源于MEDLINE、生命科学领域学术杂志及在线专业书籍)
Pubmed ID:
Date——DP;Title——TI;Page——PG;Abstract——AB;Laboratory address——AD;Authors——AU
搜索:dUTPase [TI\AB] Beijing [AD]
Advance
使用“”使词语作为整体;使用AND,OR,NOT,e.g.: dUTPase[TI] AND bacteria[TI] NOT Smith[AU]
第三节:一级核酸数据库
国际核酸序列数据库(INSDC)三大核酸数据库:几乎拥有相同的数据
NCBI GenBank:美国国家生物技术信息中心(NCBI)隶属于美国国立卫生研究院(NIH)
NCBI中的Nucleotide即为GenBank数据库;
GenBank中包含的一个序列的具体信息如下:
一、原核基因 :
(1)LOCUS: 基因座名、核酸序列长度、分子类别、拓扑类型、更新日期
(2)DEFINITION: 简短定义
(3)ACCESSION: 检索号(在数据库中是唯一且不变的,ACCESSION与LOCUS不一定相同)可理解为LOCUS是一个同学的真实姓名,ACCESSION是学号,同一个学生在不同学校中有不同的学号,而学生姓名是唯一的。
(4)VERSION: “检索号.版本号”,在数据库中,若某条序列的数据发生改变,即使是单碱基的改变,它的版本号都将增加,而检索号保持不变。
(5)KEYWORDS: 用于关键词搜索
(6)SOURCE: 基因序列所属物种的俗名
(7)REFERENCE: 基因序列来源的科学文献
(8)COMMENT: 自由撰写的内容
(9)FEATURES: 描述核酸序列中各个已确定的片段区域,包含很多子条目,如来源(source),启动子(promoter)等
CDS(Coding Segment):
/protein_id: 该蛋白质序列在各种蛋白数据库中对应的检索号。
/translation=“MKK…”(是计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列,不是实验真实获得)
(10)ORIGIN: 核酸序列,以“//”作为整条记录的结束符
二、真核基因 :
一个完整的基因是被分成若干片段,分别储存在数据库中的,
SEGMENT 2 of 4 (一共需要四个片段,一个片段对应一条数据库记录,才能拼凑出一个完整的基因。当前这条记录是所有四个片段里的第二个,一个片段里可能包含不止一个外显子。)
FEATURES
gene 指出拼出完整基因所需的所有四个片段的检索号,以及具体位置。
mRNA 指出所有外显子在四个片段中的具体位置,串联起来就是成熟mRNA
ENA:欧洲核苷酸序列数据集(ENA)有欧洲分子生物学研究室(EMBL)维护
查看人的基因组:
- 人的基因组有33亿碱基分布在23个染色体上。
- 已获得人的全基因组序列
- 添加注释,做一个详细的FEATURES表
Ensemble:欧洲生物信息学研究所(EBI)和英国桑格研究院(Sanger Institute)合作开发。收录了各种动物基因组,特别是与人类亲缘关系近的动物(脊椎动物)。这些基因组的注释都是通过配套开发的软件自动添加的。
Human基因组数据是2013年重测序获得的


点击view karyotype查看染色体

JCVI微生物宏基因组数据库 http://www.jcvi.org/
美国基因组研究所(TIGR)致力于微生物基因组的研究,也有部分植物基因组项目。它是J.Craig Venter Institute的一部分,自1995年成立之初,至今已拥有超过700个基因组。TIGR是NCBI基因组资源的有力补充,不仅拥有已完成测序的基因组,还有测序中的基因组信息。
Comprehensive Microbial Resource(CMR) : 开放的微生物基因组信息库(几年前下线了)
HMP(Human Microbiome Project, HMP) :由美国国立卫生研究所(NIH)建立的人类微生物组学计划,包括人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。
NIH的HMP由四个测序中心共同完成。
DDBJ:日本DNA数据库,有日本国立遗传学研究所维护(NIG)
第四节:二级核酸数据库
NCBI下属的三个数据库:
RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录组序列和蛋白质序列。
dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(EST)
Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录。
ncRNAdb: 提供非编码RNA的序列和功能信息。包含来源于99种细菌,古细菌和真核生物的3万多条序列 http://biobases.ibch.poznan.pl/ncRNA/
miBase: 已发表的microRNA序列和注释。可分析microRNA在基因组中的定位和挖掘microRNA序列间的关系。
http://www.mirbase.org/
