2020.11.3【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 下)
-
2.7 基因组浏览器
- 三个主流基因组浏览器:Ensemble、UCSC和NCBI
-
基因组组装
- 定义:
-
所采集的一个物种DNA序列按照染色体形式系统性地整合和排列的一种技术。
对基因组的标注(包括起始和终止位置、exons、以及其他相关的基因组特征)中提到的DNA重复元件等信息进行标记和分析。
* 基因组参照联盟(GRC)
* 维护人类、小鼠和斑马鱼的参考基因组。
* 对基因组组装需要明确几点:
* 每个染色体的起止位置是什么
* 基因组序列中包括多少gap区域,能否被弥补?
* 基因组上的结构变异位点如何被展现?可否被发现并更正?
* 一个基因组组装中有多少碱基是错误的?
-
UCSC Genome Browser
-
UCSC浏览器广泛支持36种脊椎和非脊椎动物基因组的分析,并被认为是目前应用最广泛的基因组浏览器之一。UCSC Genomics Browser 包含不同分辨率的染色体位置图形视图。
- 图示说明如何使用UCSC

* Ensembl Genome Browser
* 提供各种真核生物的一系列综合网站。
该网站旨在自动解析和标注基因组数据,并通过浏览器的形式展示基因组数据。
* Ensemble固定标识符

NCBI MapViewer *MapViewer涵盖了lower metazoa、fungi以及plants等多种物种的染色体架构图谱。
* Map Viewer允许基于文本和序列的搜索
* 提供基因组四个层次的详细信息
* 物种主页
* 基因组视图
* 图谱视图
- 序列视图的主要应用
- 在本节中将介绍如何通过序列视图获取序列数据
-
具体研究涉及人类组蛋白以及HIV-1pol蛋白两个案例
-
组蛋白
-
NCBI Protein收录了470000个组蛋白条目
-
获取步骤:
-
-
1.在NCBI Protein确定Homo sapiens物种
-
- 在本节中将介绍如何通过序列视图获取序列数据
搜索"txid9606[Organism;exp]histone"则能够获得该数据库中包含约2,567条组蛋白信息其中约83.4%的组蛋白具有RefSeq注释记录
* 3.通过RefSeq了解组蛋白概述
* 4.随意挑选一个组蛋白进行研究
*5. 位于构建中的蛋白质序列数据库(包括Marinno-Ramírez等, 2011)中能够鉴定出人类染色体组中含有113个组蛋白基因,并且其中包含了单个基因家族
*6.借助其他蛋白质家族数据库(Pfam和InterPro)能够包含关于蛋白质及其基因家族的简明扼要的介绍,并详细说明具有代表性的蛋白质及其基因。
- HIV-1 RNA-dependent DNA polymerase
-
The RNA-dependent DNA polymerase of HIV-1 is a reverse transcriptase, whose gene is referred to as pol, also known as polymerase. What methods are available for obtaining the DNA and protein sequences of the reverse transcriptase?
-
获取步骤:
-
1.在NCBI Nucleotide输入hiv-1,得到3000+个RefSeq
-
2.确定物种后,得到一个RefSeq条目(NC_001802.1)
-
-
注意:剩余数据库(如UniGene、OMIM等)不适于用于查询病毒反转录酶的基因组序列
-
访问数据集:检索区域及特征的高阶查询
- 比较单个基因与其他多个基因之间的关系
-
提问:
-
对于完整的完整人类球蛋白基因组来说,请问包含哪些特定的基因?
-
这些基因都位于哪条染色体上?
-
11号染色体上有多少外显子?每个外线组内部有多少重复元件?
-
重点使用资源:Ensemble(BioMart项目)和UCSC(Table Browser)
- BioMart项目
-
提供了对多个数据库中的海量数据的便捷访问
-
-
-
该数据库是基于下面两个原则构建的:
- 数据不可知性被建模为
- 通过一种关联模式整合来自第三方数据库的数据集合
- 数据不可知性被建模为
-
数据整合的方式
- 将多个不同的数据库结合起来形成一个单一、完整且虚拟的整体系统。
-
UCSC Table Browser
-
UCSC Table Browser可以在UCSC Genome Browser可视化的前提下采用精确且完整的表格形式进行展示。这种展示方式便于用户快速浏览、查阅及下载。
-
例如,在人类基因组研究中

- 定制数据轨用于BED文件的多功能应用
- 为了满足特定需求对浏览器信息进行定制设置
-
以获取特定类别信息为目标
-
要上传我们感兴趣的信息
-
可使用BEDtools软件来分析BED文件
-
BED文件格式必含内容
- 染色体号、染色体起始位置和染色体终止位置
-
BED文件格式可选内容
-
第四列:名字
-
第五列:分数/正负链
-
第七、八列:加粗起始/终止位置
-
第九列:RGB颜色值
-
第十至十二列:区块(外显子)数目、大小、起始。
-
-
可支持的自定义文件格式
- 表格
-
-

* 注意事项
* 染色体可否使用数字表示
* 位置计数是0-based还是1-based
* 不同数据来源的计数表示

- Galaxy:具有重复利用性的Web-base高通量研究
- 简介:
-
Galaxu是一个Web-base分析平台。
-
支持从多个来源导入数据,并包含BioMart和UCSC Table Browser等常用数据库。
-
优势
-
提供大量整合的工具可用于多种类型数据的输入和分析
-
基于网页并提供了大量在其他平台上需要通过命令行来执行的软件包
-
每一个分析步骤会被记录、储存并与他人共享,促进可重复性研究。
-
-
使用场景
-
获取蛋白质序列并进行序列比对
-
基因组DNA序列比对
-
-
-
在染色体探索过程中,能够获得人类基因组上的微卫星序列;我们可以通过制作表格来实现对未知排序中最长的一个的识别
在进行二代测序数据分析时,能够获取FASTQ文件,并完成序列比对,并分析BAM和VCF文件
-
因为RNA-seq成套软件因其高效性而广为人知,在Galaxy平台中也能运行 Bowtie 和 BWA工具。
- 2.9 生物医学文献获取
- 美国国家医学图书馆(NLM)创立数目数据库-MEDLINE(医学文献分析和联机检索系统)可通过NCBI旗下的PubMed进行免费访问。
- PubMed搜索
- 通过特定过滤器筛选后,则可能显示出可免费获取的文章。
- 美国国家医学图书馆(NLM)创立数目数据库-MEDLINE(医学文献分析和联机检索系统)可通过NCBI旗下的PubMed进行免费访问。
- 2.9 生物医学文献获取
-
通过使用通配符作为截断操作(例如:therap*)可以在文本中检索出不同形式的变体。
- 2.10 展望
-
本节展望了三个重要的数据库资源:GenBank、EMBL-Bank以及DDBJ。
-
没有一个唯一正确的方式来获取信息,有许多方法都是可行的
-
- 2.10 展望
-
数据库资源之间高度关联,并通过互连访问接口实现数据互通
- 2.11 常见问题
-
明确目标定位(基因名称、确定是获取DNA序列还是蛋白质结构所需的信息)
-
添加适当的限制条件进行特定搜索
-
- 2.11 常见问题
-
HUGO与HGNC可为用户提供官方标准基因合并且附带相关数据资源链接。
-
2.12 建议学生深入了解EBI、NCBI、Ensemble与UCSC这些生物信息学网站。
- 尝试比对一次研究一个基因和一组基因
-
