生物信息大数据&数据库(NCBI、EBI、UCSC、TCGA)
为了系统地掌握生信数据库的知识,建议先学习一下北大提供的公开课,在其中有一章专门讲解了数据库与软件的相关内容。
110
一个优秀的生信开发者能够解决如下问题:
- 如何识别一个具有重要性且尚未解决的关键生物学问题?
- 如何将这一难题转换为一个可以通过计算解决的问题?
- 如何构建一个能够有效解决问题的计算方法?
- 如何开发这一解决方案的具体实施步骤?
- 如何验证所设计算法的有效性和准确性?
生信工具使用者需要解决如下问题:
- 每个方法旨在解决哪些生物科学问题?
- 该方法基于哪些基本假设?
- 每个参数代表什么意义?它们各自承担着什么样的功能?
- 准确度评估如何进行?灵敏度和特异性分别是什么?它们之间存在怎样的权衡关系?在实际应用中应优先考虑哪一个指标?
- 生物科学领域的局限性及其影响是什么?
生信资源的分类:
- 集中化的资源与独立的资源
- 数据库系统与软件工具
- 基础级数据存储与二级数据存储
- 命令行界面工具与网页服务器工具
[

](http://images2015.cnblogs.com/blog/785692/201612/785692-20161215110328011-1331665847.png)
[

](http://images2015.cnblogs.com/blog/785692/201612/785692-20161215110330308-1594422656.png)
UCSC Genome Browser:基因组浏览器,表达调控、变异数据,track,ENCODE 非编码元件(计划)
集中资源
| NCBI | EBI | UCSC |
|---|
| 链接 | Database、Tools、Resource List(A-Z) | by topic
by name | Table Browser
Genome Browser |
| Tools | BLAST | BLAST、Exonerate、ClustalW2 | BLAT、In-Silico PCR |
|---|---|---|---|
| DNA/Genome | Genome | Ensembl、Genomes | Ideogram、Recombination Rate、GC Content |
| DNA/Gene | Gene | Ensembl | UCSC Genes、GENCODE、RefSeq Genes |
| RNA | RefSeq | Ensembl | mRNAs、ESTs、UniGene |
| Proteins | Protein, RefSeq、Conserved Domain | UniProt、InterPro、PRIDE | |
| Expression | UniGene | Expression、Atlas | Affy Exon Array、Caltech RNA-seq、Allen Brain |
| Regulation | Transcription、TFBS、Epigenetics、DNaseI HS | ||
| Literature | PubMed | ||
| Ontology | Gene Ontology | ||
| Comparative Genomics | Taxonomy、HomoloGene | *Ensembl | Conservation、Neandertal |
| Variation | dbSNP、dbVar | *Ensembl | SNPs、DGV、RepeatMasker |
| Disease | OMIM、MeSH、dbGaP、ClinVar | GAD、COSMIC、ClinVar、GWAS Catalog、QTLs |
独立资源
[

](http://images2015.cnblogs.com/blog/785692/201612/785692-20161215113455933-1207618959.png)
[

](http://images2015.cnblogs.com/blog/785692/201612/785692-20161215113501933-322209776.png)
[

](http://images2015.cnblogs.com/blog/785692/201612/785692-20161215113508120-283587242.png)
癌症
DNAnexus Re-analyses Cancer Genome Atlas Data
DNAnexus完成世界上最大的泛癌症数据的重分析(附数据下载) - 基因慧
DNANexus:致力于在云计算服务器内构建一个DNA数据库,并通过服务模式将该数据库提供给研究人员和科学家使用。与谷歌开展技术合作后,DNAnexus打造最全面的DNA数据库平台。这些数据可从NCBI SRA网站访问(NCBI于2011年2月宣布逐步终止SRA支持)。
Cancer Genome Atlas:泛癌症基因组
The Cancer Genome Atlas:就是 TCGA 的全称,Atlas 古希腊的一个神
TCGA 网站 提供了关于 User Guides and Help 的详细信息
