Advertisement

生物信息学_分子数据库(一)分子数据库概述

阅读量:

为什么需要分子数据库?

数据库记录包括两部分:

1.原始序列数据

2.描述原始数据的生物学信息的注释

随着相关研究的不断深入发展和积累经验的过程中,在生物学领域的相关研究领域内

而对其他方面知之甚少,研究也会变得极为困难。

基于研究的便利需求, 便于对数据实施存储共享和使用, 因此导致分子数据库得以应答而生


分子数据库

数据库数量多

数据库种类复杂

数据量巨大且不断增长

数据间关系复杂

数据存在冗余和偏差

版本不断更新

提供开源web服务

分子数据库种类繁多,但是主要可以分为三大类:

1.核酸数据库

2.蛋白质数据库

3.其他数据库

在这里插入图片描述

数据存储格式

分子数据库在规模上呈现巨大且快速增长的特点,并且其内部的数据关系错综复杂。为了便于实现对这些数据进行有效的采集、整理与分析过程,则需要制定统一的数据规范

FASTA格式

1.基于文本形式的数据存储格式,格式中碱基对或氨基酸用单个字母表示。

如何鉴别核酸与蛋白质的序列差异?

由于核酸与蛋白质均采用碱基符号编码,在序列分析中存在显著的挑战。

对于核苷酸而言,默认采用大小写的表示方式较为灵活;而对于氨基酸而言,则多选用大写字母进行标识。

2.FASTA分为两部分:

第一行:“>”开头后跟序列名称和描述,以“|”分开

剩余行为序列内容(一般一行60,不超过80)

扩展名可规定为“.fasta”。

FASTQ格式

与FASTA格式类似,但多了质量信息

第一行“@”开头后跟描述信息

第二行序列信息

第三行“+”(跟描述信息但可省略)

第四行序列质量信息

NBRF/PIR格式

NBRF/PIR格式由三部分组成,第一行以“>”开头,后跟一个双字母标记,表示序列的类型。然后再跟一个分号。分号后通常是序列在数据库中的编码(ID-code),即序列的唯一标识码(sequence identification code)。第二行给出了序列的文字说明,该行可长可短,也可以是空白。剩余行给出序列本身,以星号“*”表示结束。这类格式的文件扩展名可规定为“.pir”或“.seq”。

GDE格式

它与FASTA格式基本相同,只是行首为“%”而不是“>” ,这类文件的扩展名可为“.gde”。

RAW格式

这个格式等同于排除了空白和数字的文本呈现方式,并仅限于用以标识序列的具体内容的字母符号

FASTQ,NBRF/PIR,GDE,RAW都是可忽略空格和回车。


MSF格式

MSF,Phylip,ALN都是为了更好的表示序列比对的结果而特别设计。

在MSF格式中初始一行包含标识符' MSF' ,随后提供了所需信息包括序列长度 以及类型 (通过'Type:' 标签标注) 和校验码 (通过' Check:' 标签标注) 。其后紧跟一行空白 空白后开始具体序列数据展示 ,每一组序列数据均包含名称 Len Check 和 Weight四个要素 ,它们分别位于'T name:' 'Len:' 'Check:' 和'Weight:' 标签之前 。每组数据后紧跟一行空白 然后用双斜杠分隔符表示描述信息结束 。紧接着又是一些空白 最终是以对齐显示的方式呈现多组对比结果

Phylip格式

Phylip格式的第一行列出了配对比对所需的各项参数数据,并将这些数值用空格分隔开来呈现。随后呈现的是对齐后的碱基配对关系记录。与其他对比格式如MSF相比的一项显著特点是:其碱基名称占用10个字符宽度,并且仅在第一条配对记录中包含该信息标记,在后续记录中则前移10个字符位置留白;空白处用连字符替代。

ALN格式

该比对格式源自ClustalW2程序的传统输出结果。最上面一行以‘CLUSTAL’字样开头,并标注版本信息如‘2.0.10 multiple sequence alignment’或‘CLUSTAL W (2.1) multiple sequence alignment’等细节内容。在处理后的比对结果中包含60个连续排列的序列块(即每个块对应一个被比对的目标序列)。每个序列表块以对应的输入序列名称开始,并依次标注与其配对的具体氨基酸/碱基字符以及有效数量(忽略空隙位置)。最后一行为该组比对结果提供匹配程度评价:星号*表示所有配对位置上的氨基酸/碱基均一致;冒号:表示存在保守替换关系;点号.则表明配位点上存在半保守替换关系。

关于数据的冗余

在数据提交时,在不同的研究机构之间可能会出现相同的序列;如果出现明显的差异,则可能是归因于基因组多样性。

冗余数据可能造成很多潜在的统计错误

为了避免数据大量冗余,一般通过全局序列联配以及人工复查等手段。

全部评论 (0)

还没有任何评论哟~