生物信息学_分子数据库(一)分子数据库概述
为什么需要分子数据库?
数据库记录包括两部分:
1.原始序列数据
2.描述原始数据的生物学信息的注释
随着相关研究的不断深入发展和积累经验的过程中,在生物学领域的相关研究领域内
而对其他方面知之甚少,研究也会变得极为困难。
基于研究的便利需求, 便于对数据实施存储共享和使用, 因此导致分子数据库得以应答而生
分子数据库
数据库数量多
数据库种类复杂
数据量巨大且不断增长
数据间关系复杂
数据存在冗余和偏差
版本不断更新
提供开源web服务
分子数据库种类繁多,但是主要可以分为三大类:
1.核酸数据库
2.蛋白质数据库
3.其他数据库

数据存储格式
分子数据库在规模上呈现巨大且快速增长的特点,并且其内部的数据关系错综复杂。为了便于实现对这些数据进行有效的采集、整理与分析过程,则需要制定统一的数据规范
FASTA格式
1.基于文本形式的数据存储格式,格式中碱基对或氨基酸用单个字母表示。
如何鉴别核酸与蛋白质的序列差异?
由于核酸与蛋白质均采用碱基符号编码,在序列分析中存在显著的挑战。
对于核苷酸而言,默认采用大小写的表示方式较为灵活;而对于氨基酸而言,则多选用大写字母进行标识。
2.FASTA分为两部分:
第一行:“>”开头后跟序列名称和描述,以“|”分开
剩余行为序列内容(一般一行60,不超过80)
扩展名可规定为“.fasta”。
FASTQ格式
与FASTA格式类似,但多了质量信息
第一行“@”开头后跟描述信息
第二行序列信息
第三行“+”(跟描述信息但可省略)
第四行序列质量信息
NBRF/PIR格式
NBRF/PIR格式由三部分组成,第一行以“>”开头,后跟一个双字母标记,表示序列的类型。然后再跟一个分号。分号后通常是序列在数据库中的编码(ID-code),即序列的唯一标识码(sequence identification code)。第二行给出了序列的文字说明,该行可长可短,也可以是空白。剩余行给出序列本身,以星号“*”表示结束。这类格式的文件扩展名可规定为“.pir”或“.seq”。
GDE格式
它与FASTA格式基本相同,只是行首为“%”而不是“>” ,这类文件的扩展名可为“.gde”。
RAW格式
这个格式等同于排除了空白和数字的文本呈现方式,并仅限于用以标识序列的具体内容的字母符号
FASTQ,NBRF/PIR,GDE,RAW都是可忽略空格和回车。
MSF格式
MSF,Phylip,ALN都是为了更好的表示序列比对的结果而特别设计。
在MSF格式中初始一行包含标识符' MSF' ,随后提供了所需信息包括序列长度 以及类型 (通过'Type:' 标签标注) 和校验码 (通过' Check:' 标签标注) 。其后紧跟一行空白 空白后开始具体序列数据展示 ,每一组序列数据均包含名称 Len Check 和 Weight四个要素 ,它们分别位于'T name:' 'Len:' 'Check:' 和'Weight:' 标签之前 。每组数据后紧跟一行空白 然后用双斜杠分隔符表示描述信息结束 。紧接着又是一些空白 最终是以对齐显示的方式呈现多组对比结果
Phylip格式
Phylip格式的第一行列出了配对比对所需的各项参数数据,并将这些数值用空格分隔开来呈现。随后呈现的是对齐后的碱基配对关系记录。与其他对比格式如MSF相比的一项显著特点是:其碱基名称占用10个字符宽度,并且仅在第一条配对记录中包含该信息标记,在后续记录中则前移10个字符位置留白;空白处用连字符替代。
ALN格式
该比对格式源自ClustalW2程序的传统输出结果。最上面一行以‘CLUSTAL’字样开头,并标注版本信息如‘2.0.10 multiple sequence alignment’或‘CLUSTAL W (2.1) multiple sequence alignment’等细节内容。在处理后的比对结果中包含60个连续排列的序列块(即每个块对应一个被比对的目标序列)。每个序列表块以对应的输入序列名称开始,并依次标注与其配对的具体氨基酸/碱基字符以及有效数量(忽略空隙位置)。最后一行为该组比对结果提供匹配程度评价:星号*表示所有配对位置上的氨基酸/碱基均一致;冒号:表示存在保守替换关系;点号.则表明配位点上存在半保守替换关系。
关于数据的冗余
在数据提交时,在不同的研究机构之间可能会出现相同的序列;如果出现明显的差异,则可能是归因于基因组多样性。
冗余数据可能造成很多潜在的统计错误
为了避免数据大量冗余,一般通过全局序列联配以及人工复查等手段。
