Advertisement

利用python处理dna序列_利用Python编程提取基因组基因序列

阅读量:

生物技术。

DOI:

10.16660/j.cnki.1674-098X.2019.11.141

利用Python编程提取基因组基因序列

庞雪原 张婷婷

(东北农业大学生命科学学院 黑龙江哈尔滨 150036)

当前分子细胞类中

小型实验室缺乏生物信息或编程背景研究员

无法对基因组进行大数据挖掘。

本文从生物信息

学角度将Python编程应用于生命科学领域,

利用循环遍历算法,

和Python特有的字典数据格式开发批量挖掘基因组上

基因序列和CDS序列的代码。

为生命科学研究提供便利。

最后将该代码实际应用于挖掘人类线粒体基因组上的全部基

因序列和CDS序列

并成功输出结果。

关键词:

生物信息学 Python编程 基因组 遍历算法 基因序列

中图分类号:

Q78

文献标识码:

A

文章编号:

1674-098X(2019)04(b)-0141-02

随着高通量测序的普及,

生物大数据挖掘已经成为当

前各个生命科学实验室必备技能。

对于当前国内生命科

学实验室存在的问题突出为各种中小型的分子生物学、

胞生物学实验室缺乏具备生物信息学或者编程背景的研

究人员。

因缺乏这类研究人员给实验室带来的不必要经

费支出与无用时间浪费的问题是不可忽视的。

例如实验室

想挖掘一个基因在基因组上具有多少个拷贝

在没有编程

背景的情况下通常会阅读文献来挖掘可能有多少拷贝。

是多数时候实验室研究的基因或者细胞都是新的,

不会

有大量研究文献报到。

另外一个途径就是在NCBI上查找

该基因序列设计引物进行PCR,

亦或者将该基因序列与基

因组进行blast。

若这些基因在真核生物中是经过转录的

可变剪接形成的那么PCR和blast都将不会得到较好的结

果。

在此情况下传统分子、

细胞生物学实验室就会花费大

约1个月时间不断进行PCR实验找出到底有多少拷贝。

生物信息学当前已成热门研究领域,

各大生物信息学

实验室都具有拥有良好编程背景的研究员。

对于上述问

题,

利用计算机编程可以快速挖掘这些序列。

编程不仅可

以在短时间内获得这种需要花费大量实验得到的结果,

可以同时挖掘出基于组上所有的基因序列或者CDS序列,

便于挖掘可变剪接、

共表达基因等。

Python

[1]

是Guido

van

Rossum创建的一种功能强大的多用途编程语言

它有一套

自身的语法,

使它成为一套可以自行编译、

开发的完美语

言。

Python是一种强大的编程语言,

适合脚本编写和快速

应用程序开发。

它用于web开发(Orange, SymPy, NumPy),

用于桌面

形用户界面的

(

P

y

g

a

m

e

,

Panda3D)。

1 分析方法

NCBI的Genbank数据库可以查询研究物种的基因组

或线粒体基因组,

下载这些信息的Genbank文件

(文件后

缀为.gb

[2]

这种文件可以用Python的BioPython读取。

Python中可以采用循环遍历方法挖掘基因和CDS位置信

息,

再用字典的形式存储为class。

用通俗方法来理解则是

将每一个基因都贴上同一个表示基因的代码标签,

每一

个CDS都贴上同一个表示CDS的代码标签。

遍历完基因组

后再回溯将带有相同标签的序列合并到一个文件中储存。

如把所有的基因序列合并到一个文件中储存,

把所有的

CDS序列合并到同一个文件中储存

[3]

全部评论 (0)

还没有任何评论哟~