利用python处理dna序列_利用Python编程提取基因组基因序列
生物技术。
DOI:
10.16660/j.cnki.1674-098X.2019.11.141
利用Python编程提取基因组基因序列
①
庞雪原 张婷婷
(东北农业大学生命科学学院 黑龙江哈尔滨 150036)
摘
要
:
当前分子细胞类中
小型实验室缺乏生物信息或编程背景研究员
,
无法对基因组进行大数据挖掘。
本文从生物信息
学角度将Python编程应用于生命科学领域,
利用循环遍历算法,
和Python特有的字典数据格式开发批量挖掘基因组上
基因序列和CDS序列的代码。
为生命科学研究提供便利。
最后将该代码实际应用于挖掘人类线粒体基因组上的全部基
因序列和CDS序列
,
并成功输出结果。
关键词:
生物信息学 Python编程 基因组 遍历算法 基因序列
中图分类号:
Q78
文献标识码:
A
文章编号:
1674-098X(2019)04(b)-0141-02
随着高通量测序的普及,
生物大数据挖掘已经成为当
前各个生命科学实验室必备技能。
对于当前国内生命科
学实验室存在的问题突出为各种中小型的分子生物学、
细
胞生物学实验室缺乏具备生物信息学或者编程背景的研
究人员。
因缺乏这类研究人员给实验室带来的不必要经
费支出与无用时间浪费的问题是不可忽视的。
例如实验室
想挖掘一个基因在基因组上具有多少个拷贝
,
在没有编程
背景的情况下通常会阅读文献来挖掘可能有多少拷贝。
但
是多数时候实验室研究的基因或者细胞都是新的,
不会
有大量研究文献报到。
另外一个途径就是在NCBI上查找
该基因序列设计引物进行PCR,
亦或者将该基因序列与基
因组进行blast。
若这些基因在真核生物中是经过转录的
可变剪接形成的那么PCR和blast都将不会得到较好的结
果。
在此情况下传统分子、
细胞生物学实验室就会花费大
约1个月时间不断进行PCR实验找出到底有多少拷贝。
生物信息学当前已成热门研究领域,
各大生物信息学
实验室都具有拥有良好编程背景的研究员。
对于上述问
题,
利用计算机编程可以快速挖掘这些序列。
编程不仅可
以在短时间内获得这种需要花费大量实验得到的结果,
还
可以同时挖掘出基于组上所有的基因序列或者CDS序列,
便于挖掘可变剪接、
共表达基因等。
Python
[1]
是Guido
van
Rossum创建的一种功能强大的多用途编程语言
,
它有一套
自身的语法,
使它成为一套可以自行编译、
开发的完美语
言。
Python是一种强大的编程语言,
适合脚本编写和快速
应用程序开发。
它用于web开发(Orange, SymPy, NumPy),
用于桌面
图
形用户界面的
科
学
和
数
学
计
算
(
P
y
g
a
m
e
,
Panda3D)。
1 分析方法
NCBI的Genbank数据库可以查询研究物种的基因组
或线粒体基因组,
下载这些信息的Genbank文件
(文件后
)
[2]
。
这种文件可以用Python的BioPython读取。
在
Python中可以采用循环遍历方法挖掘基因和CDS位置信
息,
再用字典的形式存储为class。
用通俗方法来理解则是
将每一个基因都贴上同一个表示基因的代码标签,
每一
个CDS都贴上同一个表示CDS的代码标签。
遍历完基因组
后再回溯将带有相同标签的序列合并到一个文件中储存。
如把所有的基因序列合并到一个文件中储存,
把所有的
CDS序列合并到同一个文件中储存
[3]
