Advertisement

生物信息领域常用软件工具及数据库

阅读量:

常用工具

1. PSi-blast

Psi-balst is a highly sensitive Blastp program, especially effective in identifying closely related proteins or new members of a protein family. Primarily used for conducting multiple sequence alignments (MSA) and constructing PSSM matrices (Position-Specific Scoring Matrices). Related commands and codes for generating PSSM files are provided.

2.Clustal

Clustal能够识别特征序列,并用于蛋白质分类工作;同时揭示了不同序列间的同源关系;有助于推测新序列的二级和三级构象特征;还能确定PCR引物,并在分子进化研究中发挥重要作用。Clustal包含两个版本:Clustalx(具有图形化界面)和Clustalw(基于命令行操作),它是生物信息学领域中广泛使用的多基因比对软件。

3. CD-HIT

CD-HIT是一种用于蛋白质或核酸序列聚类的应用程序,在计算过程中基于相似度对输入数据进行筛选处理,并剔除冗余的样本信息以确保数据质量。该系统遵循标准去重处理流程并提供结果报告作为辅助分析依据。官网链接(http://weizhongli-lab.org/cd-hit/)

4. MMSeq2

MMseqs2(多对多序列搜索)是一个功能强大的软件包(https://github.com/soedinglab/MMseqs2),专为高效搜索和聚类大规模蛋白质序列库而设计。该软件采用开放源代码GPL许可,并基于C++语言开发以实现高效的计算性能。它支持Linux、macOS以及Windows系统(Beta版本可通过cygwin运行)。该软件设计为可在多核服务器上高效运行,并展现出良好的扩展性。它的运行速度比BLAST快10,000倍,在同类工具中表现优异,并且相比PSI-BLAST,在同样灵敏度下处理速度更快。


常用数据库

1. SCOP数据库

SCOP数据库将蛋白质按照层级结构进行分级系统化管理, 该系统自上而下依次为类, 二级结构, 超家族与传统家族等维度进行划分

2. PROSITE数据库

PROSIDE系统收集并整理了具有生物学重要性的蛋白质位点及其序列特征。基于这些关键位点及其序列模式特征, 该系统能够迅速且可靠地识别出一个未知功能蛋白所属的蛋白质家族类别。在某些情况下, 某些蛋白尽管整体序列与已知功能蛋白之间相似性较低, 但为了维持其功能性需求而保留了与其功能密切相关的特定序列特征, 从而可能通过该系统的搜索模块识别出隐藏的功能模块motif. 除了上述提到的各种序列特征之外, PROSIDE还包括由多序列比对构建的各种profile, 能够更敏感地发现这些sequence与profile之间的相似关系. 该系统的主页提供了多种相关检索服务选项.

3. Uniprot

Uniprot是一个丰富且高质量的知识库,在线提供免费使用的蛋白质序列与功能信息资源,并整合了基于基因组计划的研究成果。该平台不仅包含大量基于基因组计划的内容,并且整合了大量来自研究文献关于蛋白生物学功能的信息。

4. Pfam

Pfam是一个蛋白质家族数据库。此数据库会利用隐马尔可夫模型进行多重序列比对以及加上蛋白脚注

Pfam中所登录的每一个蛋白质家族可以:

  • 分析多重序列比对
  • 研究蛋白质结构特性
  • 观察物种演化关系
  • 联接外部数据库
  • 探讨已知蛋白质结构特征

全部评论 (0)

还没有任何评论哟~