宏基因组中的病毒组分析(3)CD-HIT聚类vOTU
宏基因组中的病毒组分析:
第一步:宏基因组中的病毒组分析(1)病毒序列的鉴定geNomad-博客
第二步:宏基因组中的病毒组分析(2)checkV评估病毒基因组的质量-博客
第三步:采用CD-HIT进行聚类得到vOTU
CD-HIT(Cluster Database at High Identity with Tolerance)是一个广泛使用的生物信息学工具,主要用于对蛋白质或核酸序列进行聚类。它能够快速有效地找出相似的序列,并将其归为同一簇,极大地减少了数据的复杂性,帮助研究人员在大规模基因组和转录组数据中找到重复和模式。CD-HIT的核心特性在于其优化的算法,能够在保持高精度的同时实现高速度。
1、工作原理
CD-HIT基于增量聚类算法,通过用户定义的相似性阈值来进行序列聚集。在默认模式下,序列仅和每个聚类中的代表性序列(通常是这类中的最长序列)进行比较,而不和聚类中的其他序列进行比对。代表性序列的选择是算法的关键步骤,因为后续的序列都将与这些代表序列进行比对。
- 序列预处理 :输入序列首先进行长度排序,去除低质量的序列(默认阈值为50%),并删除冗余序列。
- 代表序列选择 :算法从输入序列中选取较长的序列作为初始的代表序列。
- 序列比对 :对于每个输入序列,算法将其与已选定的代表序列进行比对,如果相似性高于设定的阈值(默认为90%),则将该序列归入相应的聚类中。
- 聚类更新 :对于每个聚类,算法选择具有最长序列的代表作为该聚类的标记性序列,并更新聚类信息。
- 输出结果 :最终输出每个聚类的代表性序列、聚类成员序列数量以及各聚类之间的相似度等信息。
2、 安装
CD-HIT可以直接使用conda/mamba安装:
mamba install cd-hit
3、
CD-HIT的输入形式可以是蛋白质序列,也可以是核酸序列。用法不同
蛋白质序列:
cd-hit -i XX.fa -o XX.fa.cdhit -c 0.9 -n 5 -M 16000 - d 0 -T 10
##参数说明
-i 输入文件,fasta格式的序列 注意这里是蛋白序列/核酸序列
-o 输出文件路径和名字
-c 相似性(clustering threshold),0.9表示相似性大于等于90%的为一类
-n 两两序列进行序列比对时选择的 word size
-d 0表示使用 fasta 标题中第一个空格前的字段作为序列名字
-M 16000,16GB RAM 内存,这里怎么都够
-T 使用的线程数
-n和-c的修改是相对应的,蛋白质序列需符合以下规则:
##Choose of word size:
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5
核酸序列:
cd-hit-est -i XX.fa -o XX.cdhit.fa -c 0.95 -n 10 -d 0 -M 16000 - T 8
##参数说明与蛋白质序列相同
##Choose of word size:
-n 10, 11 for thresholds 0.95 ~ 1.0
-n 8,9 for thresholds 0.90 ~ 0.95
-n 7 for thresholds 0.88 ~ 0.9
-n 6 for thresholds 0.85 ~ 0.88
-n 5 for thresholds 0.80 ~ 0.85
-n 4 for thresholds 0.75 ~ 0.8
4、可能出现的错误
cd-hit-est -i choosed_contigs2.fna -o vOTUs_cdhit.fna -c 0.95 -n 10 -M 20000 -d 0 -T 20
注意输出文件的后缀,把cdhit挪进去,不然会报错
同时,这一步的时间会比较长,大概有几个小时,也可能和我电脑的算力有关
5、优缺点
5.1.优点
- 高效性 :CD-HIT采用了一种名为“word counting”的快速算法来比较序列相似性,能够处理大规模序列数据。
- 可扩展性 :支持多线程并行处理,可以在分布式计算机集群上,易于扩展到云计算平台上进行更大规模的分析。
- 精度高 :通过设置聚类阈值和去冗余策略,控制聚类大小和精度,保证结果的可靠性。
- 支持多种文件格式 :如FASTA、GenBank、EMBL等,方便用户导入自己的序列数据。
- 丰富的输出信息 :生成包括聚类数量、序列数量、簇大小等在内的多种统计信息,以及每个聚类簇的代表序列,便于后续分析。
5.2.缺点
- 比对方式限制 :CD-HIT首先选择长的代表序列,剩下的序列只与这些代表序列比对,而剩下的序列之间不进行互相比对。这可能导致某些相似性较高的序列因为未进行直接比对而被遗漏,从而影响聚类结果的全面性。
- 结果可能不够细致 :由于比对方式的限制,CD-HIT可能无法捕捉到所有细微的相似性差异,导致聚类结果在某些情况下不够细致。
- 对低相似性要求的限制 :CD-HIT本身对相似性的要求较高(默认为90%),对于需要更低相似性阈值的应用场景,可能需要使用其他工具或方法进行补充。
6、总结
CD-HIT作为一种高效的生物信息学工具,在基因组和转录组研究中发挥着重要作用。其优点在于高效、可扩展、精度高,并支持多种文件格式和丰富的输出信息。然而,其比对方式的限制可能导致结果在某些情况下不够全面或细致。因此,在实际应用中,需要根据具体需求选择合适的工具和方法,以获得最佳的分析效果。
参考来源: weizhongli/cdhit: Automatically exported from code.google.com/p/cdhit (github.com)
