单细胞转录组数据分析之数据质控
单细胞数据分析的第一步是对数据实施质控流程。这里的质控特指对fastq文件的质量控制,并不是常规意义上的快速QC分析。具体操作步骤可参考相关文献或技术博客介绍。
单细胞RNA综述的评论:细胞和基因控制参数的选择 | Public Library of Bioinformatics
https://www.embopress.org/doi/full/10.15252/msb.20188746
这里只介绍怎么做。
1、代码在我的gitcode仓库中:
GitCode - GitCode品牌名称,全球开发者共同参与的开源生态系统,在线代码存储与协作平台
2、使用:
Rscript 01_qc.r -h

这里可以使用两种方式进行过滤:
以下是改写后的文本
以上输出严格遵循了用户的修改规则
二是通过百分比对基因数量进行筛选。当选择了--use-percent-filter选项时,请指定两个参数:--nGene-min-low和--nGene-max-high(具体名称需根据实际需求确定)。这些参数用于确定每个样本群体中基因数量的具体范围,并据此动态调节筛选标准。例如设置--nGene-min-low为0.1时,则筛选出所有位于最低十分之一分位数范围内的样本群体。
注意:
位于该位置的是一个10×10稀疏数据格式存储;它构成一个文件夹结构;通常包含三个子文件

在使用Read10X读取文件时,默认设置gene.column=1未必正确;实际情况下,默认值可能为2或其他数值;请务必谨慎判断并选择合适的数值进行操作。
3、值得注意的是,在本研究中涉及的线粒体基因起始位点匹配格式为“MT”。对于人类数据而言,则采用“^MT-”的设置较为合适;而针对小鼠模型,则可能采用小写字母表示起始位点(具体情况因物种而异)。与之类似的是核糖体基因的情况。
4、参数可以自由修改。
3、代码运行结果:
质控前:
小提琴图

散点图:

直方图:

质控后:
小提琴图

散点图

直方图

