GWAS基因芯片数据预处理:质量控制(quality control)
发布时间
阅读量:
阅读量
一、数据为什么要做质量控制
比起表观学研究,在GWAS研究中较少受到干扰的影响。通常情况下由于基因本身具有稳定性特征一个人的基因型在其一生中几乎不会发生变化因此即使如此这些变异通常也不会同时影响表型和基因型的变化方向或强度然而尽管如此在进行GWAS分析时仍需排除可能导致结果偏差的各种因素
这种因素主要有:群体结构、个体间存在血缘关系、技术性操作。
二、怎么看数据是否需要进行质量控制
我们分别绘制了样本及SNP位点在数据分布中的频率直方图;观察到的数据点明显偏离大多数区域时(即出现异常值),这可能归因于测序操作或人为干预等因素导致的错误;因此是需要将这些异常样本及对应的SNP位点进行剔除处理以确保数据质量的准确性
这个阈值的设定并没有一个金标准,可参考往年发表的文献的常用阈值。
1、样本过滤阈值的设定

2、SNP过滤阈值的设定

三、怎么进行质量控制
质量控制包括两个方向,一个是样本的质量控制,一个是SNP的质量控制
1、样本的质量控制
样本的质量控制包括:缺失率、杂合性、基因型性别和记录的性别是否一致。
1)检测缺失率,通常情况下,将样本缺失率大于5%的个体去除
2)检测杂合性
3) 检测性别不一致的个体
4)去除不符合的样本
将1-3)获得不符合的样本去除
removesample.txt的格式如下:
FID IID
ASN ind1
ASN ind2
2、SNP位点的质量控制
SNP位点的质量控制包括:MAF值、call出率、Hardy-Weinberg Equilibrium
其命令见如下:
--hwe指的是不符合哈温伯格平衡的SNP位点,P值小于0.00001;
--geno指的是基因型缺失率大于2%的样本;
--maf指的是次等位基因频率低于1%的SNP位点;
最后,会得出干净的SNP和样本。
文中图片出处:
全部评论 (0)
还没有任何评论哟~
