Advertisement

【基因芯片】差异表达分析的基本原理与方法

阅读量:

基因芯片是一种用于测量生物样品中mRNA表达水平的技术,最早于1991年提出。其工作原理包括杂交测序法:通过反转录得到标记核酸序列并与探针配对后测定荧光强度来推算基因表达量[1]。
基因芯片的数据预处理主要包括以下步骤:
数据提取:将高通量信号转化为表达矩阵。
数据过滤:去除背景噪音及假阳性的数据。
补缺失值:针对随机缺失和非随机缺失分别采用不同方法。
标准化归一化:通过稳定表达基因作为参照修正系统误差。
差异分析旨在识别组间显著差异的基因为目标:
倍数分析法简单但易受统计显著性影响;
假设检验(t检验)适用于小样本但存在假阳性问题;
建模分析(如贝叶斯方法)则更复杂但可能更准确[2][3]。
标准化归一化是数据分析的重要步骤之一[4]。

【基因芯片】差异表达分析的基本原理与方法

该微信公众号为生物信息学领域的个人品牌"生信Cat"

引言

生物芯片起源于1991年(...),其起源可追溯至分子点阵杂交技术。直至2008年前左右,
芯片数据虽曾广泛应用于研究领域,
然而自RNA-seq技术兴起后逐渐式微,
较少被采用。
值得注意的是,在此之后虽未得到广泛应用,
但如今仍可通过GEO数据库获取大量原始数据,
今天就让我们一起来探讨一下
数据预处理
和差异分析的基本原理吧。

01

基因表达的测定原理----杂交测序

杂交测序 具体而言 是指:从样本总mRNA中采集 mRNA 样本后 通过逆转录技术生成标记带有荧光标记的核酸片段 接着将这些片段与探针配对 进行杂交反应 并随后去除未能与探针互补结合的部分 对所用基片施以激光 进行共聚焦扫描 从而测量基片上各个区域荧光强度 以此评估样品中各类基因的表达水平

目前应用最多的是cDNA芯片 和Affymetrix公司的寡核苷酸芯片 两种技术。其中一种的技术使用的是cDNA探针,另一种的技术则使用的是寡核苷酸探针。

02

数据预处理(pre-procession)

基因芯片的数据预处理包括以下步骤:首先进行数据获取;接着实施数据筛选;随后对存在缺失值的数据进行填补;之后采用对数处理方法;最后完成标准化处理以确保数据分析的有效性

1,数据提取

该研究的主要目的是通过创新的方法实现高通量荧光信号向基因表达数据的有效转化,并构建原始表达矩阵表征。该系统能够将探针ID信息与样本中各基因对应的荧光强度数值相结合,从而生成完整的原始数据表格。这一矩阵为后续分析提供了重要依据。

2,数据过滤

基因芯片数据存在显著的背景噪声和假阳性问题,在实际应用中为了有效解决这些问题通常会采用数据过滤的方法进行处理具体而言一般会剔除那些具有较低数值负值或者明显异常的数据点以降低整体噪声水平通常的做法是将这些被剔除的数据设定为统一值

3,补缺失值

在基因表达数据分析中,主要存在两类形式的丢失值:一类为随机丢失的数据(Random Missing),其特点是在该矩阵中的数据丢失与其基因表达水平无关(即该矩阵中的数据丢失与其基因表达水平无关),通常由外部干扰因素导致(如环境污染或操作失误等),而针对此类情况可采用相应的修复手段进行补缺(Data Imputation);另一类则是与基因表达水平相关联的丢失值(Dependent Missing),当基因表达水平过低或过高时容易出现这种情况(易受异常值影响)。目前尚缺乏有效的处理策略针对这一类型的复杂情况(Complex Patterns)。

​ 目前的缺失处理主要有三种方法

简单补缺法 ,用0,1,每行或每列的均值作为缺失的可能信号值

k近邻方法是一种常用的数据处理技术,在面对含有缺失值的基因数据时表现出良好的适用性。具体而言,在研究对象i的所有k个邻居基因中,并设定其在第j个样本中的表达水平分别定义为X1j、X2j、…、Xkj(其中g=1,2,…,k)。这些数值通常代表了每个邻居基因与研究对象i之间的某种关联程度[函数]。根据不同的需求和研究背景[函数]的选择可能有所不同,在本研究中我们采用了欧氏距离或相关系数作为主要的距离度量方法。为了更加准确地反映每个邻居的重要性特征,在计算过程中引入了加权平均机制。其中权重系数Wg由相应邻居与研究对象之间的相似性程度所决定

由于外部链接中的图片无法正常转存,请注意以下几点:首先可能由于网站自身设置了防盗链保护机制;其次为了确保上传成功,请尝试将图片先保存到本地设备后再重新上传(示例:i\mathbin{\text{im}}j)。请检查文件格式并重新操作以避免类似问题再次发生)。

回归法 :与K近邻法类似,回归法用回归模型预测缺失值,然后再加权平均。

4,对数转化

普遍认为基因芯片原始数据呈现偏态分布特征,在经过对数值转换处理后能够使数据近似满足正态分布假设条件,从而简化后续分析流程。其中最常采用的是以2为底的对数值转换方法。

5,标准化 归一化 (normalization)

由于在细胞中存在一系列稳定表达的基因为基础(其中包含管家基因与人工合成控制基因),因此在基于这些稳定表达基因为参照的标准下进行操作时,其他基因为其荧光强度值所引入的系统误差可以通过修正来减少。然而由于不同的芯片平台采用了不同的制作原理而导致各自的系统误差可能出现显著差异性,并且在数据处理标准上也存在一定的差别。

以后专门准备一篇深入分析的文章回顾标准化与归一化的区别QAQ。经过查阅大量资料后发现这两种方法各有其适用场景目前我们只需清楚它们的基本概念即可。

03

差异分析

该研究旨在识别具有显著特异性的基因,在消除实验误差、背景噪声等潜在干扰因素的影响后,通过统计学分析方法筛选出一组候选基因,并结合生物信息学分析验证其功能。换言之,在比较不同处理条件下的样本特征与内部随机变化之间的差异水平时,则可较为客观地判断各处理条件间的效应是否存在显著性差异。

图片

目前常用的差异分析方法有倍数分析,假设检验,建模分析。

一,倍数分析(Fold Change 算法)

最常用的差异表达基因鉴别方法是倍数法,在分析两组条件下同一基因的表现强度时采用此方法:通过计算不同条件下同一基因表现强度之比率来评估其变化程度;当变化比率超过设定阈值(通常为2)时,默认判定该基因在这两组中的表现存在显著差异;若进行多次实验以提高结果可靠性,则需对各次实验结果分别计算对应条件下的表现强度比率并求其平均;随后通常会对这些比率进行log2转换使其转换结果范围限定在-1至1之间从而可直观地确定哪些基因为表现差异相关

该方法简便,但忽略了差异表达的统计显著性和过分依赖于分析人员的经验数值,因而其局限性明显。尽管由于表达量低的基因相较于expression高值基因更容易在两类间产生较大的倍数变化,导致FC方法更倾向于识别基础expression较低的基因作为差异基因,然而这些expression水平较低的基因也更容易受到检测误差的影响而导致较大的波动,从而被错误地判定为差异基因。

二,假设检验

关于假设检验的定义,请参考生物统计学相关教材。此处不做详细阐述。作为教材,《统计学(第三版)》由张德存主编于2020年出版,并由科学出版社发行。

1,参数方法

当遵循假设检验方法且总体分布形式已知时,则需对未知参数进行推断;而当不清楚或无法确定总体分布形式时,则需推断其分布函数的形式及其主要特征。在应用参数统计方法时,通常需关注数据集的两个关键特性:一是其所属总体的分布形态;二是数据间的离散程度(方差)。

普遍认为芯片数据遵循连续型正态分布,而RNA-seq数据则遵循离散型泊松分布。

Student's t检验 StatQuest: 选择合适的t检验方法

t检验主要用于处理较少样本量(n<30)的情况以及具有近似服从正态分布但总体标准差未知的情形。
其推导过程基于t分布理论, 用于计算观察到数据出现的概率。
该方法旨在评估单一研究对象的平均值与其所代表的整体平均值之间是否存在显著差异, 或者比较两个独立研究对象群体的平均值是否有显著差别。

由于外链图片转存失败的原因可能包括但不限于源站防盗链机制或其他技术防护措施等特殊情况,请您参考相关技术指导进行操作并获取成功经验;建议用户暂时保存图片后再进行上传操作以确保顺利实现上传目标

在分析两组数据时,在统计学中通常采用配对样本t检验方法;同时假设各组样本均服从正态分布。

​ 其假设为

图片

​ 其计算公式为

图片

​ 其中

图片
图片

在芯片数据的分析中, n值通常取值于2,3之间。这是因为样本容量较小的原因,导致总体方差估计存在较大偏差,这将使得计算出的t统计量显著增大,从而引起较高的假阳性错误率(False Discovery Rate , FDR)。在传统的t检验方法中,通常设定显著性水平α为0.01。通过改进传统的t检验方法能得到更为精确的分析结果。

图片

因为t检验要求数据呈正态分布。因此,在公式中所使用的基因表达值是通过将原始测量值进行标准化处理得到的。这表示两类样本间基因表达量的变化程度。同样地,这种方法与FC方法具有相同的系统偏差。

此外,在具有较低基础表达水平的情况下,即使某个基因为其发生了一个极小变化幅度(即标准误),也可能会导致出现非常显著(即t值很大)的结果,并且会被认为是关键差异基因。然而,在同样的实验条件下进行比较时,在平均表现上只存在微小差别的高表达基因为其不容易达到显著性;相反地,在同样条件下具有较低平均表现水平的基础遗传单位反而更有可能表现出高度显著的结果。

研究表明, 数据的质量(信噪比)会随着基因表达强度的增长而逐步下降, 这就意味着那些在基因表达水平较低的情况下更容易受到随机噪声的影响而导致结果失真。基于此, t检验 同样表现出对那些处于低表达状态且可能受到噪声干扰的数据进行显著性差异检测的趋势。

方差分析

在涉及多于两个样本的数据比较时(尤其是涉及多个实验条件的情况),通常会选择方差分析作为统计方法。
它将基因在不同样本间的总变异性划分为组间变异性与组内变异性两个方面。
具体而言,在计算过程中需要分别评估并汇总三个方面的变异性:总变异性、组间变异性以及各组内部的变异性。
通过方差分析中的假设检验评估组间变异性是否存在。
如果发现存在显著差异,则表明基因在不同条件下表现出不同的表达水平。

将变异除以自由度计算均方,消除自由度的影响

依据统计量F值,得到P值,判断基因表达是否有差异。

2,非参数方法(非参数检验)

SAM算法

该**SAM(Significance analysis of microarrays)**方法旨在通过microarray技术鉴定差异基因。与t检验具有相似性。然而,在处理过程中,在计算t统计量时 SAM 方法会加入一个校正值以避免那些标准误较小的基因被错误地判断为差异基因。通过在t统计量分母中加入校正值 SAM 方法增强了其稳定性。计算公式如下:其中 S₀ 代表样本残差标准误的校正值

图片

尽管SAM算法通过permutation方法计算得到了错误发现率(False Discovery Rate, FDR)这一指标来有效管理多重比较产生的误判,并成功降低了假阳性结果的数量。然而由于SAM算法 是基于t检验的方法,它仍然保留了与传统t检验类似的局限性:倾向于高概率地识别出两类样本中表达水平较低但倍数变化幅度较大的基因为差异基因

三,建模分析

通过比较两个条件下模型参数的一致性来检验表达差异的显著性, 如贝叶斯方法所示。

参考资料 :

[1] 李霞主编,《生物信息学》(卫生部八年制规划教材),2015年,人民卫生出版社

[2] https://zhuanlan.zhihu.com/p/388984969

[3] 李春喜等,《生物统计学》第五版,2013,北京:科学出版社

[4] 刘伟等,《生物信息学》第二版,2018,电子工业出版社

基因芯片

基因芯片

DNA微阵列技术

DNA微阵列技术

全部评论 (0)

还没有任何评论哟~