Advertisement

AB遇到的问题- 多重检验

阅读量:

目录

多重检验问题(Multiple Testing Problem)

多重检验会发生什么问题?

什么时候会遇到多重检验问题?

如何解决多重检验问题?


多重检验问题(Multiple Testing Problem)

多变量假设检验问题是当前研究中的一个重要课题。它亦称作多因素假设检验问题或Multiple Comparison Problem。其本质是在进行多个统计检验时所面临的一种显著统计推断难题。具体而言,在执行这一系列假设检验的过程中,I类错误的概率显著增加。这将直接影响最终研究结论的可靠性和有效性。

多重检验会发生什么问题?

第一类错误率指的是当两组指标实际上相同时,在假设备定检验中判断它们存在显著差异的概率。这种判断出现错误的可能性即为第一类错误率,并在统计学领域被普遍认可的标准阈值为5%。

约5% 几乎是一个罕见事件;然而,在每个检验发生I类错误的概率为5%的情况下,在我们同时涉及或评估这20个检验时,则其发生概率等于95%^20。

则 P(至少出现一个第一类错误)的发生概率 也被称作 FWER (Family-wise Error Rate),常用于控制多重比较中的错误率。

当我们进行20次多维度分析时,在这些结果中至少出现一个I类错误的概率达到64%,这一概率会随着观察的数量增长而持续上升

  1. 随着检验次数的增长,在线FWER值会急剧上升。
  2. 当α值减小时,在线FWER值随之减小,并且下降得更为迟缓。

什么时候会遇到多重检验问题?

  • 当 A/B 测试有不止一个实验组时

当我们在处理多个变量且样本数量充足时,我们无需等待完成一个变量的全部测试后再着手另一个变量的分析工作。相反地,则可以直接将这些待调整的变量分配到不同的实验组中进行同步评估与比较研究。

每个实验组仅调整单一变量,在分析结果时分别将每个实验组与共同对照组进行对比比较;这种方法也被称为 A/B/n 测试法。

例如我希望通过调整广告来提高其效果。那么涉及的因素将包括内容的选择背景颜色字体大小等其他因素。此时我需要设置相应的3个实验组并将其与对照组进行对比分析。

这就相当于同时进行了 3 个检验,就会出现多重检验问题。

  • 当 A/B 测试有不止一个评价指标时

我们考察测试数据,其实本质上是在比较实验组与对照组的评估标准.如果存在多个评估标准的话,则会导致重复检验,并由此产生多重检验问题.

  • 在分析 A/B 测试结果,按照不同的维度去做细分分析时

当我们分析测试结果时

比如对于一家跨国公司而言,在全球多国同步开展A/B测试是一项常见做法。当我们希望深入研究A/B测试带来的变化对各国市场具体影响时,则需按照地理区域将数据进行分类处理,并对每国内部的两组数据进行差异评估。这种情况下对单一国家的数据进行分析即可形成一个统计检验,在这种情况下若涉及多个国家的数据,则需要建立多维度统计模型以实现整体效果的综合评估。

  • 当 A/B 测试在进行过程中,你不断去查看实验结果时

当前仍在持续运行中时,在每次检查时所涉及的测试项目都是不同的;因此,在每次检查时所涉及的测试项目都是不同的;每一次检查的结果都应被视为独立的一次检验(例如我们可以保留每天对比的结果图),从而会产生多重检验的问题

如何解决多重检验问题?

  1. 保持每个检验的 P 值不变,调整α。
  2. 保持α不变,调整每个检验的 P 值。

当使用P值来评估假设检验的结果是否具有统计学意义时(或判断假设检验的结果是否显著),实际上是将检验中的P值与设定的显著性水平α进行比较(或进行对比)。如果所计算出的P值小于α(或小于等于α),则认为此时则认为检验结果具有统计学意义(或具有显著性)。

所以有两种策略可供选择:一是通过降低α值来实现检验效力的提升;二是通过优化P值设定来提高检验效率。值得注意的是,在统计分析中减少α的有效性是一个可行的策略;而最常用的方法则是采用Bonferroni校正技术来控制 Family-wise Error Rate(FWER),这种方法操作相对简便且易于实施。

其中n代表检验的数量。例如设定显著性水平α=5%时,在进行20次独立检验时应用Bonferroni校正方法后,则新的显著性水平α变为5%除以20即为0.25%。经过校正后的新显著性水平α计算得出FWER为1−(1−0.25%)^20≈4.88%,这与我们最初设定的α=5%十分接近。

Bonferroni 校正因其易于操作而在 A/B 测试实践中得到了广泛应用。然而该方法仅进行 α 值的微调,并对不同 P 值采取了统一处理的方式因此显得较为保守当测试次数较小时仍能保持一定的适用性

在检测规模较大时使用Bonferroni校正可能会导致第二类错误率明显提升。当检测规模较大时,在应用Bonferroni校正后通常会导致第二类错误率明显上升。一种较为有效的改进措施是通过控制FDR(False Discovery Rate)来减少实际的第二类错误率。

FDR 的原理比较复杂,我就不展开讲了,你只需要记住它指的是一类方法,其中最常用的是BH 法(Benjamini-Hochberg Procedure)就行了。BH 法会考虑到每个 P 值的大小,然后做不同程度的调整。大致的调整方法就是把各个检验计算出的 P 值从小到大排序,然后根据排序来分别调整不同的 P 值,最后再用调整后的 P 值和α进行比较。

实践中,我们一般会借助像 Python 这样的工具来计算,Python 中的multipletests函数很强大,里面有各种校正多重检验的方法,其中就包括我们今天讲的 Bonferroni 校正和 BH 法,我们使用时只需要把不同的 P 值输入,选取校正方法,这个函数就会给我们输出校正后的 P 值。

这里我总结一下,虽然 Bonferroni 校正十分简单,但由于过于严格和保守,所以在实践中我会更推荐使用 BH 法来矫正 P 值。

全部评论 (0)

还没有任何评论哟~