数据分析必问题——AB实验（2）

在上一篇文章中，我主要介绍了AB实验是什么、运用场景以及如何设计和评估实验，在这篇文章中，我主要介绍AB实验中经常被问到的一些问题，我大致将这些问题分为两类：

1.统计学相关问题

重点考察统计学知识

重点考察是否对AB实验的实际运用有一定了解

核心指标：实验最想要提升的指标，公司或者业务的核心指标，比如日活、营收或时长；
观察指标：包含实验会直接影响的过程指标，以及实现最终指标所需要的关键环节指标，比如某个功能的曝光量或者转化率；
全局指标：包含实验策略可能带来的一些负向影响，比如有些策略可能会损害用户体验，导致用户流失，可以看卸载率指标，还包含一些实验可能带来的正向效果评估指标，是策略好坏的直接评价，比如留存率、点击率等。

理论上，样本量越多越好；现实操作中，样本量应该越少越好（置信前提下），更大的样本量和更长的实验周期能获得更大的统计功效（power）和更准确的测试。根据「实验核心观测指标预计的变动量」、「指标方差」、「实验允许犯第一类错误和第二类错误的概率」来确定所需的最小样本量，Z检验下的样本计算量公式如下：

不同检验所需要的样本量计算方式不同，具体场景需要具体分析。样本量公式推导是通过假设检验中对统计功效（Statistical power）的计算推导而来，具体推导公式不在这儿展开，数据分析面试一般不会深入展开。

原假设：A组和B组无显著差异
备择假设：A组和B组有显著差异

第一类错误：去真，原假设为真，拒绝原假设。A和和B组本身无差异，但实验结论是有差异。

第二类错误：取伪，原假设为假，没拒绝原假设。A组和B组本身有差异，但实验结论是没有差异。

统计功效：当原假设为假，拒绝原假设的概率，也就是【1-犯第二类错误的概率】。A组和B组有差异且实验结论是有差异。

样本量一定的情况下，第一类错误和第二类错误有着此跌彼涨的关系，具体应该控制第一类错误还是第二类错误需要视情况而定，看哪类错误的成本更高。

至少一周，以便不同活跃周期的用户都能被观测到，比如有的用户习惯工作日活跃，有的用户习惯周末活跃；
排除新奇效应的影响，对于一些前段UI更改实验，用户很容易感知到，实验前期用户可能出于好奇心会去体验，这时候观测的指标其实是有偏的，一段时间后新奇效应消失后，实验的效果才会趋于稳定，因此针对这一类型的实验需要一个较长周期的观测来避免新奇效应；
观测核心指标在实验后的变动趋势，当核心指标变动相对稳定时才能关闭实验。

关注我，下一篇会继续补充关于AB实验的高频问题~