AB test相关面试题目及答案分享

6.分析一个case，case背景是陌陌换了匹配算法，要做abtest（字节跳动）

参考答案

关键指标：匹配后互动成功率

相关指标：DAU、用户在线时长，次均聊天时长、用户付费率、各类功能的使用情况

负向指标：用户流失率

7.算法部门上线了新的推荐算法，在ab-test中败给了老算法，让你找出其中的原因，需要说出具体思路和框架（拼多多）

参考答案

电商平台的商品推荐中，商品历经曝光、点击、加购物车、下单这一系列漏斗。应该分别比较两个算法推荐商品在各环节的转化率，并针对不同环节寻找原因。如果较老算法而言，新算法推的商品从曝光至点击的转化率很低，则应该从推荐推送客群的画像思考，说明推荐算法推送的商品并不适合推送的客群，以此为依据重新调整算法逻辑。

8.简要介绍AB测，并给出样本量计算公式。（拼多多、携程）

参考答案

AB实验经常运用在活动策略是否有效的问题上，进行实验的步骤是：实验的流程：确定目标和假设->确定指标->确定实验单位->计算样本量->实施测试->分析实验结果

其中样本量的计算是比较重要的内容，A/B 测试所需的时间 = 总样本量 / 每天可以得到的样本量。从公式就能看出来，样本量越小，意味着实验所进行的时间越短。在实际业务场景中，时间往往是最宝贵的资源，毕竟，快速迭代贵在一个“快”字。另外，我们做 A/B 测试的目的，就是为了验证某种改变是否可以提升产品、业务，当然也可能出现某种改变会对产品、业务造成损害的情况，所以这就有一定的试错成本。那么，实验范围越小，样本量越小，试错成本就会越低。实践和理论上对样本量的需求，其实是一对矛盾。所以，我们就要在统计理论和实际业务场景这两者中间做一个平衡：在 A/B 测试中，既要保证样本量足够大，又要把实验控制在尽可能短的时间内。样本量的计算公式如下：

9.拼多多最近在测试两个不同的推荐算法，其中A比B好，从哪几个方面可以分析好的原因。（拼多多）

参考答案

关键指标提升：A组用户下单转化率明显高于B组

相关指标正向：A组用户人均订单量增加、GMV提升、用户活跃时间更长、物品的收藏率和分享率更高、用户拉新拉活数量更多

负向指标减少：A组用户退款率下降、用户差评率降低

10.ABtest, 为了提高点击率，对界面进行了小幅度修改，有两个组一组1000个人，有100个人点击，另一组1000个人，120人点击，怎么判断好不好（拼多多）

参考答案

在比例类别指标的假设检验中，可以使用卡方检验方法。首先进行假设，设H0为两组实验的点击率无明显差异，H1为第二组点击率要高于第一组。在该实验中，A组1000人中有100人点击，则点击率为10%，置信区间为[8.3%, 12%]；B组1000人中有120人点击，则点击率为12%，置信区间为[10.1%, 14.2%]，在95%的置信度下，进行计算得到p-value=0.15>0.05，不能拒绝原假设H0，因此认为两组点击率无明显差异。

答案解析

卡方检验：卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

11.有没有接触过ABtest/经验，请说说对他的理解（滴滴、快手、字节跳动）

参考答案

AB实验经常运用在活动策略是否有效的问题上，它的理论基础是假设检验，也就是选择一种合适的检验方法，去验证在 A/B 测试中我们提出的假设是否正确。现在，你只要知道“假设检验”中，最重要也最核心的是“检验”就可以了，因为选取哪种检验方法，取决于指标的统计属性。A/B 测试是促进业务持续增长的最实用、最有效的方式。

12.选择AB实验的样本的时候，应该注意什么（滴滴）

参考答案

选择AB实验的样本的时候，我们最要考虑的是样本量的选择，影响样本量选择通常有4个因素：显著性水平（α）、标准差（1 – β）、统计功效（μA-μB）、均值差异（σ）

● 显著性水平：显著性水平越低，对AB实验结果的要求也就越高，越需要更大的样本量来确保精度

● 统计功效：统计功效意味着避免犯二类错误的概率，统计功效越大，需要的样本量也越大

● 均值差异：如果真实值和测试值的均值差别巨大，也不太需要多少样本，就能达到统计显著

● 标准差：标准差越小，代表两组差异的趋势越稳定。越容易观测到显著的统计结果

将这四个值带入样本计算量公式就能得到需要的样本量，通常有网站专门计算AB实验的样本量，所以只要搞清楚上面四个值，就能计算出你需要的样本量

答案解析

这道题主要是对AB实验样本量选择的考量，因为在选择样本的时候最关键也是最重要的一步就是对样本量的选择，对于有经验的人来说可以按照经验判断样本量级，但是对于更多人来说还是需要有更多辅助的判断。通常来说样本量太少，实验结果不大可信，但是样本量太多，也不是更好，一个最直接的原因就是样本量越大，影响的用户越多，就有可能影响到用户对产品的体验。