AB-testing

1. 项目介绍框架
2. AB-Testing

从风险上讲 alpha(显著性水平)拒真错误往往对企业来说更有害,这是把一个实际无用的功能进行上线,造成用户骚扰,影响用户体验。

实验对象:整个用户 还是某个特定用户群
实验指标:
1. 一致变量:实验健康指标
a组和b组在表现上应当没有显著的差别,这保证了两个群体的同质性,证明了我们流量分割的合理性。
2. 核心指标:与实验目标直接相关
如留存率、转化率

样本量计算:



AB test 面试问题:
1.常见误区类
2.结果分析类
3.实验环节类

一.常见误区类 (是什么/为什么/怎么应对)
1.辛普森悖论

根本原因:分组不够随机,造成了某个维度的不平衡
应对方法:确保实验样本对于总体有代表性,要足够随机。否则可能会产生截然相反的结果。

2. 实验周期相关:新奇效应、初始效应
实验效果根据时长变化
新奇效应:无法持续的效应,在引入的时候 用户会被吸引并尝试,一开始效果很出色,后面如果用户觉得功能无用,就会减少使用该功能,业务指标则会下滑。
因此,如果我们设计的实验周期没有那么长,我们很可能观测不到后期的指标下滑
初始效应:由于某些被移除的旧功能有强大的使用惯性,或者我们测试的算法需要一段时间才能达到好的效果。
因此,我们需要确保实验的时间长度。
应对方法:设计实验周期时充分考虑时长问题,并对用户波动有追踪能力

3. 幸存者偏差/以偏概全
由于实验时间太短,或者用户选取不合理的问题,没有让高频用户和低频用户平等的出现在实验里。当我们只考虑了高频用户的特征,就会产生错误结论。尤其对用户使用频率不是很高的软件:如健身软件 中低频占大部分。
应对方法:实验健康指标可以帮助监测来确保实验流量的合理性和健康程度。

二.结果分析类


1. 统计上显著但实际不显著
可能原因(错误因素):流量划分不合理,实验周期不够长,出现新奇效应/以偏概全的误区
核心本质原因:效果被总体样本稀释,不足以达到实际有效阈值
应对方法:对潜在收益和成本(实验成本、机会成本)进行权衡
2.统计上不显著但实际上显著
1. 确实没有差异
2. 有差异但是灵敏度(sensitivity)=1-beta不够,没有检测出来
(图中这个可能是降低beta 不是降低1-beta 毕竟目的是提高灵敏度)
应对方法:减少统计量方差来提高灵敏度(三种)
1. 增大样本量--> a. 延长测试时间 b. 增加测试使用流量在总流量中的比例 c.开源节流:多个实验共用一个对照组
2. 剔除显著的离群值
例如:在统计复购率的时候,剔除少量非常热衷于线上购物的用户的数据(铁杆用户:复购率受app设计影响很小)
3. 更换一个方差更小的指标:原本是用户购买的平均金额。由于贫富差异大,因此方差很大。因而换成是否购买 0-1分布
--采用了新的方法以后,进行重复实验。如果还没差异,则认为真的没有差异。

3. 实验环节类
流量分割原则:1.实验组和对照组的用户特征一致
2.两组用户都可以代表目标用户的总体特征
流量分割问题:实际业务中可能多组实验同时进行,如果不进行合理分割,则可能流量不足-->实验不准确
如何应对?如何保证多组实验的同时流量是高可用的
流量分层分流机制:正交和互斥。
1. 互斥:将流量分到不同的域中,互不重叠
2. 正交:上一层的流量在进入下一层的时候会被随机打乱

-->总结:
1.流量正交让业务关联度很小的实验有足够的流量同时进行
2.流量互斥让业务关联度较大的实验流量分开,避免干扰,保证实验结果的可信度。






全部评论

相关推荐

HaxyBT:那我提前下班总可以了吧
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客企业服务