数据分析 | 群组分析:交互项回归or分组回归?

大家好,我是你的老朋友,数据道术器SamFeng。

前文数据分析 | 群组分析提到,在业务中我们经常可按照样本的一些属性对样本进行分组,使用分组回归的方法来洞察分组之间的不同规律。

在实际应用中我们也常常能看到给回归方程引入交互项的形式来考察分组之间的差异,交互项即某个解释变量乘以虚拟变量。例如我们考虑对用户性别进行分组,研究年龄和点击率之间的关系时,我们可以将虚拟变量设计为:男性标为1,女性为0,之后用年龄变量乘以虚拟变量。

那么问题来了,引入交互项和直接把样本分成男性组、女性组后进行分组回归在实际应用中该如何抉择呢?

为了弄清楚这个问题,我们必须站在对这两种操作的深刻理解上。


一、交互项回归和分组回归的差异

这两种操作方式的差异集中体现在两种方法的假设上:交互项回归假设除了核心解释变量外的控制变量系数一致,分组回归则放松了这个假设,允许核心解释变量和其余控制变量系数不一致。

通过观察公式结构,我们便可以清晰地看到这两种操作方式的差异。

首先是交互项回归:

其中X1是核心解释变量,Ci是其他控制变量。可以看到,虚拟变量取值不同时,回归方程的差异仅仅体现在截距项和核心解释变量X1系数上。

接下来我们看看分组回归的结构:


可以看到,在分组回归中,我们放松了解释变量系数一致这个假设要求,我们允许在不同分组,解释变量系数可以不一致,当然我们不能忘了后续需要使用统计检验方法来论证系数确实存在差异。


二、不能用分组回归的情形

在前面的一顿展示后,相信大家都能了解交互项回归和分组回归两组操作方法,在实际应用中这两种方法确实区别不大。比如我们分组的依据选取的是用户的性别、地域、职业等。以样本属性作为分组依据时,交互项回归和分组回归仅仅体现在前置假设上。

那什么时候,我们不能用分组回归呢?

这里先给出答案:当分组依据不是样本属性,而是时间属性时。

样本属性作为分组依据,我们可以把样本完美的分成若干组,每一组中的个体信息都是完整的。比如我们现在有1000个用户的点击历史数据,我们按照性别分组,我们总能得到性别i中x个用户的完整信息,性别j中y个用户的完整信息,且x+y=1000。

但是当我们分组的依据是不同的时间段时,每个分组的时间段中,我们得到的都是1000个用户在该时段的信息。也就是说时段i有1000个用户的点击信息,时段j也有1000个用户的点击信息。

这种情形如果我们使用分组回归的方式来探究不同时间段下用户点击规律差异的话,我们就无法解释点击率差异的产生是核心解释变量X1的差异引起,还是其他控制变量Ci的差异引起的。

因此,当我们需要论证解释变量的差异源自于某些解释变量,而非全部控制变量时,我们使用交互项回归是最妥当的。


#数据分析师##学习路径#
全部评论
要是我就交互项回归
点赞 回复 分享
发布于 2022-01-12 19:52

相关推荐

11-22 01:13
已编辑
蚌埠坦克学院 Java
11/19后端长沙二面1. 大学期间参加过什么比赛3. 实习期间感触最深、成长最大的项目是哪个?4. 该项目主要做了什么?5. 能否详细讲某个功能从前到后的业务流程?6. 页面加载时间优化80%,优化前有多慢?7. 页面加载慢的原因是什么?8. 如何优化页面加载速度?9. Sql优化有哪些心得?10. 引入缓存机制后,如何保证缓存与DB数据一致?11. 公司主要使用哪些数据库12. MySQL索引的存储数据结构是什么?13. 为什么InnoDB选择B+树而非B树作为索引结构?14. Redis跳表的数据结构是什么样的?15. Redis为什么使用跳表而非B树、B+树?16. Redis中设置有效期的数据是如何淘汰的?17. Redis随机淘汰的具体方式是什么?18. 如何用Java基于LRU算法实现简单的内存缓存(get、put、初始化方法)?19. LinkedHashMap和HashMap有什么区别?20. HashMap为什么是线程不安全的?21. CAS是怎么实现的?22. 线程池常见的关键参数有哪些?23. 核心线程数3、队列长度4、最大线程数5的线程池,提交10个长任务的工作过程是什么?24. 第8、9个任务为何新建临时线程执行而非进入队列?25. 请介绍Java内存模型。26. JMM和JVM有什么区别?27. 大数据专业和软件工程专业有什么区别?28. 一个请求进来,Spring MVC是如何工作的?29. Spring如何解决循环依赖?30. 100亿条账号ID黑名单,如何存储及判断某个ID是否在黑名单中?31. 为什么用布隆过滤器解决黑名单查询问题?32. 布隆过滤器中哈希计算完后如何使用?33. 如何设计短域名?34. 如何设计群发红包功能(含整体流程、算法、未领取回收)?35. 群发红包的抢红包过程有哪些流程?36. 如何解决红包超领、用户限领问题?37. 红包拆包算法如何设计?38. 延迟队列用于红包回收时,使用什么消息中间件?50分钟,没开摄像头,但是体验挺好的周五晚上了状态没变,希望过
有胆量的加菲猫在of...:今天没看到其他人的面经啊,是不是都太难了
发面经攒人品
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
12-05 19:20
已编辑
京东工业 数据分析师 1.15K*16薪 硕士海归
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务