数据分析 | 群组分析:交互项回归or分组回归?

大家好,我是你的老朋友,数据道术器SamFeng。

前文数据分析 | 群组分析提到,在业务中我们经常可按照样本的一些属性对样本进行分组,使用分组回归的方法来洞察分组之间的不同规律。

在实际应用中我们也常常能看到给回归方程引入交互项的形式来考察分组之间的差异,交互项即某个解释变量乘以虚拟变量。例如我们考虑对用户性别进行分组,研究年龄和点击率之间的关系时,我们可以将虚拟变量设计为:男性标为1,女性为0,之后用年龄变量乘以虚拟变量。

那么问题来了,引入交互项和直接把样本分成男性组、女性组后进行分组回归在实际应用中该如何抉择呢?

为了弄清楚这个问题,我们必须站在对这两种操作的深刻理解上。


一、交互项回归和分组回归的差异

这两种操作方式的差异集中体现在两种方法的假设上:交互项回归假设除了核心解释变量外的控制变量系数一致,分组回归则放松了这个假设,允许核心解释变量和其余控制变量系数不一致。

通过观察公式结构,我们便可以清晰地看到这两种操作方式的差异。

首先是交互项回归:

其中X1是核心解释变量,Ci是其他控制变量。可以看到,虚拟变量取值不同时,回归方程的差异仅仅体现在截距项和核心解释变量X1系数上。

接下来我们看看分组回归的结构:


可以看到,在分组回归中,我们放松了解释变量系数一致这个假设要求,我们允许在不同分组,解释变量系数可以不一致,当然我们不能忘了后续需要使用统计检验方法来论证系数确实存在差异。


二、不能用分组回归的情形

在前面的一顿展示后,相信大家都能了解交互项回归和分组回归两组操作方法,在实际应用中这两种方法确实区别不大。比如我们分组的依据选取的是用户的性别、地域、职业等。以样本属性作为分组依据时,交互项回归和分组回归仅仅体现在前置假设上。

那什么时候,我们不能用分组回归呢?

这里先给出答案:当分组依据不是样本属性,而是时间属性时。

样本属性作为分组依据,我们可以把样本完美的分成若干组,每一组中的个体信息都是完整的。比如我们现在有1000个用户的点击历史数据,我们按照性别分组,我们总能得到性别i中x个用户的完整信息,性别j中y个用户的完整信息,且x+y=1000。

但是当我们分组的依据是不同的时间段时,每个分组的时间段中,我们得到的都是1000个用户在该时段的信息。也就是说时段i有1000个用户的点击信息,时段j也有1000个用户的点击信息。

这种情形如果我们使用分组回归的方式来探究不同时间段下用户点击规律差异的话,我们就无法解释点击率差异的产生是核心解释变量X1的差异引起,还是其他控制变量Ci的差异引起的。

因此,当我们需要论证解释变量的差异源自于某些解释变量,而非全部控制变量时,我们使用交互项回归是最妥当的。


#数据分析师##学习路径#
全部评论
要是我就交互项回归
点赞 回复 分享
发布于 2022-01-12 19:52

相关推荐

昨天 08:58
已编辑
门头沟学院 Java
ttl: 3.19一面晚上过3.20二面3.23oc3.25offerbase:末9有一段中小厂实习一面面经:(总体时长一个小时二十分钟左右没什么八股,主要都是问项目和场景题1.实习(问了有四十分钟,感觉面试官很看重实习这一块,一直在拷打,问到后面我都要疯了,好在准备得比较充分1️⃣用的是什么中间件,有参与技术选型吗,实习的项目里为什么选这个RabbitMQ而不是kafka,为什么不用RocketMQ,为什么放弃异步,自己的项目里面使用的是kafka,那你觉得项目和实习的中间件选型有差异的原因是什么,他们之间的区别在哪里,底层的原因知道吗(高柱到这里已经快疯了,但是硬着头皮答完了,主要是从一致性吞吐量和框架的契合度答,面试官说答得挺好的,应该是没什么问题,这一块就问了快半个小时,到这里我已经快疯了2️⃣项目怎么对接上下游3️⃣介绍项目的难点重点4️⃣微服务(高柱实习是单体项目没涉及这一块5️⃣Redis的使用2.项目:1️⃣智能客服是怎么应用在项目里的(langchain4j➕rag➕functioncalling)2️⃣RAG了解多少3️⃣文本向量化的难点是什么,了解哪些大模型的知识(我一点不懂,纯瞎扯,但貌似扯对了4️⃣对ai的态度是什么,aicoding相关5️⃣怎么保证多节点下Caffeine缓存里面数据都是一致的(答的是短ttl,面试官不是很满意,但是我确实不太懂这个怎么保证,后来查了还是不懂怎么保证6️⃣Redis的使用,和你的实习项目的使用有区别吗,还有一些引申问题3.八股(含量不高,就是走个过场1️⃣进程的内存布局2️⃣Redis三剑客3️⃣微服务相关知识(高柱已经忘得差不多了…勉强答上来4️⃣JVM5️⃣线程状态6️⃣线程安全,在你的实习项目里怎么保证线程安全的(又绕回来了4.智商题找异常球5.手撕:1️⃣五道sql,不难2️⃣力扣不重叠的滑动窗口数组,贪心➕双指针秒了强度拉满了这个一面,高柱到后面人都是傻的二面面经:(就半个小时实习拷打,简历上写了几点就问了几点,问完就结束了,无手撕
查看19道真题和解析
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务