TimeLine:一面20220424,二面20220427,三面20220505(已挂)当时的BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师写在前面的话:该文档记录2023届暑期实习面试的相关问题,因此时间线分布在2022年。以下问题的答案可能存在错误,敬请读者批评指正一面1.SQL考察数据表内容:播放表play_table,包含字段日期(dt),用户ID(user_id)、视频类型ID(video_type_id)、观看次数(play_cnt)计算4月1日的7日内(4.2-4.8)的留存率,结果返回日期和留存率with a as(Select distinct uesr_id as user_d0 from play_table where dt = '20220401'),with b as(select distinct user_id as user_d2_7 from play_table t1, awhere t1.user_id = a.user_d0and datediff(dt, '20220401') between 1 and 7)select count(b.user_d2_7) / count(a.user_d0) as retention_ratefrom a, b2.Python考察有两张数据表,分别为:播放表play_table,结构同1.题字典表video_type_dict,包含字段视频类型ID(video_type_id),视频类型名称(video_type_name)问:每日每个视频类型观看的总次数Tmp = play_table.join(video_type_dict, how='inner')Tmp.groupby(['dt', 'video_type_name']).apply('sum')3. 解释一下统计学的一类错误和二类错误阐述一类错误和二类错误的概念,可画图进行辅助讲解一类错误:原假设H0为真时,作出”拒绝原假设“的错误决策,也被称为弃真错误二类错误:原假设H0为假时,作出”接受原假设“的错误决策,也被称为取伪错误该图出自贾俊平、何晓群、金勇进编著的《统计学(第7版)》第158页(a)图中,阴影部分为一类错误,概率大小等于显著性水平α;(b)图中,阴影部分为二类错误,概率大小通常命名为β,非阴影部分面积为1-β,通常命名为统计功效由上图可知,一类错误的概率由显著性水平α决定,减小显著性水平会降低一类错误概率(即拒绝域向右移动,(a)图中阴影部分面积减小),但会提升二类错误概率(拒绝域向右移动,(b)图中阴影部分面积增大)4. 追问:如果样本量增大,对一类错误概率和二类错误概率的影响?一类错误概率由显著性水平决定,样本量增大不会影响一类错误概率:(此表述为当时的回答,答案的合理性存疑,因为《统计学(第7版)》第158页中写到:”当然,使α和β同时变小的办法也有,这就是增大样本量。“,读者可搜寻更多资料形成自己的观点)样本量增大,会使得二类错误概率减小:根据3.题中的示意图,想象一下,当样本量增大时,样本观察值的方差减小,样本观察值会越向均值靠拢,因此样本观察值的概率密度曲线会变得更加“瘦高”,这也意味着阴影部分面积减小,即二类错误概率减小,统计功效增大二面1.请比较一下逻辑斯蒂回归LR和极端梯度提升机XGBoost的异同?2.请讲解一下CUPED的原理?(此问题与BG中实习内容相关)具体可参见有哪些方法可以帮助AB测试显著更快一些? 剩余问题主要集中于简历上的实习经历,就不在此展开了三面1. Python中dict插入、查询的时间复杂度分别是?list查询的时间复杂度是?均为O(1),具体可参见Python常见数据结构的时间复杂度2.请简要介绍一下SRM(Sample Ratio Mismatch,样本比例偏差)的概念具体可参见:策略效果分析中的两个代表性问题实战干货|容易被忽视的样本比例偏差问题剩余问题主要集中于简历上的实习经历,就不在此展开了
点赞 13
评论 5
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务