拼多多学霸批数据分析笔试解题思路

应一些小伙伴的邀请,分享一下这次笔试的大概解题思路。一共有5道大题,3道SQL,1道条件概率,1道是设计A/B test,应该都做对了。3道SQL基本就是平时实习的时候要写到的,算新增,回流,第二题查询下一条记录需要写个lead的开窗。出的还是很贴近数据分析师的日常工作,没实习过应该有点难度。
1. SQL的第一题比较简单,主要就是表的关联和窗口函数的运用
2. 第二题的话,有个难点是A操作后是B,AB必须相连这个最方便的就是用开窗函数,lead() over(partition by  order by),这个函数是专门查找下一条记录的
3. 第三题也是实际中经常会算的。
算新增的思路是先对每个用户聚合,算出用户最早的log_time,这个时间就是新增时间,然后用新增时间聚合去算每一个新增天数的distinct user_id,这样就是每天新增了。需要注意的是时间格式需要由时刻转成天,可以用to_date()或者date()函数,HIVE的话是用date()。
算回访的思路是把新增表和活跃表关联,这样就可以找到新增用户的所有访问记录,用datediff()函数算出访问时间和新增时间的差值,再用where diff = 1 or diff = 29来筛选第2天和第30天回访的用户
4. 第四题的话就是条件概率了,复习一下问题应该不大。
5. 第五题是要设计一个a/b test, 统计术语就是t-test。这个需要先确定企业可以接受的误差范围来确定样本量和置信度Z值, 然后算出新老版本支付转化率的平均值及平均值的差 x1 bar - x2 bar,还需要算出这个差值的标准差sigma,最后通过置信区间的公式算出置信区间,再判断差值在不在区间里,最后就可以确定A,B两个方案在该置信度下有没有显著差异
#拼多多##笔试题目##数据分析师##笔经##题解#
全部评论
考试现场好蒙圈,时间根本不够,看了大神的思路,好清晰,谢谢 ~ 整理了一下答案,请大神帮忙看一下:https://zhuanlan.zhihu.com/p/75704180
4 回复 分享
发布于 2019-07-31 23:05
n < 30 才是ttest,然后我默认t > 30 然后写了 z test。。。。。。。。。。
点赞 回复 分享
发布于 2019-07-28 18:36
楼主,求每天新增是不是可以自连接,只要它在当前天之前的所有天都没出现过,那么就算它是当天的新增?
点赞 回复 分享
发布于 2019-09-01 11:03
想看一下大佬第二题的code呢!
点赞 回复 分享
发布于 2019-08-05 18:12
感谢大佬分享!!!
点赞 回复 分享
发布于 2019-07-29 18:29
求问一下如果用 lead,那如何取出连续2条记录呢,只想得到取出一条记录😂求思路,谢谢~
点赞 回复 分享
发布于 2019-07-29 18:21
最后一题我写的是用回归。。看是否为新页面的p值和系数 学校里有一门课的case是看ebay 的广告效果就是这样做ab testing的,但我感觉在别的地方没怎么见过用回归的。。🤣
点赞 回复 分享
发布于 2019-07-28 23:05
太厉害了!
点赞 回复 分享
发布于 2019-07-28 18:02
第五题,我从产品改版的意义出发😂😂,分析了商业价值和用户价值,构造了商转指标和用户体验指标,强行解释了一波(暴露产品经理本质),这里扯多了,后面写了个假设检验和中心极限定理就没时间了。
点赞 回复 分享
发布于 2019-07-28 18:02
大佬,想问下第一题第二问说截止时间到笔试时间,这个笔试时间该是什么?还有大佬方便的话可以写下第三题的完整代码吗,看思路有点看不太懂
点赞 回复 分享
发布于 2019-07-28 17:47
今天偶然瞟了一眼lag(),看到了lead()没细看。。。醉了hhh 谢谢楼主分享~
点赞 回复 分享
发布于 2019-07-28 17:25
捉住了同班大佬!
点赞 回复 分享
发布于 2019-07-28 17:24
第三题没做出来,看完lz的解释豁然开朗。
点赞 回复 分享
发布于 2019-07-28 17:21
大佬,有一个小问题,第三题,你找出新增时间后,用它去聚合的时候,user_id还是有非新增的用户呀,比如按你的思路找出用户1的新增时间是19年7月28日,然后用19年7月28聚合,后面的user_id可能会有2 3等等,因为他们不是这天新增的用户,但可能这天有记录,这个是不是有些问题?或者说是我理解错了你的意思?
点赞 回复 分享
发布于 2019-07-28 17:14
最后一分钟把date改成了getdate,脑抽,gg了
点赞 回复 分享
发布于 2019-07-28 17:13
哇,你好厉害
点赞 回复 分享
发布于 2019-07-28 17:12
不同月份的同一日期用date()会错误匹配吧
点赞 回复 分享
发布于 2019-07-28 17:10
没有sql格式,我选的其他代码哈哈哈哈不知道怎么评分
点赞 回复 分享
发布于 2019-07-28 17:08
MySQL没有那些窗口函数,今天的SQL对我来说好难啊~
点赞 回复 分享
发布于 2019-07-28 17:05
思路有问题的话大家可以一起讨论哈
点赞 回复 分享
发布于 2019-07-28 17:04

相关推荐

01-12 17:45
门头沟学院 Java
叁六玖:这样的应该钱不多,以前我也被问,我在问他们实习公工资多少,一般都是2200-2800
找实习记录
点赞 评论 收藏
分享
老粉都知道小猪猪我很久没更新了,因为秋招非常非常不顺利,emo了三个月了,接下来说一下我的情况吧本人是双非本&nbsp;专业是完全不着计算机边的非科班,比较有优势的是有两段大厂实习,美团和字节。秋招面了50+场泡池子泡死的:滴滴&nbsp;快手&nbsp;去哪儿&nbsp;小鹏汽车&nbsp;不知名的一两个小厂其中字节13场&nbsp;两次3面挂&nbsp;两次2面挂&nbsp;一次一面挂其中有2场面试题没写出来,其他的都是全a,但该挂还是挂,第三次三面才面进去字节,秋招加暑期总共面了22次字节,在字节的面评可以出成书了快手面了8场,2次实习的,通过了但没去,一次2面挂&nbsp;最后一次到录用评估&nbsp;至今无消息滴滴三面完&nbsp;没几天挂了&nbsp;所有技术面找不出2个问题是我回答不上来的,三面还来说我去过字节,应该不会考虑滴滴吧,直接给我干傻了去哪儿一天速通&nbsp;至今无消息小鹏汽车hr&nbsp;至今无消息美团2面挂&nbsp;然后不捞我了,三个志愿全部结束,估计被卡学历了虾皮二面挂&nbsp;这个是我菜,面试官太牛逼了拼多多二面挂&nbsp;3道题也全写了&nbsp;也没问题是回答不出来的&nbsp;泡一周后挂腾讯面了5次&nbsp;一次2面挂&nbsp;三次一面挂,我宣布腾讯是世界上最难进的互联网公司然后还有一些零零散散的中小厂,但是数量比较少,约面大多数都是大厂。整体的战况非常惨烈,面试机会少,就算面过了也需要和各路神仙横向对比,很多次我都是那个被比下去的人,不过这也正常,毕竟谁会放着一个985的硕士不招,反而去招一个双非读化学的小子感觉现在互联网对学历的要求越来越高了,不仅仅要985还要硕士了,双非几乎没啥生存空间了,我感觉未来几年双非想要进大厂开发的难度应该直线上升了,唯一的打法还是从大二刷实习,然后苟个转正,不然要是去秋招大概率是炮灰。而且就我面字节这么多次,已经开始问很多ai的东西了,你一破本科生要是没实习没科研懂什么ai啊,纯纯白给了
不知名牛友_:爸爸
秋招你被哪家公司挂了?
点赞 评论 收藏
分享
评论
25
184
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务