字节 飞书 数据分析实习生 杭州 一面凉经

大概35min。

1.自我介绍。

2. 问简历个人项目:

(1)途牛出境旅游产品分析
问热度值是怎么计算,然后做这个项目的考量是什么。因为是本科做的,记得不是太详细了,说的有点磕磕绊绊的。
(2)airbnb的房租预测模型
简要问了下我做了哪些工作(我大概就是做了一些预处理以及建模调参)以及做这个项目有什么应用价值。
另外我说模型的准确度达到了90%以上,面试官问我如何证明模型可靠性。
我说这个需要用新的数据检验,如果在现有数据集表现良好且新的数据集的表现也相差无几,那么就能证明模型是可靠的。自己还提了一下交叉验证。
所以接着问我十折交叉验证的原理。当时有点紧张,应该十份模型取平均表现,说成最好表现了,前后逻辑有点紊乱,被当场纠正。

3. 相关课程:

问现在还写sql吗 python或者R用得多不多?
我回答说sql用的比较多。python也在用,R只有大学上课的时候使用,现在已经不用了。

4. 出题环节:

(1)sql
给出一张用户登录表(login),存有用户id以及登录时间date两个字段,求连续28天每周登录天数大于等于4天的用户id。
没有要去写sql,只需要说思路
害,日期函数不太熟悉,所以就给了一下解题思路。 大概就是按照用户ID以及每周进行分组,然后count天数 选择大于等于4的id.
现在回想起来,碰到日期类的就有点慌,因为课程作业以及刷题都很少用到日期函数,因此说的有点乱。
(2)统计学
有放回抽样问题。
从1万个人中,每天选100个人抽奖,连续抽30天,问最终可以覆盖到的用户数量。
其实抽30天就是抽样100,有放回的抽30次。
说的不太清楚,我感觉就是求一个期望值。极端情况最少是100,最多是3000.
然后排列组合抽到的人数乘以概率得到最后的结果。
但是我感觉不太对劲,这样情况会不会太多了?
统计学渣想问下大神没有比较清晰的思路解答这个问题
说完之后面试官说让我面试完再好好想想这个问题。

最后就是问是不是人在香港,什么时候能实习,实习多久。
反问环节,我问了一下这个岗位具体是做啥的。
之后流程结束,第二天收到了很遗憾.......



#实习##面经##字节跳动##数据分析工程师#
全部评论
可以算出来一个人30天中奖的概率,然后用这个概率乘上10000,就可以得到10000个人在30天中获奖人数的期望了。
2 回复
分享
发布于 2021-05-21 21:15
有点类似于计算袋外数据不被抽到的比例?
1 回复
分享
发布于 2021-04-27 08:16
联想
校招火热招聘中
官网直投
如果题目问的是多少人中奖的话,即这30天每天抽的100人中有多少人中奖,那是不是1-(1-1/100)^30=26%,所以有26个人中奖?
点赞 回复
分享
发布于 2021-04-23 22:04
楼主sql那题是求连续登入28天用户且每周至少登入4天吗?这满足了前面条件后面不就满足了
点赞 回复
分享
发布于 2021-04-23 22:12
请问楼主一面之前有做笔试吗
点赞 回复
分享
发布于 2021-04-29 14:35
(1-0.99^30)*10000=2603人吧
点赞 回复
分享
发布于 2021-07-20 11:29

相关推荐

8 52 评论
分享
牛客网
牛客企业服务