字节数开面试-抖音
一面(面试官很好!很有耐心!)
1.spark中rdd叫弹性分布式数据集,这个弹性的含义
2.小文件的危害以及怎么处理
3.spark中宽依赖、窄依赖
4.stage的划分
5.kafka怎么保证数据不重复消费(没回答上,但说了怎么重复消费数据)
6.checkpoint机制
7.spark的三种join(boardcast join,sort merge join,shuffle hash join)
7.四道sql(前两道很简单,第三道次日留存和七日留存,第四道连续登录问题)
8.算法题:移动最少区间个数 使得剩余区间无重叠
1. 输入:[1,2][2,3][4,6][1,3]
2. 输出:1
3. 解释:移除[1,3]后,剩余区间无重叠
(面试后在牛客网看见有人分享这道算法题)
一面最后面试官还问我以后的计划,我说打算先实习明年春招边实习边找工作,她居然问我没想留着字节吗(我当然想!)
中间有些问题没想起来,耗时1小时40分钟
二面(面试官很好!问的都是和数仓相关的,结合我的实习问)
1.之前工作都干了什么
2.之前实习搭建数仓的结构
3.了解事实表吗,了解维度表吗
4.怎么和其他人对接的
5.你属于风控部门,但主要是构建数仓开发,那有没有和其他数据开发人员交流过
6.你只有一段实习吧,那实习前后有什么感悟吗
7.为什么要选择数据开发(我说因为之前实习是干数仓的,他说不要因为之前干什么就觉得以后三十年干什么,实习还是丰富点,看看干什么)
8.最后反问
二面耗时50分钟,感觉面试官对我回答的第七个问题不满意,只是我明年要毕业了,得多来一份垂直的实习
建议多复习spark、hive方面的八股文、概念问题,实习生主要负责离线数仓开发#牛客AI配图神器#
1.spark中rdd叫弹性分布式数据集,这个弹性的含义
2.小文件的危害以及怎么处理
3.spark中宽依赖、窄依赖
4.stage的划分
5.kafka怎么保证数据不重复消费(没回答上,但说了怎么重复消费数据)
6.checkpoint机制
7.spark的三种join(boardcast join,sort merge join,shuffle hash join)
7.四道sql(前两道很简单,第三道次日留存和七日留存,第四道连续登录问题)
8.算法题:移动最少区间个数 使得剩余区间无重叠
1. 输入:[1,2][2,3][4,6][1,3]
2. 输出:1
3. 解释:移除[1,3]后,剩余区间无重叠
(面试后在牛客网看见有人分享这道算法题)
一面最后面试官还问我以后的计划,我说打算先实习明年春招边实习边找工作,她居然问我没想留着字节吗(我当然想!)
中间有些问题没想起来,耗时1小时40分钟
二面(面试官很好!问的都是和数仓相关的,结合我的实习问)
1.之前工作都干了什么
2.之前实习搭建数仓的结构
3.了解事实表吗,了解维度表吗
4.怎么和其他人对接的
5.你属于风控部门,但主要是构建数仓开发,那有没有和其他数据开发人员交流过
6.你只有一段实习吧,那实习前后有什么感悟吗
7.为什么要选择数据开发(我说因为之前实习是干数仓的,他说不要因为之前干什么就觉得以后三十年干什么,实习还是丰富点,看看干什么)
8.最后反问
二面耗时50分钟,感觉面试官对我回答的第七个问题不满意,只是我明年要毕业了,得多来一份垂直的实习
建议多复习spark、hive方面的八股文、概念问题,实习生主要负责离线数仓开发#牛客AI配图神器#
全部评论
spark弹性定义
蹲蹲楼主oc了吗
相关推荐
点赞 评论 收藏
分享

点赞 评论 收藏
分享