快手 数据开发 一面 55min
1、自我介绍
2、spark宽窄依赖,stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分,内存调优参数
6、spark的join有哪些,sort merge(没答出来)
7、spark的shuffle过程,和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层,dws层存在的必要性是什么
10、spark以及sql的优化经验(数据倾斜除了加前缀还有什么方法,大表join大表怎么办)
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果(没答上来,面试官说底层先会转成double)
13、round和roundseed的区别(面试官说假如maptask失败后round会分配到不同的reduce中,roundseed每次随机的值是一样的,网上没有查到roundseed,有没有大佬教教是不是我听错了)
14、两道sql
①连续登录天数
②互相关注的用户(用case+concat)
一次体验不错的面试,面试官人真的好好,很耐心引导我不会的问题,许愿二面
更新 3.29二面
2、spark宽窄依赖,stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分,内存调优参数
6、spark的join有哪些,sort merge(没答出来)
7、spark的shuffle过程,和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层,dws层存在的必要性是什么
10、spark以及sql的优化经验(数据倾斜除了加前缀还有什么方法,大表join大表怎么办)
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果(没答上来,面试官说底层先会转成double)
13、round和roundseed的区别(面试官说假如maptask失败后round会分配到不同的reduce中,roundseed每次随机的值是一样的,网上没有查到roundseed,有没有大佬教教是不是我听错了)
14、两道sql
①连续登录天数
②互相关注的用户(用case+concat)
一次体验不错的面试,面试官人真的好好,很耐心引导我不会的问题,许愿二面
更新 3.29二面
全部评论
他说的random seed应该是用在sample函数里面的参数。估计想问你用sample函数处理数据倾斜问题这个点
送花
回复
分享
roundseed到底是什么😭😭
送花
回复
分享
网易互娱
官网直投
后续咋样了佬
送花
回复
分享
佬,二面约了吗
送花
回复
分享
佬是因为你的项目用spark嘛,怎么全是spark
送花
回复
分享
佬,有后续吗
送花
回复
分享
相关推荐
点赞 评论 收藏
转发
点赞 评论 收藏
转发
点赞 评论 收藏
转发
点赞 评论 收藏
转发