前几天也面试了贝壳,感觉大部分是八股1 先自我介绍2说一下mapreduce的几次排序,都是啥排序,大概是在啥时间进行的排序3说一下spark的3种join,这3种join为啥可以进行优化代码,哪些场景适合啥join4 说一下数据倾斜的现象,你工作中有遇到吗,是怎么解决的,解决思路是啥,解决完成之后时效有明显提升吗5 平时任务有时效性要求吗,比如业务需要1点前产出,你们这边怎么设置任务基线,怎么确保任务准时产出6 晚上对于脏数据和异常起夜都是怎么应急处理的,大概会有谁参与7 对于数据治理你感觉需要治理啥,哪些治理的收益大8你这边有啥需要找我了解的个人觉得大部分是八股,其它都是一些主要场景,没有问实时,估计实时不多