一面 1.项目拷打2.讲讲项目中重要的表3.数据清洗是怎么做的4.Spark中Driver和Execture,如果要计算比较大的表应该怎么分配内存5.如果我要广播一个100M的表我应该考虑哪些内容?6.Spark中默认广播大小是多少7.讲讲宽窄依赖8.宽依赖算子9.map跟mapPartition的区别10.hive中动态分区跟静态分区写入数据的区别11.flink一致性语义是怎么做的12.flink怎么处理迟到数据13.如果迟到1 2 个小时的数据,应该怎么处理14.水位线有哪几种?15.SQl题目 求出至少连续3次出现的数字16.项目中收获最大的是什么17.工作场景中,作为新人遇到一些问题,该怎么解决18.如果很多需求方都来需求,任务很紧急该怎么办19.反问HR面1.技术是学校课程还是自学的?2.往数据开发方向学习的原因3.java跟python的区别4.对数据工程师岗位的理解5.对那个项目理解比较深?6.项目主要做的工作有哪些7.项目比较耗费时间的事情是什么?8.项目中的困难点9.做项目中的成就感有哪些10.为什么选择深圳11.对实习有什么期望和想法12.目前投简历大概多长时间了13.反问