数开岗,面的非常愉快一开始先介绍了面试流程1.自我介绍,挑实习经历讲一讲2.代码手撕3.八股考察4.QA环节直接介绍实习经历,没有自我介绍,讲了10分钟开始手撕。1.数据是真实数据吗2.来源系统是同一个系统吗了解了一下主要做的项目数据来源手撕:问了下比较熟的编程语言(java)连续子数组最大和多少知道虾皮是干嘛的吗SQL 求销量表,每个类别下售量TOP10的商品id排名连续怎么做衣服这一品类数据量特别多,导致数据倾斜怎么处理,只针对这一场景处理(二次聚合)给谁加随机值,怎么加,举例还有别的方法吗,只针对这个情景(压缩)你知道spark有做这件事吗(压缩)自己工作中会开这个配置吗spark和flink哪个比较熟,或者其他组件哪个学的好,可以自己挑个熟悉的来讲,还是随便挑个问1.flink状态后端知道哪些2.讲一下checkpoint是在干嘛3.如果状态后端是Rocksdb,checkpoint是怎么存的4.一个算子是怎么知道自己该做checkpoint5.从checkpoint恢复的时候,怎么做的6.一个算子,怎么知道恢复时应该读哪份文件7.看过checkpoint文件里面的结构吗8.有遇到过从checkpoint恢复时失败,是由于算子找不到从哪恢复的问题吗spark方面的问题1.executor, 他的内存分成几部分?堆内堆外内存区别为什么会有堆内堆外内存2.在shuffule的过程中,这几部分是否/如何参与其中3.节点0OM,我有哪些方法或者配置,去优化?最后反问总结,面试官全程态度超好,一直在说别着急,没问题,会有正反馈,体验最好的一次面试