滴滴 数开 日常实习一面
项目
说一个你最熟悉项目,你在这里面主要在做什么工作
离线主要写的是这种 Spark SQL 是吗?
spark问题排查与优化
我给你一个这个实际的场景吧。比如说你的一个任务,之前就是每天大概30分钟就能跑完,现在突然跑了两个小时,然后对于这个情况,你的分析以及定位解决的思路是什么样的?
那你怎么判断出它确实是倾斜的呢?
那看到这个 tasks 倾斜之后呢?你会怎么去解决?
OK,刚才你说的是这个解法啊,就是现在的话,就是说你知道了这个,stage 也倾斜了,那你怎么我知道,是你这个 sql 里面,可能你这个 sql 比较比较长,对吧?发生倾斜的可能是有 join、group by 很多很多种情况。那你这个你这个很长的 sql 里面可能有很多的 join 很多的 group by 那你怎么知道是哪段 sql 发生倾斜的呢?
你说的具体是 Spark 的哪个?UI 的哪个界面啊就是这 Spark UI 界面你之前看过是吧?有没有深析?有没有深入的研究过这个上面的一些指标的含义?以及每个页面它具体承载了哪些信息?
那你说一下这个 spark 任务的一个大概的提交流流程是什么样的?
最后就是一道sql题并且讲述解题逻辑
求10分钟内连续下单的order_id
说一个你最熟悉项目,你在这里面主要在做什么工作
离线主要写的是这种 Spark SQL 是吗?
spark问题排查与优化
我给你一个这个实际的场景吧。比如说你的一个任务,之前就是每天大概30分钟就能跑完,现在突然跑了两个小时,然后对于这个情况,你的分析以及定位解决的思路是什么样的?
那你怎么判断出它确实是倾斜的呢?
那看到这个 tasks 倾斜之后呢?你会怎么去解决?
OK,刚才你说的是这个解法啊,就是现在的话,就是说你知道了这个,stage 也倾斜了,那你怎么我知道,是你这个 sql 里面,可能你这个 sql 比较比较长,对吧?发生倾斜的可能是有 join、group by 很多很多种情况。那你这个你这个很长的 sql 里面可能有很多的 join 很多的 group by 那你怎么知道是哪段 sql 发生倾斜的呢?
你说的具体是 Spark 的哪个?UI 的哪个界面啊就是这 Spark UI 界面你之前看过是吧?有没有深析?有没有深入的研究过这个上面的一些指标的含义?以及每个页面它具体承载了哪些信息?
那你说一下这个 spark 任务的一个大概的提交流流程是什么样的?
最后就是一道sql题并且讲述解题逻辑
求10分钟内连续下单的order_id
全部评论
楼主Spark项目经验丰富啊
耐面王
耐面王
之前面网约车挂了
相关推荐
查看5道真题和解析 点赞 评论 收藏
分享