滴滴 数开 日常实习一面

项目
说一个你最熟悉项目,你在这里面主要在做什么工作
离线主要写的是这种 Spark SQL 是吗?
spark问题排查与优化
我给你一个这个实际的场景吧。比如说你的一个任务,之前就是每天大概30分钟就能跑完,现在突然跑了两个小时,然后对于这个情况,你的分析以及定位解决的思路是什么样的?
那你怎么判断出它确实是倾斜的呢?
那看到这个 tasks 倾斜之后呢?你会怎么去解决?
OK,刚才你说的是这个解法啊,就是现在的话,就是说你知道了这个,stage 也倾斜了,那你怎么我知道,是你这个 sql 里面,可能你这个 sql 比较比较长,对吧?发生倾斜的可能是有 join、group by 很多很多种情况。那你这个你这个很长的 sql 里面可能有很多的 join 很多的 group by 那你怎么知道是哪段 sql 发生倾斜的呢?
你说的具体是 Spark 的哪个?UI 的哪个界面啊就是这 Spark UI 界面你之前看过是吧?有没有深析?有没有深入的研究过这个上面的一些指标的含义?以及每个页面它具体承载了哪些信息?
那你说一下这个 spark 任务的一个大概的提交流流程是什么样的?
最后就是一道sql题并且讲述解题逻辑
求10分钟内连续下单的order_id
全部评论
楼主Spark项目经验丰富啊
点赞 回复 分享
发布于 11-14 11:24 广东
耐面王
点赞 回复 分享
发布于 11-14 11:23 北京
耐面王
点赞 回复 分享
发布于 11-13 16:13 安徽
之前面网约车挂了
点赞 回复 分享
发布于 11-13 15:58 安徽

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务