常见算子的数据倾斜解决方案_牛客网

蚌埠坦克学院大数据开发工程师发布于上海

关注

@三石大数据：常见算子的数据倾斜解决方案

推荐阅读文章列表大数据开发面经汇总【持续更新...】我的大数据学习之路大数据开发面试笔记V6.0前言数据倾斜既是工作中最常见的一个问题，也是大数据求职面试中最常见的一个话题。想必大家一定听说过数据倾斜，也知道很多的解决方案，但是你是否知道哪些算子最容易发生数据倾斜，对应的解决方案又有哪些呢？比如最常见的热门算子：join、group by、count(distinct)、row_number【数据倾斜出现频率从高至低】本文将会从 数据倾斜定义、如何分析数据倾斜、解决方案 三个方面来剖析数据倾斜问题数据倾斜定义定义：通俗来讲，一张表中某个或某些特定值出现的频次远大于其他数值，这样就会导致某个或某些task处理的数据量远超过其他task，因此发生数据倾斜。举例：下图是计算所有大学生每门技术的学习人数，可以发现学习hadoop的人数远大于spark，那么处理hadoop的task的压力就会更大，导致数据倾斜。如何分析数据倾斜确诊问题（判断问题是不是数据倾斜）定位问题（判断具体是哪段代码发生数据倾斜）分析问题（分析造成数据倾斜的原因是什么）具体来讲：打开sparkui界面，查看所有stage的执行时长，是否存在某个或某几个stage执行时长大大超过了其余stage的平均时长获取执行时长最长的stage的id，到DAG图中进行搜索，找到对应的执行代码通过Python/SQL分析代码涉及到所有表的shuffle key的分布，观察是否存在某个key分布较集中解决方案Join两种情况，一种是大小表join，一种是大大表join大小表join：开启mapjoin即可-- b是小表（MB级及以下） a是大表（GB及以上）select /*+mapjoin(b)*/    a.*from aleft join bon a.id = b.id大大表join：【存在热点值】：拆分热点和非热点-- 1.识别表a的热点key，并保存在tmp表中-- 2.热点key和表b进行join-- 3.非热点key和表b进行join-- 4.将2和3的结果合并一起select /*+mapjoin(a)*/a.id, a.name, b.scorefrom (select * from a where a.id in (select id from tmp)) ajoin bon a.id = b.idunion allselect a.id, a.name, b.scorefrom (select * from a where a.id not in (select id from tmp)) ajoin bon a.id = b.id【不存在热点值】：采用分桶join  create table t (      a string,      b string  )   partitioned by (dt string)  clustered by (b) into 2048 buckets;Group By加盐打散-- 优化前sqlselect id, count(*)from t group by id;-- 优化后sqlselect     t.id,    sum(t.cnt)from (    select         id,         case when id in ('1001','1002') then cast(rand() * 100 as bigint),         count(*) as cnt    from t    group by         id,         case when id in ('1001','1002') then cast(rand() * 100 as bigint)) tgroup by t.id;Count Distinct-- 优化前sqlselect dt, count(distinct user_id) as cntfrom tgroup by dt ;方式1：两阶段聚合+加盐打散select     split(rand_dt, '_')[1] as dt,    count(*) as cntfrom (    select         concat(cast(rand() * 10 as bigint), '_', dt) as rand_dt        user_id    from t    group by         concat(cast(rand() * 10 as bigint), '_', dt)        user_id) tgroup by split(rand_dt, '_')[1];方式2：构建bitmapselect     dt,     getcardinality(idbits) as cnt  -- 2. 计算基数from (    -- 1.转换为bit    select         dt,         id2bit(user_id) as idbits    from t) tgroup by dtRow_number加盐打散-- 需求：计算每个用户的成绩排名（假设大量用户id进入到同一个reduce进行计算）-- 优化前sqlselect     uid, score,     row_number() over(partition by uid order by score desc) rkfrom t-- 优化后sqlselect     uid, score,     row_number() over(partition by uid, bucket order by score desc) rkfrom （    select         uid, score, cast(rand() * 10 as bigint) as bucket    from t）t下期预告关于数据治理，我有些话要说

点赞 7

评论 1

全部评论

推荐最新楼层

07-15 14:14

门头沟学院 Java

地平线26秋招已挂

7.10投递7.15感谢信

投递地平线等公司7个岗位

点赞评论收藏

分享

今天 13:40

门头沟学院客户端其它

给我一个录用你的理由

如题，当你在终面时，Hr问这个问题，你会怎么回答。思考5秒钟......，评论区写出你的答案。这个问题不好回答，但是凡事都有个例。我倒是听过一个哥们的完美答案。他说：“我叔叔是XXX政府人员，他和你们集团的XXX认识”这个理由挺完美吧至于真问到，兄弟们说不说，就看兄弟们翅膀有多硬了。#牛客AI配图神器#

上官云：我是索隆的人，这个理由够权威吧

面试问题记录

点赞评论收藏

分享

06-09 23:48

贵州大学 Java

26届无实习，六月份还有机会吗？

某聘连着投了几天，发了两三百份实习沟通，回复的HR寥寥无几，发了十多次简历，且大多还都是已读不回，还没面试过，只拿到一个远程全栈开发，叫我写前端我拒了，这可如何是好，还有补救机会吗？如果没实习，秋招还有机会吗？

陈100：实习和你秋招关系不是特别大，又不是所有的实习生入职公司都能学到东西。有实习只是增加面试机会了而已。

无实习如何秋招上岸

点赞评论收藏

分享

05-26 10:24

门头沟学院 Java

逆天了HR  

qq乃乃好喝到咩噗茶：其实是对的，线上面试容易被人当野怪刷了

找工作时遇到的神仙HR

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-16 11:59

从🥚仔变成csig🐧孝子的一周

上周四入的职，到今天马上一周了。腾讯满足了我对大厂的美好想象，早餐25额度随便刷，晚餐50额度但只能刷一次，中餐自费，但鹅厂的食堂真的好吃😋出了江湾才知道外面的食堂有多好mentor人也特别好，科研和生活上有啥问题都会帮忙，他了解到每天通勤来回快要接近三小时让我们每天可以早点回去晚点来哈哈哈，只可惜组里的人都在深圳，只有两个遗孤在上海🐧的免费咖啡也很好喝，比大部分市面上卖的都香（每天都省9.9）以及每周一还有免费的奶皮子下午茶。

投递腾讯等公司7个岗位

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 风评不好的公司，你会去吗？ #

37126次浏览 227人参与

# 假如你的老板掉河里，你的工作能为他做什么 #

31075次浏览 380人参与

# 第一份工作应该选高薪还是热爱？ #

70659次浏览 675人参与

# 职场新人体验 #

2883次浏览 33人参与

# 你觉得早上几点上班合适？ #

73474次浏览 308人参与

# 学历贬值真的很严重吗？ #

26074次浏览 179人参与

# 推荐一首陪你工作的歌吧 #

15114次浏览 99人参与

# 秋招签约后的心态变化 #

83769次浏览 820人参与

# 听劝，这个公司值得去吗 #

487433次浏览 1709人参与

# 双非能在秋招上岸吗？ #

223106次浏览 1180人参与

# 外包能不能当跳板？ #

37740次浏览 228人参与

# 面试被问第一学历差时该怎么回答 #

137771次浏览 853人参与

# 打工人的工作餐日常 #

54683次浏览 432人参与

# 大学最后一个寒假，我想…… #

47286次浏览 576人参与

# 反问环节如何提问 #

93643次浏览 1938人参与

# 一人推荐一个值得去的通信/硬件公司 #

186963次浏览 1861人参与

# 月薪多少能在一线城市生存 #

35644次浏览 351人参与

# 我想象的实习vs现实的实习 #

288323次浏览 2244人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

93157次浏览 686人参与

# 你上一次加班是什么时候？ #

89628次浏览 574人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务