三石大数据

2023-05-19 15:09 门头沟学院大数据开发工程师

关注

面试聊数仓第二季之计算优化

1.计算优化

主要从数据倾斜方面讨论任务优化

Map倾斜

为什么

Map的主要功能是从磁盘中将数据读入内存，由于读入数据的文件大小分布不均匀，因此会导致有些map task读取并且处理的数据特别多，而有些map task处理的数据特别少，造成map端长尾。以下两种情况可能会导致Map端长尾：
上游表文件的大小特别不均匀，并且小文件特别多
Map端做聚合时，比如map join，某些map task读取文件的某个值特别多

怎么办

针对第一种情况，可以对上游的小文件进行合并，通常就是调整小文件的参数来进行优化，比如调节map任务的map task的数量，以及调节单个map task读取的小文件个数。

针对第二种情况

-- 获取手机APP日志明细中的前一个页面的页面信息
select ...
from (
    select 
        ds,
        unique_id,
        pre_page
    from tmp_app_ut_1
    where ds = '${bizdate}'
    and pre_page is not null
    -- 优化如下
    distribute by rand()
) a
left join (
    select *
    from page_ut 
    where ds = '${bizdate}'
    and is_enable = 'Y'
) b
on 1=1
where a.pre_page rlike b.page_type_rule
;

我们可以通过distribute by rand()将map端分发后的数据重新按照随机值再进行一次分发。那么原先不加随机分发函数时，map阶段需要与使用mapjoin的小表进行笛卡尔积操作，map端完成了大小表的分发和笛卡尔积操作。使用随机分发函数后，map端只负责数的分发，不再有复杂的聚合或者笛卡尔积操作，因此不会导致map端长尾。

总结套路

在开发过程中如果遇到map端长尾的情况，首先考虑如何让map task读取的数据量足够均匀，然后判断是哪些操作导致map task比较慢，最后考虑这些操作是否必须在map端完成，在其他阶段是否会做得更好。

Join倾斜

为什么

Join操作需要参与Map和Reduce的整个阶段，这里以一段SQL为例来看Join的整个过程

select student_id, student_name, course_id
from student 
left join student_score
on student.student_id = student_score.student_id

这里主要介绍三种常见的Join倾斜场景
Join的某张表输入比较小，可以采用MapJoin
Join的每张表输入都较大，且长尾是空值导致的，可以将空值处理成随机值
Join的每张表输入都较大，且长尾是热点值导致的，可以对热点值和非热点值分别进行处理，再合并数据

怎么办

针对第一种情况：如果某张表输入比较小，则可以采用mapjoin避免倾斜
mapjoin原理：将reduce操作提前到map端执行，将小表读入内存，顺序扫描大表完成join。
使用方法：在select后加上 /*+mapjoin(a)*/即可，其中a代表小表；如今大数据平台一般可以自动选择是否使用mapjoin，不需要显式设置
针对第二种情况：
数据表中经常出现空值的数据，如果关联key为空值且数据量比较大，join时就会因为空值的聚集导致长尾，针对这种情况可以将空值处理成随机值。因为空值无法关联上，只是分发到一处，因此处理成随机值既不会影响关联结果，也能很好的避免聚集导致长尾
使用方法：

select ...
from t1
left join t2
on coalesce(t1.key, rand()*9999) = t2.key

针对第三种情况：
如果是因为热点值导致的长尾，并且join的输入比较大无法使用mapjoin，则可以先将热点key取出，对于主表数据用热点key切分成热点数据和非热点数据两部分分别处理，最后合并。
使用方法：这里以淘宝的PV日志表关联商品维表为例进行介绍获取热点key：
将PV大于50000的商品id取出到临时表中

insert overwrite table topk_item
select item_id
from (
    select 
        item_id,
        count(1) cnt
    from pv
    where ds='${bizdate}'
    and item_id is not null
    group by item_id
) a
where cnt >= 50000

获取热点数据
将pv表和热点key表关联，取到热点商品的日志数据。同时，将商品维表和热点key表关联，取到热点商品的维表数据。然后将两部分数据进行关联。

select /*+MAPJOIN(a)*/
    ...
from (
  select /*+MAPJOIN(t1)*/
      t2.*
  from (
      select item_id
      from tokp_item
      where ds = '${bizdate}'
  ) t1
  join (
      select *
      from pv
      where ds = '${bizdate}'
      and item_id is not  null
  ) t2
  on t1.item_id = t2.item_id  
) l
left join (
  select /*+MAPJOIN(t1)*/
      t2.*
  from (
      select item_id
      from tokp_item
      where ds = '${bizdate}'
  ) t1
  join (
      select *
      from item
      where ds = '${bizdate}'
  ) t2
  on t1.item_id = t2.item_id  
) a
on a.item_id = l.item_id

获取非热点数据
将pv表和热点key表进行外关联，key为null的数据即非热点商品的日志数据。然后再关联商品维表

select ...
from (
    select 
    from (
        select item_id
        from topk_item
        where ds = '${bizdate}'
    ) t1
    right join (
        select *
        from pv
        where ds = '${bizdate}'
    ) t2
    on t1.item_id = t2.item_id
    where t1.item_id is null
) l
left join (
    select *
    from item 
    where ds = '${bizdate}'
) a
on l.item_id = a.item_id

将上面取到的热点数据和非热点数据通过union all合并后即可得到完整的日志数据，并关联了商品信息

总结套路

在开发过程中如果遇到join倾斜的情况，首先分析两张表的大小，如果有小表，首选mapjoin；如果都是大表，那么就需要分析大表key值的分布；如果空值较多，则将其处理成随机值；如果存在热点值，则找热点key，分别获取热点数据和非热点数据，然后进行union all即可。

Reduce倾斜

为什么

reduce端负责的是对map端梳理后的有序k-v键值对进行聚合，即进行count、sum、avg等聚合操作。产生长尾的主要原因就是 key的数据分布不均匀，常见的几种情况如下：
map端直接做聚合时出现key值分布不均匀
动态分区数过多时可能造成小文件过多，从而引起reduce端长尾
多个distinct同时出现在一段SQL代码中时，数据会被分发多次，不仅会造成数据膨胀N倍，还会把长尾现象放大N倍

怎么办

针对第一种情况，参考join倾斜部分
针对第二种情况：
背景：假如有K个map task，N个目标分区，那么最坏的情况下，可能产生KxN个小文件
解决办法：把相同的目标分区交由同一个reduce task来写入，避免小文件过多
针对第三种情况：
背景：在7天、30天等时间范围内，分PC端、无线端、所有终端，计算支付买家数和支付商品数，其中支付买家数和支付商品数都需要去重。因为需要根据日期、终端等多种条件组合对买家和商品进行去重计算，因此有6个count distinct计算。
解决办法：以计算支付买家数为例，可以分两次进行查询，先执行group by 原粒度+buyer_id，计算出所有口径下的买家支付的次数（不去重），然后再执行group by原粒度，当上一步的count值大于0时，说明这一买家在这个统计口径下有过支付，计入支付买家数，否则不计入。

总结套路

重点关注一下multi distinct的情况，如果出现多个需要去重的指标，那么在不同指标join在一起之前，一定确保指标的粒度时原始表的数据粒度。

#数仓面试##数据人的面试交流地##如何判断面试是否凉了##软件开发薪资爆料#

全部评论

推荐最新楼层

01-30 20:54

已编辑

蚌埠坦克学院嵌入式软件开发

禾赛科技嵌入式软件工程师一面面试题

前言禾赛科技作为全球领先的激光雷达制造商，嵌入式岗位主要面向激光雷达底层驱动、数据处理、通信协议等方向。一面考察C语言基础、操作系统、嵌入式系统、网络通信及激光雷达行业知识，难度中等偏上，时长约40分钟。禾赛科技嵌入式一面14题详解1. 请介绍一下你自己，以及你对激光雷达行业的了解参考答案：面试官您好，我是XXX，XXX大学XXX专业。技术栈方面熟练掌握C/C++，熟悉ARM Cortex-M/A系列开发，有Linux驱动和FreeRTOS经验，掌握UART、SPI、CAN、以太网等通信协议。项目经验上做过多传感器融合系统和Linux工业相机驱动开发，对传感器数据采集和处理有深入理解。关于激光...

嵌入式面试八股文全集

点赞评论收藏

分享

01-29 15:35

西北大学安卓

AI求职Prompt合集：适合0实习选手

Prompt1：项目亮点提炼我的项目：【项目名称及你的角色】 技术栈：【列出使用的技术】 请帮我提炼3个最能体现技术能力的亮点，每个亮点：用一句话说明做了什么用数据说明效果突出技术难点或创新点Prompt2：平淡项目包装我有一个比较常规的项目，担心写在简历上没有亮点： 项目背景：【描述】 我的职责：【描述】 使用技术：【列出】 请帮我从以下角度挖掘亮点： 1. 技术选型的考量 2. 遇到的难点和解决方案 3. 可量化的成果（即使是小的提升） 4. 与其他方案的对比优势 输出3个版本的描述，从保守到略微包装（但不夸大事实）。Prompt 3：弱化学历背景（双非/专科）我的学历背景：【学校+专业】...

点赞评论收藏

分享

2025-12-10 14:51

门头沟学院 Java

携程真的抠啊！

985硕，后端岗位，给了23*15，太侮辱人了，秒拒

桌子不祁邓紫棋：嘤嘤嘤，请务必这么侮辱我

校招薪资来揭秘

点赞评论收藏

分享

01-26 14:59

华南农业大学 Java

27届想卷java 这个简历大三下能找到实习吗

Edgestr：没项目地址就干脆把那一栏删了呗

点赞评论收藏

分享

01-28 09:19

厦门大学驱动开发

影石嵌入式面经

最近影石的秋招真是让我心潮起伏，虽然之前已经决定放弃，但影石的抬价让我又重新燃起了希望。所以，我决定分享一下我的面试经历，希望能帮到同样在准备秋招的小伙伴们。一面面经： 💪一面的面试官真是技术大咖，问题一个接一个，完全没有停下来的意思。以下是我被问到的一些问题：为什么选择MNN推理框架？有没有调研过其他的？模型从训练到端侧用MNN作推理的流程是什么？实习任务中，int8和半精度的性能提升明显吗？MNN的具体实现和优化策略是什么？双线性插值的4个点的权重如何分配？仿射变换用了什么NEON指令集，做了什么运算？ax+b用矢量去做加速，会用哪条指令？HWC和CHW以及NC4HW4的区别是什么？如果...

点赞评论收藏

分享

评论

5

23

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 论秋招对个人心气的改变 #

3308次浏览 68人参与

# 牛客AI体验站 #

1665次浏览 59人参与

# 刚入职的你踩过哪些坑 #

2311次浏览 61人参与

# 在大厂上班是一种什么样的体验 #

1801次浏览 26人参与

# 程序员找工作至少要刷多少题？ #

4294次浏览 73人参与

# 关于春招/暑期实习，你想知道哪些信息？ #

2547次浏览 64人参与

# 一张图晒一下你的AI员工 #

1495次浏览 45人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

918次浏览 35人参与

# 我现在比当时_，你想录用我吗 #

2414次浏览 42人参与

# 程序员能干到多少岁？ #

3433次浏览 51人参与

# 产品人求职现状 #

320200次浏览 2422人参与

# AI Coding的使用心得 #

1359次浏览 38人参与

# 你的工资什么时候发？ #

55400次浏览 345人参与

# 实习，不懂就问 #

162707次浏览 1452人参与

# 你投了多少份简历了？ #

421373次浏览 3933人参与

# 金三银四，你有感觉到吗 #

679293次浏览 6047人参与

# 帆软软件工作体验 #

12378次浏览 67人参与

# 暑假倒计时，你都干了些啥？ #

40056次浏览 213人参与

# 晒晒你司的新年福利 #

2325次浏览 47人参与

# 软开人，秋招你打算投哪些公司呢 #

179872次浏览 1378人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务