Spark数据倾斜问题总结与优化措施

在Spark分布式计算的世界里，数据倾斜是个让人头疼的老大难问题。简单来说，它指的是在并行处理任务时，数据分布不均衡，导致某些任务背负了过重的工作量，而其他任务却轻松得像在度假。这种失衡不仅拖慢了整体计算速度，还可能引发内存溢出甚至任务失败，严重影响Spark应用的性能和稳定性。

一、数据倾斜是什么？它长啥样？

在Spark的分布式环境中，数据倾斜（Data Skew）是个常见的“拦路虎”。它发生在数据分布不均时，某些分区或任务处理的数据量远超其他部分，导致负载失衡。想象一下，一个团队干活，大部分人几分钟就搞定任务，而一两个人却要加班到深夜——这就是数据倾斜的真实写照。

典型表现

数据倾斜的“症状”其实不难发现，主要有这么几种：

任务执行时间差距悬殊：大部分任务几秒钟跑完，但少数任务拖了好几分钟甚至几小时，像蜗牛一样爬行。

资源使用极度不均：某些Executor内存爆满，频繁触发垃圾回收（GC），甚至直接挂掉，而其他节点却闲得发慌。

Shuffle阶段异常缓慢：数据在节点间传输时，某些分区数据量爆炸，导致网络和磁盘I/O压力山大。

这些现象一旦出现，基本可以断定：数据倾斜来敲门了！比如在一个电商数据分析项目中见过这样的场景：处理订单数据时，大多数分区几秒钟搞定，可某个分区因为包含了“双十一”爆款商品的记录，愣是跑了17个小时。这不仅拖慢了作业进度，还让集群资源白白浪费。

二、数据倾斜为啥会发生？

要解决问题，得先搞清楚它从哪儿来。数据倾斜不是凭空冒出来的，它背后有两大“幕后推手”：数据本身的特性和Spark的处理机制。咱们分开来看。

1. 数据本身的特性

数据倾斜的根源往往藏在数据里，具体有这么几个常见原因：

键值分布不均衡 这是最常见的情况。现实世界的数据很少是均匀分布的，总有些“明星键”特别抢眼。比如在电商场景中，爆款商品的订单量可能是普通商品的几百倍；在社交网络中，明星用户的粉丝数轻松碾压普通用户。这种天然的不均衡直接导致某些键对应的数据量激增，任务分配时自然就“倾斜”了。

异常数据作祟 有时候，数据中会混入一些“怪胎”，比如系统bug导致某个键重复记录了上百万次，或者人为失误让某些字段值异常膨胀。这些异常数据就像定时炸弹，一旦被分配到某个任务，就会让它不堪重负。

2. Spark的处理机制

除了数据本身，Spark自身的运作方式也可能放大倾斜问题：

默认分区策略的短板 Spark用哈希分区来分配数据，按理说能均匀分布。但如果键值分布本身就偏斜，哈希函数再怎么努力，也难免让某些分区“超载”。比如，某个键值的数据量占了总量的80%，它大概率会挤到同一个分区里。

Shuffle操作的“天坑” Shuffle是Spark的核心操作，像groupByKey、reduceByKey这样的聚合操作都需要它。可问题是，Shuffle会把相同键的数据拉到同一个节点处理。如果某个键的数据量太大，这个节点就成了“苦力”，其他节点却在旁边看戏。

并行度设置不合理 并行度（partition数量）设置得不好，也会加剧倾斜。太低了，分区数不够，数据容易堆积；太高了，反而增加管理开销。找个合适的并行度，之前跑spark耗时任务，就是反复调试并行度，找到相对最优解。

三、怎么发现数据倾斜？

光知道原因还不够，得学会“诊断”。在Spark中，识别数据倾斜主要有两种武器：Spark UI和数据分析。咱们挨个儿拆解。

1. 用Spark UI抓“现行”

Spark UI是你的“侦探助手”，能直观展示任务执行情况。操作步骤很简单：

打开Spark应用的Web UI。
点进“Stages”标签，盯着“Duration”列看。
如果某个Stage耗时远超其他（比如一个17小时，其他几秒），八成是数据倾斜在捣乱。

再深入一点，可以关注这些指标：

Shuffle读写数据量：如果Shuffle Write是7.2GB，Shuffle Read却飙到3.7TB，说明数据在某个节点堆积了。

Task时间分布：点进具体Stage，看Task列表。如果大部分Task几秒结束，个别却跑了几分钟甚至更久，倾斜的“罪证”就很明显了。

2. 数据分析挖根源

光看UI还不够，得用代码分析数据分布。以下是几个实用招数：

采样+分组统计 用10%采样数据快速摸底：

  val sampleDF = data.sample(false, 0.1)
  sampleDF.groupBy("key").count().orderBy(desc("count")).show()

如果结果里某些键的计数高得离谱（比如某个键出现100万次，其他才几百次），这就是倾斜的证据。

统计概要 用describe()快速看数据分布：

data.describe().show()

如果某个字段的标准差比均值大得多，说明分布不均匀，可能埋着倾斜的隐患。

分位数检查 用approxQuantile看看数值型数据的分布：

val quantiles = data.stat.approxQuantile("value", Array(0.25, 0.5, 0.75), 0.01)
println(quantiles.mkString(", "))

分位数差距太大（比如75%位是10万，25%位却只有100），说明数据极端不均。

直方图可视化 用histogram画个分布图：

val hist = data.select("value").rdd.flatMap(_.getDouble(0)).histogram(100)
println(hist._1.mkString(", "))
println(hist._2.mkString(", "))

如果大部分桶几乎为空，少数桶数据爆棚，倾斜问题就暴露无遗。

四、解决数据倾斜的

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大数据从入门到精通-最全面试题文章被收录于专栏

17年+码农经历了很多次面试，多次作为面试官面试别人，多次大数据面试和面试别人，深知哪些面试题是会被经常问到。在多家企业从0到1开发过离线数仓实时数仓等多个大型项目，详细介绍项目架构等企业内部秘不外传的资料，介绍踩过的坑和开发干货，分享多个拿来即用的大数据ETL工具，让小白用户快速入门并精通，指导如何入职后快速上手。计划更新内容100篇以上，包括一些企业内部秘不外宣的干货，欢迎订阅！