首页 > 试题广场 >

在当下比较流行的分布式数据处理平台 Spark 中

[不定项选择题]

在当下比较流行的分布式数据处理平台 Spark 中,有一些常用的高阶算子,比如说 flatMap, filter, groupByKey等等;它们中的某些算子会触发shuffle操作,所谓shuffle,粗略的可以理解为要处理的数据集的内部分区需要进行重排,而不是原地计算。下面哪个算子会引起shuffle? ()

  • map
  • count
  • sortByKey
  • join
Count是action,忽略了
发表于 2021-11-08 04:45:52 回复(0)

spark中会导致shuffle操作的有以下几种算子、

1、repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等
2、byKey类的操作:比如reduceByKey、groupByKey、sortByKey等
3、join类的操作:比如join、cogroup等

发表于 2020-08-07 21:48:22 回复(0)
1.repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等
2.byKey类的操作:比如reduceByKey、groupByKey、sortByKey等
3.join类的操作:比如join、cogroup等

发表于 2020-03-13 11:03:01 回复(0)
引起shuffle:一般出现在由多个节点拉到一个节点来进行数据处理时,因为内存不够而触发溢写。
发表于 2021-03-10 11:12:47 回复(0)
好像join不一定会shuffle吧?求解
编辑于 2021-02-20 11:08:36 回复(2)
repartition,join,bykey 三大类
发表于 2021-08-28 06:49:33 回复(0)
Map阶段各task count的结果需要shuflle然后在reduce阶段累加,这个有问题吗
发表于 2021-06-18 19:29:15 回复(0)