在当下比较流行的分布式数据处理平台 Spark 中,有一些常用的高阶算子,比如说 flatMap, filter, groupByKey等等;它们中的某些算子会触发shuffle操作,所谓shuffle,粗略的可以理解为要处理的数据集的内部分区需要进行重排,而不是原地计算。下面哪个算子会引起shuffle? ()
map
count
sortByKey
join
1、repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等 2、byKey类的操作:比如reduceByKey、groupByKey、sortByKey等 3、join类的操作:比如join、cogroup等
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题