spark初学者想问一个关于数据混洗的问题
看网上说除了count之外的bykey操作能引发数据混洗,在combineByKey()方法中,说是每个分区单独操作所以要传一个mergeCombine操作,将不同分区中同一个键值合并。但是数据混洗的过程不就是将键值按照其哈希值进行分区,这样的话不就可以保证相同的键值在同一个分区了吗,为什么还要将不同分区的同一个键值进行合并呐~
不知道是不是我对数据混洗理解有误,跪求大神指教~
相关推荐
NewCoderAA...:面试官说这话兴许有可能是暗示,但是hr面的hr都会说这句话的,这是她们的礼貌用语