关注
1. HashPartitioner 是默认的分区器,也可以用别的, 比如TotalOrderPartitioner, 也可以自定义开发。
第一个问题, 先回答为什么要分区 就是数据shuffle过程中的一种打散策略。
Hash散列化是最容易想到的。
2. 在MR当中会用到多次排序过程 特别是map输出到内存再溢写到磁盘时会产生大量的临时文件,这些小文件是不能直接交给Reducer处理的,而要进行一个合并的过程, 这个过程是带着map-key进行操作的 所以要用到归并排序。 在环形缓冲的内存区 使用快排, 原因我还没想到。
(https://blog.csdn.net/u010737756/article/details/114198358 )
3. 先定义和回顾数据倾斜的概念, 然后再思考join这个过程的实现 (reduce把相同key分组做笛卡尔积) 如果大表小表的差异巨大, 表现为小表的数据量比较少但key却比较集中,导致分发到某一个或几个reduce上的数据比其他reduce多很多,易造成数据倾斜。 常常会采用mapjoin 优化这类问题
查看原帖
5 评论
相关推荐
点赞 评论 收藏
转发
04-16 15:03
湖南工业大学 计算机类 点赞 评论 收藏
转发
牛客热帖
- 1... 携程oc了2.1W
- 2... 美团-Java后端-平台技术部-一面凉经(复活赛)9895
- 3... 【话术建议】求职者和企业的互骗话术?5356
- 4... 捞简历这件事儿4906
- 5... 字节抖音电商后端日常实习一二三面已oc4491
- 6... 31天勇闯盲审(附盲审经验4414
- 7... 我真是一个废物,废物本废,到现在也找不到实习不管回答上来,还是没回答上来,都不会有公司要我的。。。。。。。好了,emo完了,继续努力,总有眼瞎面试官能看上我的叭3959
- 8... 微信支付二面3611
- 9... 问一下xdm 怎么把拒绝过的Offer 再舔回来🥺2876
- 10... 线程题2716
正在热议
# 牛客帮帮团来啦!有问必答 #
685551次浏览 11265人参与
# 市场营销面经 #
3948次浏览 114人参与
# 2022届毕业生现状 #
315476次浏览 4396人参与
# 你会选择考研还是直接就业 #
74631次浏览 854人参与
# 我的上岸简历长这样 #
160712次浏览 3213人参与
# 无实习如何秋招上岸 #
219513次浏览 3433人参与
# 浅聊一下我实习的辛苦费 #
79835次浏览 742人参与
# 你的简历改到第几版了 #
298824次浏览 4513人参与
# 投了多少份简历才上岸 #
55693次浏览 940人参与
# 软件开发投递记录 #
465718次浏览 7117人参与
# 运营面经 #
10454次浏览 261人参与
# 科大讯飞求职进展汇总 #
36051次浏览 365人参与
# Offer比较,你最看重什么? #
49422次浏览 479人参与
# 毕业后不工作的日子里我在做什么 #
51972次浏览 687人参与
# 夸夸我的求职搭子 #
63567次浏览 774人参与
# 租房前辈的忠告 #
32653次浏览 2067人参与
# 秋招开了,你想投哪些公司呢 #
116184次浏览 3241人参与
# 硬件人的简历怎么写 #
77255次浏览 780人参与
# 写简历别走弯路 #
285886次浏览 3514人参与
# 产品面经 #
22099次浏览 426人参与