关注
1.mapreduce中为何要hash partition分区
默认是hash分区 为了打散数据 分布式处理
分区方式可以自己定义 实现分区器自定义实现;
public class CustomPartitioner extends Partitioner<Text,Object>{
@Override
public int getPartition(Text key,Object value,int numPartitions){
//控制分区代码逻辑 返回int即可
return partition;
}
}
2.mapreduce中为何使用快拍和归并排序
快排:因为内存中排序比较快
数据在内存中是按照 entry1(k1v1),entry(k2v2),entry(k3v3) 这种方式排列的, kv组成一个entry 快排效率高
归并:对多个有序的小文件进行排序,不能单靠内存排,得借助磁盘
比如三个小文件分别是
1,4,6,8
1,5,8,8
0,3,7,11
同时打开所有小文件 分别使用迭代器取出第一个数 即1,1,0
此时0最小 将0追加写入新文件 并从三号文件通过迭代器拿出下一个数3
此事1最小 将1追加写入新文件 并从一号文件通过迭代器拿出下一个数4
直到所有文件都被迭代完 总的排序也就完成了
感觉会问你哪里用到排序了
1.map端的环形缓冲区用到快排
2.map端的小文件合并用到归并排序
3.reduce端将从map端拉取的文件进行归并排序
#数仓开发#
查看原帖
1 评论
相关推荐
点赞 评论 收藏
分享
牛客44176770...:这就是北邮的实力
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 27届实习投递记录 #
140497次浏览 1509人参与
# 求职中的尴尬瞬间 #
41337次浏览 122人参与
# 26届春招投递记录 #
46969次浏览 374人参与
# 如果可以选,你最想从事什么工作 #
830407次浏览 4935人参与
# 听劝,这个简历怎么改 #
422221次浏览 1900人参与
# 你们的毕业论文什么进度了 #
1397465次浏览 10084人参与
# 23届的你们都什么时候入职? #
265895次浏览 1137人参与
# 通信硬件知识分享 #
52744次浏览 552人参与
# 你觉得技术面多长时间合理? #
190849次浏览 1231人参与
# 美团求职进展汇总 #
3227040次浏览 25263人参与
# 绿盟笔试 #
6469次浏览 56人参与
# 我在大厂见过的最低学历 #
12613次浏览 99人参与
# 找工作中的小确幸 #
94657次浏览 476人参与
# 我想去国央企的原因 #
81830次浏览 424人参与
# 你觉得第一学历对求职有影响吗? #
279570次浏览 1506人参与
# 小米编程考试 #
42695次浏览 159人参与
# 秋招拿一个offer可以躺平吗 #
280333次浏览 1418人参与
# 如何成为1个AI工程师? #
9356次浏览 376人参与
# 工作压力大,你会干什么? #
87495次浏览 726人参与
# 你觉得机械有必要实习吗 #
90458次浏览 540人参与
查看16道真题和解析