可燃冰和红狮

2019-08-28 21:09 已编辑北京理工大学珠海学院 Java

关注

MapReduce完全过程（Shuffle）解析

零：知识储备

0.0MR框架中的节点分类

JobTracker：管理TaskTracker，对外接受请求

TaskTracker：处理请求，分配MapTask和Reduce Tesk任务

0.0切片

作用对象：Block的逻辑大小

切片的意义：逻辑划分数据大小，以便确定任务数量，一个切片对应一个Mapper

切片标准：按照Block大小的n倍（n 可为分数）来切分，避免跨Block切片，默认是Split=Block=128M（此时如果Block 10M 小文件那么Split也是10M）

注意：

如果文件不可切分（如压缩文件），就将一整个文件作为一个切片处理。

如果文件可以切分，并且 FileSize/SplitSize < = 1.1 就将余下的的文件内容拼接在上一个切片中来处理

例如：520M的可切分文件，在默认SpiltSize=128M的时候，对其进行切分，第一切片128M，第二切片128M，第三切片128M，第四切片128M，最后还剩下8M的文件大小，此时将这余下的文件内容拼接在最后一个切片中（第四切片），此时第四切片大小为128+8=136M大小。如果FileSize/SplitSize > 1.1则单独作为一个切片。

如果Split大小与Block大小没有n倍关系，有可能一个Split要对应两个Block，由于两个block不一定在同一机器节点上，此时可能会由于网络波动而影响执行效率

0.1缓存区

本质：字节数组，环形缓冲区

作用：缓存MapTask计算数据

默认大小：100M内存

溢写阈值：0.8，一旦缓冲区数据总量达到缓冲区数据大小的80%，开始对缓冲数据进行溢写，溢写的同时，MapTask还会将数据写入缓冲区。

溢写过程：缓冲区触及溢写阈值后，将其中的的计算数据写入磁盘生产溢写文件（spill），单整体的计算任务MapTask结束后，会将所有溢写文件合并（merge）为FinalOut文件输出给Reduce。

注意：为何溢写阈值为0.8，而不是1。

由于数据写入缓存区（内存）比较快，数据写出到磁盘比较慢，有可能会出现速度不一致的情况，旧的数据还没完全写出去，新的数据又写进来，数据可能被覆盖或者读写数据发生阻塞。预留0.2的内存空间，以便新数据有空间写入，同时磁盘读取缓存区的尾部数据写入到溢写文件

二：数据获取资源调度任务分配

二：Map数据处理

三：Reduce数据处理

全部评论

推荐最新楼层

10-16 10:38

老板电器_软件开发(准入职员工)

老板电器内推，老板电器内推码

🌟 工作环境：氛围轻松，学习成长空间大•公司氛围：公司文化很注重员工的个人发展，领导和同事都很友好，团队氛围轻松融洽。•学习机会：公司经常组织培训、分享会，帮助我们快速成长。•工作节奏：工作强度适中，偶尔会有忙碌的时候，但整体节奏还是可以接受的。🏡 住宿条件：地理位置优越，拎包入住•宿舍福利：公司提供员工宿舍，离地铁站很近，交通便利，步行10分钟就能到地铁口。•宿舍环境：宿舍是独立卫浴、拎包入住，公共区域有休息区、厨房，可以和同事一起做饭，氛围很温馨。•周边配套：附近有便利店、超市、菜市场，生活非常方便。🍜 食堂体验：品种丰富，价格实惠 •食堂种类：每天菜品很丰富，中餐、晚餐有10多种选...

老板电器公司氛围 194人发布

点赞评论收藏

分享

10-19 22:04

已编辑

福州大学 C++

百度笔试A卷

第一题 min*2>=max先找最小值，然后ans+=(nums[i]-1)/(min*2)例：最小值为3min*2=6任何大于6的num最优分解是6+(num-6)总的分解次数就是(num-1)/6补充：7实际不能分解为1+6而应该分解为3+4，但是我们不需要单独处理这种情况，只需要知道都是分解一次即可要用long long，没用20%第二题 gcd同一个区间所有数gcd，然后*区间大小，最后所有区间加起来就行要用long long ，没用0%第三题 先递增后递减我过了25，10％单独判断是否有序，15%正常求解我的想法是 先找到最小的，然后移动到最左或最右（比较一下哪边近）（不用真的...

投递百度等公司10个岗位

点赞评论收藏

分享

09-18 20:41

门头沟学院 Java

秋招难度就这？

又拿到两个offer 哈哈哈哈哈好开心

要个offer怎么这...：哈哈哈哈哈哈，我也拿了0x10000000个offer，秋招温啦啦啦，好开心

我的秋招日记

点赞评论收藏

分享

09-14 20:51

四川大学 Java

27简历求拷打

准备下周开始投，找第一份实习，牛u有什么建议吗

慢热的鲸鱼在学习：985加粗就行了，第二个项目来不及准备也没事，省的写了问你你还不会。你只需准备面试八股和项目场景，剩下的交给985。即使面不过也没事，面试经验是最重要的，你现在不缺时间

简历中的项目经历要怎么写

点赞评论收藏

分享

昨天 11:10

天津理工大学运营

如果有一天你失业了请记住这几个网站

最近身边不少 IT 同行突然遭遇 “毕业”，看着他们焦虑找工作的样子，忍不住整理了 4 个能帮 IT 人快速回血的网站 —— 不管是想找全职、接私活，还是学新技能， 总有一个能用上！1. 牛客网：IT 面试 “急救包”如果想快速找全职，这个网站一定要锁死！里面有各大厂的历年面试真题，从基础的 Java 语法、算法题，到架构设计、项目复盘，分类特别细，还能在线敲代码刷题，做错了有详细解析。我当时失业后每天在这刷 2 小时题，尤其是 “面经板块”，很多同行会分享最新的面试流程和考点，比如某大厂最近重点问的微服务架构、分布式事务，提前准备好应对思路，面试时真的能少慌很多。另外它还有内推通道，不少企业...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 帮我看看，领导说这话什么意思？ #

13548次浏览 79人参与

# 毕业租房也有小确幸 #

140119次浏览 4491人参与

# 平安产险科技校招 #

2580次浏览 0人参与

# 你的mentor是什么样的人？ #

10849次浏览 87人参与

# 牛友的志愿填报指南 #

33210次浏览 175人参与

# 怎么给家人解释你的工作？ #

6325次浏览 49人参与

# 快手技术岗信息交流阵地 #

56次浏览 0人参与

# 得物app工作体验 #

26786次浏览 59人参与

# 租房前辈的忠告 #

258876次浏览 7113人参与

# 国企还是互联网，你怎么选？ #

166890次浏览 1161人参与

# 26届秋招公司红黑榜 #

22483次浏览 80人参与

# 求职低谷期你是怎么度过的 #

9392次浏览 183人参与

# 校招泡的最久的公司是哪家？ #

9397次浏览 60人参与

# 求职中的尴尬瞬间 #

1081次浏览 18人参与

# 你觉得mentor喜欢什么样的实习生 #

14416次浏览 381人参与

# 从哪些方向判断这个offer值不值得去？ #

11075次浏览 133人参与

# 度小满求职进展汇总 #

11679次浏览 63人参与

# 小红书求职进展汇总 #

114871次浏览 930人参与

# 牛客树洞，我想对你说 #

3645次浏览 59人参与

# 没有家庭托举的我是怎么找工作的 #

16932次浏览 203人参与

# 跳槽时有那些注意事项 #

106374次浏览 571人参与

# 你喜欢工作还是上学 #

77844次浏览 862人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务