底层逻辑对比:Spark 与 MapReduce Shuffle 数据重分布及宽依赖(014)

### 🔍 Spark vs MapReduce:Shuffle与宽依赖的底层逻辑对比 

在大数据处理中,**Shuffle(数据重分布)**是影响性能的关键操作,而**宽依赖(Wide Dependency)**则直接决定了Shuffle的发生条件。Spark和MapReduce作为两大分布式计算框架,在底层逻辑上有着显著差异。 

#### 🧩 **Shuffle机制对比** 
1. **MapReduce的Shuffle**: 
  - **刚性分阶段**:Map和Reduce阶段严格分离,Map输出必须落盘(磁盘I/O瓶颈 📉),再由Reduce任务拉取,导致高延迟。 
  - **数据流固定**:仅支持Map→Reduce的Shuffle,缺乏灵活性。 

2. **Spark的Shuffle**: 
  - **内存优先**:优先使用内存缓存中间数据(🚀 速度优势),仅当内存不足时溢写到磁盘。 
  - **可优化策略**:支持Hash、Sort、Tungsten等Shuffle管理器,可根据数据特性选择最优方式。 

#### ⛓ **宽依赖的处理差异** 
- **MapReduce**:所有Reduce阶段的操作(如`groupByKey`)天然是宽依赖,必须触发Shuffle,无法避免。 
- **Spark**:通过**DAG调度器**将宽依赖(如`join`或`repartition`)拆分为多个阶段(Stage),并动态规划任务执行。窄依赖(如`map`)可流水线化处理,减少Shuffle开销。 

#### 💡 **核心优化思想** 
- **MapReduce**:简单但牺牲性能,适合批处理场景。 
- **Spark**:通过内存计算、弹性数据集(RDD)和DAG优化,**减少Shuffle数据落盘次数**,更适合迭代计算(如机器学习)和交互式查询。 

#### 📌 **总结** 
Spark的Shuffle设计更现代,通过内存计算和阶段划分降低了宽依赖的成本;而MapReduce的Shuffle则受限于其“阶段硬切分”模型。选择框架时,需权衡**数据规模**与**延迟要求**! 🎯
5G.okatady141.asia/PoSt/1125_855191.HtM
5G.okatady140.asia/PoSt/1125_668636.HtM
5G.okatady139.asia/PoSt/1125_436941.HtM
5G.okatady138.asia/PoSt/1125_645233.HtM
5G.okatady137.asia/PoSt/1125_585284.HtM
5G.okatady136.asia/PoSt/1125_322032.HtM
5G.okatady135.asia/PoSt/1125_888447.HtM
5G.okatady134.asia/PoSt/1125_651365.HtM
5G.okatady133.asia/PoSt/1125_980884.HtM
5G.okatady132.asia/PoSt/1125_659321.HtM
5G.okatady141.asia/PoSt/1125_270840.HtM
5G.okatady140.asia/PoSt/1125_607282.HtM
5G.okatady139.asia/PoSt/1125_919114.HtM
5G.okatady138.asia/PoSt/1125_885470.HtM
5G.okatady137.asia/PoSt/1125_771743.HtM
5G.okatady136.asia/PoSt/1125_529317.HtM
5G.okatady135.asia/PoSt/1125_595546.HtM
5G.okatady134.asia/PoSt/1125_430721.HtM
5G.okatady133.asia/PoSt/1125_696636.HtM
5G.okatady132.asia/PoSt/1125_417809.HtM
5G.okatady141.asia/PoSt/1125_668923.HtM
5G.okatady140.asia/PoSt/1125_064188.HtM
5G.okatady139.asia/PoSt/1125_033781.HtM
5G.okatady138.asia/PoSt/1125_981314.HtM
5G.okatady137.asia/PoSt/1125_263914.HtM
5G.okatady136.asia/PoSt/1125_448536.HtM
5G.okatady135.asia/PoSt/1125_147556.HtM
5G.okatady134.asia/PoSt/1125_669375.HtM
5G.okatady133.asia/PoSt/1125_225131.HtM
5G.okatady132.asia/PoSt/1125_440833.HtM
5G.okatady141.asia/PoSt/1125_269783.HtM
5G.okatady140.asia/PoSt/1125_774227.HtM
5G.okatady139.asia/PoSt/1125_730237.HtM
5G.okatady138.asia/PoSt/1125_444935.HtM
5G.okatady137.asia/PoSt/1125_754560.HtM
5G.okatady136.asia/PoSt/1125_004568.HtM
5G.okatady135.asia/PoSt/1125_349975.HtM
5G.okatady134.asia/PoSt/1125_392966.HtM
5G.okatady133.asia/PoSt/1125_669089.HtM
5G.okatady132.asia/PoSt/1125_693096.HtM
5G.okatady141.asia/PoSt/1125_452852.HtM
5G.okatady140.asia/PoSt/1125_030568.HtM
5G.okatady139.asia/PoSt/1125_029786.HtM
5G.okatady138.asia/PoSt/1125_049361.HtM
5G.okatady137.asia/PoSt/1125_218345.HtM
5G.okatady136.asia/PoSt/1125_529587.HtM
5G.okatady135.asia/PoSt/1125_447416.HtM
5G.okatady134.asia/PoSt/1125_888705.HtM
5G.okatady133.asia/PoSt/1125_541178.HtM
5G.okatady132.asia/PoSt/1125_952226.HtM
5G.okatady141.asia/PoSt/1125_307341.HtM
5G.okatady140.asia/PoSt/1125_118424.HtM
5G.okatady139.asia/PoSt/1125_926628.HtM
5G.okatady138.asia/PoSt/1125_885123.HtM
5G.okatady137.asia/PoSt/1125_818415.HtM
5G.okatady136.asia/PoSt/1125_093160.HtM
5G.okatady135.asia/PoSt/1125_269743.HtM
5G.okatady134.asia/PoSt/1125_479856.HtM
5G.okatady133.asia/PoSt/1125_775041.HtM
5G.okatady132.asia/PoSt/1125_039307.HtM
5G.okatady131.asia/PoSt/1125_148941.HtM
5G.okatady130.asia/PoSt/1125_559642.HtM
5G.okatady129.asia/PoSt/1125_790164.HtM
5G.okatady128.asia/PoSt/1125_077564.HtM
5G.okatady127.asia/PoSt/1125_141509.HtM
5G.okatady126.asia/PoSt/1125_417978.HtM
5G.okatady125.asia/PoSt/1125_952915.HtM
5G.okatady124.asia/PoSt/1125_603820.HtM
5G.okatady123.asia/PoSt/1125_855756.HtM
5G.okatady122.asia/PoSt/1125_741612.HtM
5G.okatady131.asia/PoSt/1125_181948.HtM
5G.okatady130.asia/PoSt/1125_545604.HtM
5G.okatady129.asia/PoSt/1125_630075.HtM
5G.okatady128.asia/PoSt/1125_392085.HtM
5G.okatady127.asia/PoSt/1125_409457.HtM
5G.okatady126.asia/PoSt/1125_226127.HtM
5G.okatady125.asia/PoSt/1125_226497.HtM
5G.okatady124.asia/PoSt/1125_399311.HtM
5G.okatady123.asia/PoSt/1125_660290.HtM
5G.okatady122.asia/PoSt/1125_307489.HtM

全部评论

相关推荐

今天 11:32
已编辑
好未来_go开发(实习员工)
不服输的咸鱼很聪明:还给打电话呀,我的没给我打电话呢
点赞 评论 收藏
分享
今天 11:21
已编辑
武汉理工大学 Java
个人bg: 211本,一段京东实习,一段xhs实习,一段小厂实习。互联网只有美团一个带薪意向。转正失败情况:京东实习了四个月,感觉收获比较少,做的事情偏基础,第三个月底答辩,离职后两个月被告知转正失败。对此我只能说,零售卡硕。xhs实习两个月,反而感觉收获更多,被安排了有挑战的事情,大模型在业务场景中的运用,最后一个星期通知有转正机会,边做需求边匆忙准备,答辩采取一票否决制,四个领导三过一否,也失败。(早知道xhs今年开这么高我就熬夜赶材料了)不过在这个过程中,也push自己了解了一定rag mcp 大模型的相关知识,对于后续面阿里和美团很有帮助。个人基础情况:hot100能默写。去年12底学完jvm juc。2月入职京东前小林coding guide就差不多看完了。后面实习的时候也有继续补面筋,场景题。秋招情况:8月初就投了,也不晚。滴滴: 笔试a了没面,可能投的岗位太小众了?(抱着拿了也不去 用于a价的想法)一直卡着。携程: 不发笔。发官方邮件也不回。京东:笔试挂了。嗯,很耻辱,那天在外面玩但确实很久没复习笔试考试范围了,全忘光了。腾讯:从来没约过,可能暑期面了十几次面太多了。阿里控股:一面挂。阿里国际:hr面后一个月挂。字节:国际电商三面挂->星图一面挂(面的时候已经有很多候选人了)-> 安全风控二面挂(业务不是很好,面试过程说漏嘴说业务会影响我选择,场景题没答好)-> 中台一面后无消息快手:二面挂。xhs:hr面后无消息,排序应该很靠后。虾皮:hr面两个月无消息,应该还在泡池子。百度:一面挂。pdd:笔试a3后笔试挂。难绷。个人反思总结:for 后来者。1. 笔试一定要把握好,虽然面试中都是hot100,有些甚至不考面试题,但是大厂笔试题是有acm难度的,挂了就是挂了,很多没有第二次机会,约面也没机会了。建议时间充裕情况下,还是要把灵神的题单多刷点。顺序可以参考:代码随想录视频+题 -> 灵神视频+题 ->hot100 ->灵神题单(可以每个part挑难度低的前几道写)2. 一段深入长的实习经历一定是大于两段短的,不过现在再让我选到底是继续在jd还是去xhs我还是选不出来。在面试的过程中,有些面试官也会认为我实习的太浅,没有做什么有深度的事情,对多种方案的调研不全面。如果实习做的事情比较有挑战最好,如果没有,也要尽量往多种方案调研最后选择了哪个方案,达到了当初定的业务指标/技术指标方面包装。3. 还是得早投。身边除了bg特别好的朋友,投的晚的无一例外秋招情况会差很多。8月前投能赶上提前批。最晚不要8月中旬过了还没投完。有投的早的没有实习的朋友秋招结果也可以。没有面试的同学一定要尝试官网,boss直聘多种途径投。4. 对于有实习的同学,基础没有那么重要了,更多还是专注于对实习的考察,可以以金字塔的形式进行论述,避免在最开始的时候就展开大量细节。如果实在没有实习,bg够硬,投的够早也会有面,只需要一个比较深入的项目应该就没问题,把项目当作自己在实习要投入生产的心态去调研包装。5. 有的时候真的看运气。即使是同一个部门甚至是同一个组的同学,做的事情也会有差异,这主要看导师被分配到什么样的活。for me:大二的时候绩点排名前10%,但还是决定放弃保研,开始学java,这一路走来,经历迷茫踏实的反复,也想和自己说句幸苦了,谁想得到当初给自己定的目标是有份工作不饿死就行。可能差点运气,可能在关键节点上做的还是不够,对于实习的包装,对于面试表现还是差点。会后悔自己没读研吗?其实我也有考雅思,申请了港大计算机,但估计大概率还是工作(实则也没港大offer)。人不能既要又要还要,我不能既要早点工作赚钱,实现我财富自由支配,带不舍得花钱的家人去旅游的想法,又要长期来看高学历晋升的优势,还要在大环境变差一届比一届卷我也能找到差强人意的工作。所以,至少现在,我不后悔。如果我更倾向于国企而不是互联网,比起技术挑战更偏爱稳定的生活我大概率会读研。如果我本科没有211,我还想进大厂,我也大概率会读研。会后悔自己没选其他的方向吗?java确实相对卷一点,但也只是相对的,因为其他方向的人也很多,并不是换方向就一定会更好。计算机这一行本就短命,能干到35就算成功,大家都是为了赚钱,基于此,在背景没那么硬时,选择一个相对人少的方向进大厂是对的。看自己怎么理解了。最好的还是参考直系学长学姐的选择,一定要多沟通交流。一些安慰自己的话,秋招是人生的起点,不一定是高费阵容才能吃鸡,低费阵容早点发育也有吃鸡的上限。(随便乱说的)。最后还想再写一段话给学妹们,程序员这一行,女生确实会相对少一点,但比起传统工科非常直接的偏向男生,计算机这一行认为菜是原罪,性别的因素会少很多,更多看个人技术和水平。在京东实习的时候,我的小组长在我进去第一天就和我说,我们部门女生虽然少,但是水平都至少是中上的,都很能吃苦很能干。无论是我们组干活巨快的A姐,还是总能很快解答我问题的B姐,又或者是其他总能给我提供建议的其他姐姐们,都使我对这一点坚信不疑,她们高学历,专业,细心,耐心。如果你也热爱技术,虽然有时会被bug折磨,但喜欢学到知识时候的踏实,喜欢bug fix的爽感,你就是适合这一行的。我的秋招结束了,但我大概率不会甘心,还是会想试试春招,但我也真的觉得到现在这一步已经很棒了。欢迎同校学妹学弟们找我沟通交流~
投递快手等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务