首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客802521736号
华侨大学 大数据开发工程师
发布于北京
关注
已关注
取消关注
@蓦_然:
大数据面试题:Spark和MapReduce之间的区别?
面试题来源:大数据面试题 V4.0可回答:1)spark和maprecude的对比;2)mapreduce与spark优劣好处问过的一些公司:阿里云(2022.10),银联(2022.10),携程(2022.09),vivo(2022.09),滴滴(2022.09)(2020.09),网易云音乐(2022.09),快手(2022.08),字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4,快手(2022.08),星环科技(2022.07),海康威视(2022.06),字节日常实习(2022.03),思科cisco(2021.11),腾讯PCG(2021.10),腾讯云(2021.10),阿里(2021.10),蔚来(2021.09),重庆富民银行(2021.09),网易杭研院(2021.09),网易严选(2021.08),小米(2021.08)(2020.09)(2019.09),华为精英计划(2021.07),触宝(2021.07),有道(2021.03),作业帮社招(2020.09),58(2020.09),一点资讯(2020.08),多益(2020.08),360实习(2020.04),阿里菜鸟(2020.04),腾讯互娱(2020.03),蘑菇街实习(2020.03)x2,阿里淘系(2019.11),美团大众点评(2019.10),微众银行(2019.09),网易有道(2019.08),招商银行信用卡中心(2019.04),光大银行(2019.03),头条(2018.11)参考答案:1、Spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的MapReduce是将中间结果保存到磁盘中,减少了内存占用,牺牲了计算性能。Spark是将计算的中间结果保存到内存中,可以反复利用,提高了处理数据的性能。2、Spark在处理数据时构建了DAG有向无环图,减少了shuffle和数据落地磁盘的次数Spark计算比MapReduce快的根本原因在于DAG计算模型。一般而言,DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。但是,如果计算过程中涉及数据交换,Spark也是会把shuffle的数据写磁盘的。3、Spark比MapReduce快有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。4、Spark是粗粒度资源申请,而MapReduce是细粒度资源申请粗粒度申请资源指的是在提交资源时,Spark会提前向资源管理器(YARN,Mess)将资源申请完毕,如果申请不到资源就等待,如果申请到就运行task任务,而不需要task再去申请资源。MapReduce是细粒度申请资源,提交任务,task自己申请资源自己运行程序,自己释放资源,虽然资源能够充分利用,但是这样任务运行的很慢。5、MapReduce的Task的执行单元是进程,Spark的Task执行单元是线程进程的创建销毁的开销较大,线程开销较小。6、Spark优缺点优点:1)Spark把中间数据放到内存中,迭代运算效率高。Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。2)Spark 容错性高Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。另外在RDD 计算时可以通过 CheckPoint 来实现容错。3)Spark更加通用Spark提供的数据集操作类型分为:Transformations和Actions两大类。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort等多种操作类型,同时还提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。缺点:1)内存问题 JVM的内存overhead太大,1G的数据通常需要消耗5G的内存。2)性能问题由于大量数据抄被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定。7、MapReduce优缺点优点:1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。2)良好的扩展性当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。3)高容错性MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行, 不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。4)适合 PB 级以上海量数据的离线处理可以实现上千台服务器集群并发工作,提供数据处理能力。缺点:1)不擅长实时计算MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。2)不擅长流式计算流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。3)不擅长 DAG(有向无环图)计算多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘, 会造成大量的磁盘 IO,导致性能非常的低下。
点赞 17
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
10-18 11:31
已编辑
门头沟学院 嵌入式软件开发
offer帮选
希望佬们给点意见,家在广州。江波龙和日产、电子五所已OC。江波龙在中山生活成本比较低,吃住应该不咋花钱,岗位是固件开发。日产到体检环节了,还在犹豫中,看往年的薪资应该是统一价19-23w左右,车企年终看公司效益。五所是嵌入式测试岗,出差比较多。恒玄应该是偏FAE,往年能开30w?昊一源看起来开的不高,普源精电也还在泡着。个人还是想先在私企干几年,比较看重公司平台和上升空间。虽然不太想加班,但这几家私企强度好像都不算低。现在只能妥协了,有双休就行😭。
点赞
评论
收藏
分享
10-11 14:08
远景_运维开发工程师(准入职员工)
远景能源内推, 远景能源内推码
远景能源-质量管理工程师(三面✅)7.24官网投简历8.10一面✅hr很和蔼,我自我介绍结束以后,因为我上一份实习是处理PDF标准文件的,hr会偏向问我处理非结构化数据的流程,还有一些比较常规的问题,比如对远景公司主营业务有哪些了解,对质量管理有哪些了解,你认为你的专业或实习经历对质量管理有哪些帮助。一面结束hr认为我可能比较适合质量管理的数字化方向。8.14二面✅电话面,本来应该是视频面,但是二面的hr应该很忙,在国外出差,所以他就直接给我打了电话。当时我是不知情的,还在腾讯会议等待间,看到手机有国外电话打过来,下意识觉得是诈骗骚扰电话,我就直接挂了,还挂了两次。这个时候我觉得有点不太对劲,...
点赞
评论
收藏
分享
09-25 21:25
武汉理工大学 Java
27届简历求拷打,java
刚开始投,还没有开始刷算法,能进中小厂吗
7天内可修改一次:
我和武理爷的相同点:信管
投了多少份简历才上岸
点赞
评论
收藏
分享
昨天 22:04
已编辑
福州大学 C++
百度笔试A卷
第一题 min*2>=max先找最小值,然后ans+=(nums[i]-1)/(min*2)例:最小值为3min*2=6任何大于6的num最优分解是6+(num-6)总的分解次数就是(num-1)/6补充:7实际不能分解为1+6而应该分解为3+4,但是我们不需要单独处理这种情况,只需要知道都是分解一次即可要用long long,没用20%第二题 gcd同一个区间所有数gcd,然后*区间大小,最后所有区间加起来就行要用long long ,没用0%第三题 先递增后递减我过了25,10%单独判断是否有序,15%正常求解我的想法是 先找到最小的,然后移动到最左或最右(比较一下哪边近)(不用真的...
投递百度等公司10个岗位
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
族望留原籍,家贫走四方
9202
2
...
被秋招面试感动了
2007
3
...
实习越多越好还是越精越好?
1654
4
...
大厂这么卷,去国企,外企“上岸”?
1445
5
...
想问一下27届明年暑期实习大概什么时候开
1403
6
...
记录秋招 Offer 选择(从纠结到坚定)
1312
7
...
秋招总结,offer帮选
955
8
...
开源活动
873
9
...
【招银云创】秋招首offer
809
10
...
球球大家,给菜菜小弟一点建议
701
创作者周榜
更多
正在热议
更多
#
大厂VS公务员你怎么选
#
36749次浏览
479人参与
#
腾讯工作体验
#
515272次浏览
3551人参与
#
平安产险科技校招
#
1333次浏览
0人参与
#
发面经攒人品
#
2636825次浏览
35965人参与
#
你现在会用到哪些AI技能?
#
11035次浏览
100人参与
#
我的求职进度条
#
108385次浏览
1350人参与
#
智慧芽求职进展汇总
#
2518次浏览
5人参与
#
我对___祛魅了
#
133312次浏览
740人参与
#
多益网络工作体验
#
55691次浏览
292人参与
#
你还有多少年退休?
#
27486次浏览
192人参与
#
来聊聊机械薪资天花板是哪家
#
145501次浏览
801人参与
#
工作中的卑微时刻
#
25584次浏览
175人参与
#
你有哪些缓解焦虑的方法?
#
35709次浏览
828人参与
#
小马智行求职进展汇总
#
14241次浏览
50人参与
#
机械人与华为的爱恨情仇
#
133149次浏览
1008人参与
#
实习在多还是在精
#
38023次浏览
267人参与
#
你觉得材料多少算高薪
#
26794次浏览
159人参与
#
顺丰求职进展汇总
#
64201次浏览
316人参与
#
你的房租占工资的比例是多少?
#
66081次浏览
803人参与
#
秋招踩过的“雷”,希望你别再踩
#
90774次浏览
1126人参与
#
实习下班不想学习,正常吗?
#
23397次浏览
189人参与
#
反问环节如何提问
#
116280次浏览
2477人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务