首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客671629429号
门头沟学院 大数据开发工程师
发布于湖南
关注
已关注
取消关注
@蓦_然:
大数据面试题:Spark和MapReduce之间的区别?
面试题来源:大数据面试题 V4.0可回答:1)spark和maprecude的对比;2)mapreduce与spark优劣好处问过的一些公司:阿里云(2022.10),银联(2022.10),携程(2022.09),vivo(2022.09),滴滴(2022.09)(2020.09),网易云音乐(2022.09),快手(2022.08),字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4,快手(2022.08),星环科技(2022.07),海康威视(2022.06),字节日常实习(2022.03),思科cisco(2021.11),腾讯PCG(2021.10),腾讯云(2021.10),阿里(2021.10),蔚来(2021.09),重庆富民银行(2021.09),网易杭研院(2021.09),网易严选(2021.08),小米(2021.08)(2020.09)(2019.09),华为精英计划(2021.07),触宝(2021.07),有道(2021.03),作业帮社招(2020.09),58(2020.09),一点资讯(2020.08),多益(2020.08),360实习(2020.04),阿里菜鸟(2020.04),腾讯互娱(2020.03),蘑菇街实习(2020.03)x2,阿里淘系(2019.11),美团大众点评(2019.10),微众银行(2019.09),网易有道(2019.08),招商银行信用卡中心(2019.04),光大银行(2019.03),头条(2018.11)参考答案:1、Spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的MapReduce是将中间结果保存到磁盘中,减少了内存占用,牺牲了计算性能。Spark是将计算的中间结果保存到内存中,可以反复利用,提高了处理数据的性能。2、Spark在处理数据时构建了DAG有向无环图,减少了shuffle和数据落地磁盘的次数Spark计算比MapReduce快的根本原因在于DAG计算模型。一般而言,DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。但是,如果计算过程中涉及数据交换,Spark也是会把shuffle的数据写磁盘的。3、Spark比MapReduce快有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。4、Spark是粗粒度资源申请,而MapReduce是细粒度资源申请粗粒度申请资源指的是在提交资源时,Spark会提前向资源管理器(YARN,Mess)将资源申请完毕,如果申请不到资源就等待,如果申请到就运行task任务,而不需要task再去申请资源。MapReduce是细粒度申请资源,提交任务,task自己申请资源自己运行程序,自己释放资源,虽然资源能够充分利用,但是这样任务运行的很慢。5、MapReduce的Task的执行单元是进程,Spark的Task执行单元是线程进程的创建销毁的开销较大,线程开销较小。6、Spark优缺点优点:1)Spark把中间数据放到内存中,迭代运算效率高。Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。2)Spark 容错性高Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。另外在RDD 计算时可以通过 CheckPoint 来实现容错。3)Spark更加通用Spark提供的数据集操作类型分为:Transformations和Actions两大类。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort等多种操作类型,同时还提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。缺点:1)内存问题 JVM的内存overhead太大,1G的数据通常需要消耗5G的内存。2)性能问题由于大量数据抄被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定。7、MapReduce优缺点优点:1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。2)良好的扩展性当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。3)高容错性MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行, 不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。4)适合 PB 级以上海量数据的离线处理可以实现上千台服务器集群并发工作,提供数据处理能力。缺点:1)不擅长实时计算MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。2)不擅长流式计算流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。3)不擅长 DAG(有向无环图)计算多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘, 会造成大量的磁盘 IO,导致性能非常的低下。
点赞 17
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
03-01 21:01
已编辑
河北农业大学 产品经理
字节的机审策略与工具运营一面
岗位:字节跳动 机审策略与工具运营面试时长:约30分钟 一、面试总体情况:本次面试围绕候选人的大模型应用经验展开,面试官重点考察了RAG知识库设计、Agent工程落地、模型评估、内容安全治理等方向的能力。面试官所在团队聚焦今日头条平台内容风险治理,业务场景与候选人过往经历(电商客服智能化)存在一定差异,因此面试中涉及较多跨场景的迁移与延伸性考察。二、问题1、RAG知识的来源、清洗、打标、上线、清退的完整运维路径是什么?2、知识库中过期/错误内容如何触发清退?维护标准是什么?3、业务链路上线后主要看哪些衡量指标?4、置信度与意图识别如何结合使用?如何分级路由?5、大模型幻觉问题有哪些常见表现?你...
开工第一帖
点赞
评论
收藏
分享
03-02 10:39
清华大学 Java
快手可灵 - Java后端 一面 总结
1. 先做个自我介绍您好,我是XXX,目前在XXX大学读计算机专业。我对后端开发和算法都比较感兴趣,有一些项目经验和实习经历。技术方面,熟悉Java、Spring Boot、MySQL、Redis这些后端技术。算法基础还可以,参加过一些编程竞赛,平时也会刷LeetCode保持手感。实习经历方面,之前在一家公司做过底层开发,接触过Linux内核相关的工作,对操作系统原理有比较深入的了解。项目上做过对话系统,实现了多轮对话、上下文管理等功能。也做过一些常规的Web项目,处理过并发优化的问题。我对快手可灵的AI视频生成技术很感兴趣,希望能加入团队学习和成长。2. 算法题:二叉树翻转(镜像)这题要把二...
查看11道真题和解析
点赞
评论
收藏
分享
02-06 18:04
兰州理工大学 Java
前辈们帮我看看简历
(简历伪装成大三了)我是一个双非大二,意向是java后端开发能给我一些建议吗?开学就大二下了,什么时间去投递,能不能投递给中厂呢求前辈帮我看看😘
smile丶snow:
感觉可以换个模板…全是加粗字不好读,大二也没必要伪装吧
点赞
评论
收藏
分享
02-14 16:04
门头沟学院 FAE
双非投简历
今天过节呢还是没有能力博得hr欢心,我还要多久才能有真本事😭😭😭我想去走技术销售了,说实话每一次被挂还是会很伤心的,我就是那种感性的人🥶
点赞
评论
收藏
分享
03-03 13:31
北京理工大学 大数据开发工程师
其实春招才是逆袭黄金期
本人情况:25届985计科,研发岗,BASE北京,入职神州信息7个多月,目前公司在帮我申请北京户口,这个也是当时选择神州的原因之一。正值春招旺季,看到很多26届师弟师妹焦虑投简历、赶笔试,想起去年自己的迷茫,整理了3条最实在的求职心得,顺带说个关键信息——神州信息2026春招已经正式开启,还在看机会的可以重点关注!分享3个春招心得:春招不是“补录”,是逆袭黄金期!之前秋招我眼高手低,拒了几个不错的offer,以为能冲更好的,结果越拖越被动,直到春招才幡然醒悟。春招很多企业会补招大量技术岗,而且流程更快捷,不像秋招那样层层卡人,泡池子,只要技术达标、态度真诚,很容易脱颖而出。选公司优先级:平台&...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
AI岗面试必问,附上我的回答思路
1.6W
2
...
我做过的,被面试官夸爆的那些Ai项目(一)
1.4W
3
...
字节国际化广告二面凉经
4595
4
...
我做过的,被面试官夸爆的那些Ai项目(二)
4515
5
...
京东一面面经
3665
6
...
面试官问“RAG各模块的优化策略有哪些”,怎么回答?
3212
7
...
3.4 字节后端开发转正实习二面
2823
8
...
航旅纵横JAVA 春招
2781
9
...
3.2字节AI开发春招一面
2653
10
...
腾讯 一面
2335
创作者周榜
更多
正在热议
更多
#
交出你的校招焚诀
#
5639次浏览
111人参与
#
机械人春招想让哪家公司来捞你?
#
387013次浏览
3157人参与
#
神州信息求职进展汇总
#
2718次浏览
50人参与
#
实习生至暗时刻
#
11488次浏览
239人参与
#
哪些公司开暑期实习了?
#
11662次浏览
103人参与
#
面试___岗的必刷题单
#
7433次浏览
141人参与
#
春招开局,你有保底offer吗?
#
16969次浏览
167人参与
#
你经历过哪些AI幻觉?
#
3312次浏览
86人参与
#
AI面试问题分享
#
8890次浏览
190人参与
#
实习学到最有价值的工作习惯
#
62235次浏览
478人参与
#
三月的小目标
#
6291次浏览
123人参与
#
说说你知道的学历厂
#
384107次浏览
1361人参与
#
实习生的生存小技巧
#
4890次浏览
92人参与
#
你认为哪些项目算烂大街?
#
84215次浏览
640人参与
#
找AI工作应该卷什么?
#
2284次浏览
51人参与
#
实习吐槽大会
#
413175次浏览
2174人参与
#
小厂一定不能去吗?
#
17938次浏览
145人参与
#
秋招的嫡长offer
#
405951次浏览
2187人参与
#
一汽大众工作体验
#
14665次浏览
26人参与
#
字节开奖
#
129135次浏览
595人参与
#
如果校招重来我最想改变的是
#
379375次浏览
3234人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务