首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客870518383号
Java
发布于河南
关注
已关注
取消关注
@爱写代码的菜菜子:
屡败屡战的大数据秋招之Spark 面试知识点总结
1. Hadoop 和 Spark的区别说一下? Hadoop的数据处理单位是block,Spark 提供了可供并行处理的数据抽象RDD Hadoop 对数据处理只提供了Map和Reduce 两种操作。Spark 提供了两大类算子transformation 和 action,支持的操作更多。 Hadoop 只支持Map->Reduce 的流程。Spark 则依赖DAG 有向无环图的方式来执行Job。速度更快。 Spark 提供了Hadoop 所不支持的cache 和 checkpoint 机制。大大的提高了计算速度和程序可靠性。 Spark 会对Job 划分Stage。同一个Stage 内的task 可以用流水线机制执行,大大提高了速度。 Shuffle 机制:Hadoop 的MapReduce 不支持在线聚合。Spark 采用了类HashMap的结构(三种数据结构)实现了自动聚合功能。Spark 在对Record进行排序的时候可以通过PartitionId 和 key进行排序的方式,Hadoop 只能通过key进行排序 2. 说一下你对RDD 的理解? RDD是针对数据的分布式数据集,在RDD上的操作会在所有节点统一进行。RDD对它内部的元素具有容错机制。 3. Map 是类似于桶数组的形式,类比说一下RDD 的内部结构你觉得是怎么样的? RDD 就像一个分布式数组,每个子part 含有相同类型的元素,但是元素可以分布在不同的机器上。 4. 说一下Spark 中 DAG 是如何形成的? DAG 是有向无环图,其实就是RDD执行的流程。原始的RDD通过一系列的转换操作就形成了DAG有向无环图,任务执行时(执行Action算子时),可以按照DAG的描述,执行真正的计算(数据被操作的一个过程)。一个Spark应用中可以有一到多个DAG,取决于触发了多少次Action。 Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分,从后往前,遇到宽依赖就断开,遇到窄依赖就把当前的RDD加入到当前的stage/阶段中。 5. 说一下Spark 持久化机制/缓存机制? Spark 的缓存机制是一种空间换时间的方法。使用场景为:数据会被多次重复使用。数据量较小可以放在内存空间的情况下可以对RDD 进行缓存。 Spark提供了不同的缓存级别。因为ci'pan 6. 说一下Spark 的checkpoint 机制? Checkpoint 是Spark 提供的容错机制。适用场景为:应对job 执行失败的情况,应对软硬件故障造成的数据丢失问题。具体的过程是Spark 将RDD 持久化到了分布式文件系统上。 Checkpoint 会切断lineage 血缘关系。既然RDD 都被持久化到HDFS上了,该RDD 不需要通过重新计算再次得到,也就没有必要保存其lineage 了。 7. Spark 持久化机制和checkpoint 机制你觉得区别在哪里? 目的不同:cache 是为了加速计算,也就是加速后续的job。checkpoint 则是为了在job 运行失败的时候能够快速恢复! 存储位置不同:cache 主要使用内存,偶尔使用磁盘存储。checkpoint 为了可靠读写主要采用HDFS 作为存储空间 对lineage 影响不同:cache 对lineage无影响。缓存的RDD 丢失后可以通过lineage 重新计算。如果对RDD 进行 checkpoint,HDFS 因为是可靠存储哎,所以不需要再保存lineage了 应用场景不同:cache 机制适用于会被多次读取,占用空间不是特别大的RDD。checkpoint 机制则是适用于数据依赖关系特别复杂,重新计算代价高的RDD,比如某RDD关联的数据过多、计算链过长、被多次重复使用。 8. 说一下Spark 架构。由哪几个部分构成? Master 节点、Worker 节点、Executor 执行器、Task 计算任务 Master 节点上常驻Master 进程,该进程负责管理所有的Worker 节点。(分配任务、收集运行信息、监控worker的存活状态) Worker 节点常驻Worker进程,该进程与Master 节点通信,还管理Spark 任务的执行。(启动Executor,监控任务运行状态) Executor 执行器。Executor 是一个JVM 进程,是Spark 计算资源的单位。可以运行多个计算任务。 Task Spark 应用会被拆分为多个计算任务,分配给Executor 执行。Task 以线程的方式运行在Executor 中。 9.Spark 和 Flink 和 Storm 的区别说一下? 10. Spark 如何让50台机器,每台运行一个task?
点赞 15
评论 2
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
不愿透露姓名的神秘牛友
07-23 18:38
美团一面后emo了
7月23一面,被反馈对业务的理解不够深入,很多都是围绕利用AI提效问的;后续要面的友友们 可以好好捋一下实习项目:如何用AI解决业务问题、AI如何赋能新业务.... 对美团的所有业务场景要比较了解
面试问题记录
点赞
评论
收藏
分享
07-18 13:08
门头沟学院 前端工程师
25秋招国企面试经验
经验来源:运营商,银行,石油石化及其他一些国企面试。 面试分类:无领导(银行居多,石油石化也有);结构化;半结构化 及它们的互相组合。 无领导学习:无领导主要是看因是学长的面试录播(不社恐的话建议直接参加一两回)和一些文章和视频,记录一些要点到无领导笔记,然后自己找无领导题目对着摄像头计时练习无领导的个人称述部分,然后回看自己的表现,再问问ai合理的答案是什么,录播-记录--练习过了几轮(花了几天时间,然后就是在需要无领导的面试前一到两天再进行一轮)。在面试前会将笔记打印下来并打印几道无领导题在面试前热身。 半/结构化(含ai面)学习:主要就是在不断面试中记录提到的问题然后去网上找答案并结合自...
查看18道真题和解析
点赞
评论
收藏
分享
05-29 22:11
门头沟学院 Java
简历造假直接报jing处理?
这么严重吗
Elastic90:
抛开学历造假不谈,这公司的招聘需求也挺怪的,Java开发还要求你有图文识别、移动端开发和c++的经验,有点逆天了。
点赞
评论
收藏
分享
07-03 15:03
复旦大学 算法工程师
这是什么层级的耐面王
我真是 从本科一直面到研究生愣是一次字节也没去
Bolee:
一般般吧,看看我的
查看图片
点赞
评论
收藏
分享
07-21 19:49
已编辑
门头沟学院 客户端其它
可怜之人必有可恨之处
周末和南京oppo外包公司上班的一个同学聊天的时候,才发现这小子在加班,我说你一个外包这么拼命干嘛,他说他们那个业务,一共就3个人,一个是领导的亲戚,另一个是摆烂的老员工,真正干活的就他一个人,他每天巨忙,前后提出和领导说要加人,领导说让他把活给他亲戚分分,但是那个亲戚属于是代码都看不明白的那种人,根本不可能完成工作。工作量太大了,他给领导提出诉求,领导反问他为什么不加班.....我听完我说实话,我挺无语的,领导亲戚能力差不差的,跟你有啥关系啊,活干不完就干不完呗,你着什么急啊。现在他的顾虑是给领导亲戚分配的活,亲戚干不完,还是他要干。我认为如果干不完,那就干不完,都说了干不过来了,招人也不招...
码农索隆:
要先保证做好自己部分的工作,然后可以合理的去优化自己的工作内容,而不是帮他人完成他的工作!!!
投递OPPO等公司10个岗位
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
实习包装不是吹牛皮,要怎么包装看这里
3.7W
2
...
百度一二面凉经
4124
3
...
百度提前批一面 7.24
3157
4
...
入我滴滴!早十晚六 !
2950
5
...
字节复活赛
2676
6
...
再再再再强调一遍!秋招不要装逼
2197
7
...
百度一面面经7.14
2150
8
...
滴滴提前批面经
1912
9
...
百度提前批一面:面试官居然让我手撕两数之和???最奇幻的一轮面试,结束还说.......
1854
10
...
百度二面面筋
1727
创作者周榜
更多
正在热议
更多
#
哪些公司开提前批了?
#
23321次浏览
248人参与
#
你今年的平均薪资是多少?
#
133738次浏览
682人参与
#
风评不好的公司,你会去吗?
#
55885次浏览
397人参与
#
实习如何「偷」产出?
#
47005次浏览
1225人参与
#
除了主业以外,你还有哪些其他收入?
#
10931次浏览
191人参与
#
互联网公司评价
#
400949次浏览
3836人参与
#
你最满意的offer薪资是哪家公司?
#
32912次浏览
176人参与
#
节后第一天上班,我的精神状态
#
13336次浏览
117人参与
#
不卡学历的大厂有哪些?
#
26205次浏览
210人参与
#
校招阶段,学历VS技术哪个更重要?
#
16234次浏览
181人参与
#
职场新人体验
#
22655次浏览
222人参与
#
签约/解约注意事项
#
696693次浏览
4068人参与
#
腾讯音乐求职进展汇总
#
97919次浏览
570人参与
#
你投递的公司有几家约面了?
#
108661次浏览
777人参与
#
校园里的破防时刻
#
10178次浏览
116人参与
#
正在实习的碎碎念
#
1454000次浏览
13469人参与
#
硬件人求职现状
#
434299次浏览
4539人参与
#
实习打杂,要跑路吗
#
17417次浏览
201人参与
#
宁德时代求职进展汇总
#
122635次浏览
650人参与
#
Offer比较,你最看重什么?
#
191378次浏览
1301人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务