首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客248146632号
电子科技大学 大数据开发工程师
发布于北京
关注
已关注
取消关注
@三石大数据:
图解Spark第一季【全是大厂面试题!】
Spark作为大数据计算平台后起之秀,在2014年打破了Hadoop保持的基准排序记录,使用206个节点在23分钟里完成了100TB数据的排序,而Hadoop则是使用2000个节点在72分钟的时间里完成同样数据的排序。也就是说,Spark仅用了十分之一的计算资源,获得了比Hadoop快3倍的速度。为什么速度如此之快?让我们首先探讨一下Spark的底层架构设计,揭示其中的精妙之处。一、Spark架构设计面试官:你知道Spark架构吗?标准答案:我知道的,Spark架构包括控制节点Driver,以及工作节点Executor和集群资源管理器。其中,Diver是整个架构的老大,主要负责资源申请以及任务分配等工作;Executor是一个JVM进程,专门用于计算;集群资源管理器可以是 Spark 自带的资源管理器, 也可以是 YARN 或 Mesos 等资源管理框架。总结一下,Spark 采用主从架构, 包含一个 Master(即Driver)和若干个 Worker。如果面试官继续追问:这种架构相比Hadoop有什么优势?标准答案:与Hadoop MapReduce 计算框架相比,Spark 所采用的 Executor 有两个优点:一是利用多线程来执行具体的任务,减少任务的启动开销,而MapReduce采用的是多进程模型;二是 Executor 中有一个BlockManager存储模块,会将内存和磁盘共同作为存储设备(默认使用内存,当内存不够时,会写到磁盘),当需要多轮迭代计算时,可以将中间结果存储到这个存储模块里,下次需要时,就可以直接读该存储模块里的数据,而不需要读写到 HDFS 等文件系统里,因而有效地减少了 I/O 开销, 如果面试官继续追问:Application、Job、Stage、Task之间的联系是什么?标准答案:总体而言,在 Spark 中,一个应用(Application)包含若干个作业(Job),一个作业由多个阶段(Stage)构成,一个阶段由多个任务(Task)组成。如果面试官继续追问:Spark如何运行这些作业?二、Spark运行基本流程标准答案:当一个 Spark 应用被提交时,首先需要为这个应用构建基本的运行环境,即由任务控制节点 (Driver)创建一个 SparkContext 对象,由 SparkContext 负责与资源管理器(Cluster Manager)的通信以及进行资源的申请、任务的分配和监控等,SparkContext 会向资源管理器注册并申请运行 Executor的资源,SparkContext 可以看成是应用程序连接集群的通道。 资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着心跳发送到资源管理器上。 SparkContext根据RDD的依赖关系构建DAG图,并将DAG图提交给 DAG 调度器(DAGScheduler)进行解析,将 DAG 图分解成多个阶段(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交到底层的任务调度器(TaskScheduler)进行处理;Executor 向 SparkContext 申请任务,任务调度器将任务分发给 Executor 运行,同时,SparkContext 将应用程序代码发放给 Executor。 任务在 Executor 上运行,把执行结果反馈给任务调度器,然后反馈给 DAG 调度器,运行完毕后写入数据并释放所有资源。
点赞 6
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
07-29 22:39
山东大学 嵌入式软件工程师
算法岗必知的50个PyTorch面试问题
在GitHub上看到了一个资源库,整理了很多Pytorch面试题和答案,涵盖了从基础概念到高级应用,包括张量操作、自动微分、神经网络构建、优化器使用等关键知识点。准备 AI/ML 岗位面试的同学,真的应该留意一下。 PyTorch 基础1. 什么是PyTorch,它与其他深度学习框架(如TensorFlow)有何不同?2. 解释PyTorch中的张量概念。3. 在PyTorch中,张量和变量之间有什么区别?4. 如何将NumPy数组转换为PyTorch张量?5. PyTorch张量中的`.grad`属性有什么作用?6. 解释CUDA是什么以及它与PyTorch的关系。7. PyTorch中的自...
面试问题记录
点赞
评论
收藏
分享
07-30 11:47
门头沟学院 前端工程师
被面试官一句话问懵了
“你能再详细解释一下你设计这部分的考量逻辑吗?”主包完全没往这方面考虑啊,直接愣在了原地,估计凉了
点赞
评论
收藏
分享
07-09 20:50
门头沟学院 Java
已经找不到实习了
求指点,大三,以前没实习,暑假想找实习,这学期参加几个比赛不然简历都没东西写了,投了三天,一个也没有回我🙁。°(°¯᷄◠¯᷅°)°。简历很差吗ಥ_ಥ
码农索隆:
1.教育背景和荣誉证书合二为一。 2.获奖项目理一遍,你做了什么,对你求职的岗位有什么帮助,没有就删掉。 3.技能特长和教育背景交换位置。 4.技能特长写的太差,上网上找简历参考。都不用问你别的,一个redis就能把你问住,写写你具体会redis哪些方面的知识。
点赞
评论
收藏
分享
不愿透露姓名的神秘牛友
07-29 11:57
浪潮提前批挂
投递浪潮等公司10个岗位
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
百度提前批,三面被推迟一周,喜提秋招第一凉
8643
2
...
他拿大厂SSP Offer打牌是什么概念啊?25届双非之光
3272
3
...
虾皮秋招一面
3040
4
...
百度提前批 三面
2341
5
...
小鹏offer
1677
6
...
最强本科✌
1498
7
...
被猿辅导挂了简历,但我想说...
1478
8
...
虾皮一面凉经
1404
9
...
上班一周,工资还没拿,先欠公司两千
1286
10
...
觉得研发高人一等的这辈子有了
1272
创作者周榜
更多
正在热议
更多
#
工作中哪个瞬间让你想离职
#
64474次浏览
575人参与
#
秋招被确诊为……
#
164951次浏览
765人参与
#
中兴秋招
#
206390次浏览
2302人参与
#
和同事相处最忌讳的是__
#
25161次浏览
248人参与
#
找工作如何保持松弛感?
#
92013次浏览
1112人参与
#
如何快速融入团队?
#
17641次浏览
210人参与
#
虾皮求职进展汇总
#
250016次浏览
1873人参与
#
计算机专业还有必要去大厂卷吗
#
38556次浏览
183人参与
#
Offer比较,你最看重什么?
#
194027次浏览
1313人参与
#
26届的你,投了哪些公司?
#
47476次浏览
507人参与
#
你最希望上岸的公司是?
#
135503次浏览
706人参与
#
简历上的经历如何包装
#
30816次浏览
838人参与
#
投格力的你,拿到offer了吗?
#
87113次浏览
584人参与
#
我对___祛魅了
#
50089次浏览
447人参与
#
你遇到最难的面试题目是_
#
17054次浏览
204人参与
#
柠檬微趣工作体验
#
6808次浏览
40人参与
#
你跟室友的关系怎么样?
#
7594次浏览
116人参与
#
通信硬件岗投递时间线
#
18861次浏览
69人参与
#
什么样的背景能拿SSP?
#
39713次浏览
232人参与
#
你最讨厌面试问你什么?
#
29047次浏览
319人参与
#
地平线求职进展汇总
#
52726次浏览
370人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务