爱写代码的菜菜子

2022-09-19 11:31 已编辑阿里巴巴_数据开发工程师

发布于吉林

关注

屡败屡战的大数据秋招之Spark 面试知识点总结

1. Hadoop 和 Spark的区别说一下？

Hadoop的数据处理单位是block，Spark 提供了可供并行处理的数据抽象RDD
Hadoop 对数据处理只提供了Map和Reduce 两种操作。Spark 提供了两大类算子transformation 和 action，支持的操作更多。
Hadoop 只支持Map->Reduce 的流程。Spark 则依赖DAG 有向无环图的方式来执行Job。速度更快。
Spark 提供了Hadoop 所不支持的cache 和 checkpoint 机制。大大的提高了计算速度和程序可靠性。
Spark 会对Job 划分Stage。同一个Stage 内的task 可以用流水线机制执行，大大提高了速度。
Shuffle 机制：Hadoop 的MapReduce 不支持在线聚合。Spark 采用了类HashMap的结构（三种数据结构）实现了自动聚合功能。Spark 在对Record进行排序的时候可以通过PartitionId 和 key进行排序的方式，Hadoop 只能通过key进行排序

2. 说一下你对RDD 的理解？

RDD是针对数据的分布式数据集，在RDD上的操作会在所有节点统一进行。RDD对它内部的元素具有容错机制。

3. Map 是类似于桶数组的形式，类比说一下RDD 的内部结构你觉得是怎么样的？

RDD 就像一个分布式数组，每个子part 含有相同类型的元素，但是元素可以分布在不同的机器上。

4. 说一下Spark 中 DAG 是如何形成的？

DAG 是有向无环图，其实就是RDD执行的流程。原始的RDD通过一系列的转换操作就形成了DAG有向无环图，任务执行时（执行Action算子时），可以按照DAG的描述，执行真正的计算(数据被操作的一个过程)。一个Spark应用中可以有一到多个DAG，取决于触发了多少次Action。
Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分，从后往前，遇到宽依赖就断开，遇到窄依赖就把当前的RDD加入到当前的stage/阶段中。

5. 说一下Spark 持久化机制/缓存机制？

Spark 的缓存机制是一种空间换时间的方法。使用场景为：数据会被多次重复使用。数据量较小可以放在内存空间的情况下可以对RDD 进行缓存。
Spark提供了不同的缓存级别。因为ci'pan

6. 说一下Spark 的checkpoint 机制？

Checkpoint 是Spark 提供的容错机制。适用场景为：应对job 执行失败的情况，应对软硬件故障造成的数据丢失问题。具体的过程是Spark 将RDD 持久化到了分布式文件系统上。
Checkpoint 会切断lineage 血缘关系。既然RDD 都被持久化到HDFS上了，该RDD 不需要通过重新计算再次得到，也就没有必要保存其lineage 了。

7. Spark 持久化机制和checkpoint 机制你觉得区别在哪里？

目的不同：cache 是为了加速计算，也就是加速后续的job。checkpoint 则是为了在job 运行失败的时候能够快速恢复！
存储位置不同：cache 主要使用内存，偶尔使用磁盘存储。checkpoint 为了可靠读写主要采用HDFS 作为存储空间
对lineage 影响不同：cache 对lineage无影响。缓存的RDD 丢失后可以通过lineage 重新计算。如果对RDD 进行 checkpoint，HDFS 因为是可靠存储哎，所以不需要再保存lineage了
应用场景不同：cache 机制适用于会被多次读取，占用空间不是特别大的RDD。checkpoint 机制则是适用于数据依赖关系特别复杂，重新计算代价高的RDD，比如某RDD关联的数据过多、计算链过长、被多次重复使用。

8. 说一下Spark 架构。由哪几个部分构成？

Master 节点、Worker 节点、Executor 执行器、Task 计算任务
Master 节点上常驻Master 进程，该进程负责管理所有的Worker 节点。（分配任务、收集运行信息、监控worker的存活状态）
Worker 节点常驻Worker进程，该进程与Master 节点通信，还管理Spark 任务的执行。（启动Executor，监控任务运行状态）
Executor 执行器。Executor 是一个JVM 进程，是Spark 计算资源的单位。可以运行多个计算任务。
Task Spark 应用会被拆分为多个计算任务，分配给Executor 执行。Task 以线程的方式运行在Executor 中。

9.Spark 和 Flink 和 Storm 的区别说一下？

10. Spark 如何让50台机器，每台运行一个task？

#秋招##大数据开发工程师#

全部评论

推荐最新楼层

北京神舟航天软件技术股份有限公司_基础平台软件部_Java研发工程师

感觉这些问题挺基础的，昨天同程2面，问我 sparkcore中，debug有什么思路？ spark中 10000个用户怎么管理线程？节点负载过高怎么进行配置？我tm..... 直接坐牢半个小时

点赞回复分享

发布于 2022-09-27 12:52 重庆

期会的每一天呜呜

山东大学芯片研发

总结的太好了，感谢分享啊

点赞回复分享

发布于 2022-09-27 09:49 陕西

10-16 15:35

门头沟学院大数据开发工程师

实习真的是越多越好！！！

前言实习到底是越多越好，还是越精越好？如果无法兼得的话，那么一定是 越多越好！！！个人实习路径：滴滴实习三个月 -> 字节实习两个月 -> 微众银行实习三个月 -> 蚂蚁实习三个月大家一定好奇，为什么我不在某一家公司实习更长的时间呢？实习就是去涨见识的，经历不同的公司，可以了解到不同的项目、不同的业务、不同的技术栈，在正式工作之前，找到适合自己的或自己喜欢的，这样实习带来的意义会更大！！！如何让实习经历更“精”1、作为刚开始工作的同学，会局限于完成需求，成为业务方的“资源”，我们在做需求的时候，一定要多问自己：能不能不做？为什么要做？做了的业务价值是什么？2、千万不要局限于每...

数据人的面试交流地

点赞评论收藏

分享

昨天 09:35

厦门大学驱动开发

狗都不干单休，真的不要选单休的工作！

前言除非是真的没办法，或者是工资真的非常非常高，我劝各位真的不要选单休的工作。我毕业第一份工作就是单休的，当时因为转行，再加上疫情工作确实不好找，没办法就选了个单休的公司。单休工作的感受大体如下：单休等于没休，一到周末就不想出去，休息那一天睡个懒觉，起床就到中午了，有精力下午就出去逛一逛。因为第二天又要上班，晚上基本得早点休息，一天就这样子过去了。刚毕业的时候精力好，还能折腾，过了3-4个月就真心不想出门了。而双休，甚至是大小周，起码有个两天的周末你可以兼顾游玩和休息。单休跟双休，或者是大小周对比，一个月分别少休4天、2天；一年下来就是48天，24天；两年就是96天，48天……单休是干6天休一...

点赞评论收藏

分享

08-31 14:47

华中师范大学前端工程师

鼠鼠前端简历求拷打

鼠鼠找不到工作了呢

投了多少份简历才上岸

点赞评论收藏

分享

09-09 16:12

已编辑

成都理工大学 Java

学Java的这辈子有了

future0210：学java就是好啊，啥都能转

点赞评论收藏

分享

10-16 19:56

门头沟学院 Java

这些工贼行为你见过吗？职场冷宫！

本文作者：程序员小白条  大家好，我是程序员小白条，当你为了团队默契选择准时下班，有人却在深夜的朋友圈晒加班照；当你埋头完成分内工作，有人正悄悄给领导发送邀功邮件——职场工贼，正在用他们的"敬业"重新定义工作伦理。 在如今的职场环境中，"工贼"一词逐渐流行，特指那些通过损害同事利益来换取个人好处的人。他们可能是深夜加班的行为艺术家，也可能是抢功甩锅的太极高手，或是破坏团队默契的规则打破者。  一、工贼图鉴 职场上免不了加班，而互联网则更是如此，但是在很多公司中存在这样一些行为，故意加班，而且要故意的在群里或者其他地方表达出来，由于个人的加班，导致团队跟着...

你见过哪些工贼行为

点赞评论收藏

分享

评论

15

73

招聘动态

联易融

2026届秋季校园招聘

杉川集团2026届校招

杉尖计划·与杉川一览群山

真格基金

被投企业秋季联合校招

瓴岳科技

2026届“登岳计划”校招启动

Garena

2026秋季校园招聘

华泰证券

2026届Fintech校园招聘

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届秋招公司红黑榜 #

8708次浏览 30人参与

# 实习必须要去大厂吗？ #

145709次浏览 1532人参与

# 平安产险科技校招 #

2240次浏览 0人参与

# 校招泡的最久的公司是哪家？ #

3479次浏览 19人参与

# 度小满求职进展汇总 #

9588次浏览 49人参与

# 帮我看看，领导说这话什么意思？ #

3915次浏览 22人参与

# 未岚大陆求职进展汇总 #

23529次浏览 108人参与

# 职场新人体验 #

94782次浏览 639人参与

# 你觉得mentor喜欢什么样的实习生 #

8675次浏览 257人参与

# 没有家庭托举的我是怎么找工作的 #

10971次浏览 156人参与

# 入职第一天，你准备什么时候下班 #

85154次浏览 467人参与

# 从哪些方向判断这个offer值不值得去？ #

5625次浏览 89人参与

# 技术岗笔试题求解 #

95166次浏览 1101人参与

# 求职低谷期你是怎么度过的 #

4450次浏览 81人参与

# 最难的技术面是哪家公司？ #

54605次浏览 893人参与

# 面试紧张时你会有什么表现？ #

1249次浏览 20人参与

# 独居后，你的生活是更好了还是更差了？ #

27880次浏览 263人参与

# 机械人的工作环境真的很差吗 #

24688次浏览 119人参与

# 秋招想进国企该如何准备 #

97443次浏览 487人参与

# 你有哪些缓解焦虑的方法？ #

36939次浏览 835人参与

# 跳槽时有那些注意事项 #

105869次浏览 567人参与

# 工作压力大怎么缓解 #

117495次浏览 1108人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务