首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客870518383号
Java
发布于河南
关注
已关注
取消关注
@爱写代码的菜菜子:
屡败屡战的大数据秋招之Spark 面试知识点总结
  1. Hadoop 和 Spark的区别说一下?                Hadoop的数据处理单位是block,Spark 提供了可供并行处理的数据抽象RDD             Hadoop 对数据处理只提供了Map和Reduce 两种操作。Spark 提供了两大类算子transformation 和 action,支持的操作更多。             Hadoop 只支持Map->Reduce 的流程。Spark 则依赖DAG 有向无环图的方式来执行Job。速度更快。             Spark 提供了Hadoop 所不支持的cache 和 checkpoint 机制。大大的提高了计算速度和程序可靠性。             Spark 会对Job 划分Stage。同一个Stage 内的task 可以用流水线机制执行,大大提高了速度。             Shuffle 机制:Hadoop 的MapReduce 不支持在线聚合。Spark 采用了类HashMap的结构(三种数据结构)实现了自动聚合功能。Spark 在对Record进行排序的时候可以通过PartitionId 和 key进行排序的方式,Hadoop 只能通过key进行排序              2. 说一下你对RDD 的理解?                RDD是针对数据的分布式数据集,在RDD上的操作会在所有节点统一进行。RDD对它内部的元素具有容错机制。              3. Map 是类似于桶数组的形式,类比说一下RDD 的内部结构你觉得是怎么样的?                RDD 就像一个分布式数组,每个子part 含有相同类型的元素,但是元素可以分布在不同的机器上。              4. 说一下Spark 中 DAG 是如何形成的?                DAG 是有向无环图,其实就是RDD执行的流程。原始的RDD通过一系列的转换操作就形成了DAG有向无环图,任务执行时(执行Action算子时),可以按照DAG的描述,执行真正的计算(数据被操作的一个过程)。一个Spark应用中可以有一到多个DAG,取决于触发了多少次Action。             Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分,从后往前,遇到宽依赖就断开,遇到窄依赖就把当前的RDD加入到当前的stage/阶段中。              5. 说一下Spark 持久化机制/缓存机制?                Spark 的缓存机制是一种空间换时间的方法。使用场景为:数据会被多次重复使用。数据量较小可以放在内存空间的情况下可以对RDD 进行缓存。             Spark提供了不同的缓存级别。因为ci'pan              6. 说一下Spark 的checkpoint 机制?                Checkpoint 是Spark 提供的容错机制。适用场景为:应对job 执行失败的情况,应对软硬件故障造成的数据丢失问题。具体的过程是Spark 将RDD 持久化到了分布式文件系统上。             Checkpoint 会切断lineage 血缘关系。既然RDD 都被持久化到HDFS上了,该RDD 不需要通过重新计算再次得到,也就没有必要保存其lineage 了。              7. Spark 持久化机制和checkpoint 机制你觉得区别在哪里?                目的不同:cache 是为了加速计算,也就是加速后续的job。checkpoint 则是为了在job 运行失败的时候能够快速恢复!             存储位置不同:cache 主要使用内存,偶尔使用磁盘存储。checkpoint 为了可靠读写主要采用HDFS 作为存储空间             对lineage 影响不同:cache 对lineage无影响。缓存的RDD 丢失后可以通过lineage 重新计算。如果对RDD 进行 checkpoint,HDFS 因为是可靠存储哎,所以不需要再保存lineage了             应用场景不同:cache 机制适用于会被多次读取,占用空间不是特别大的RDD。checkpoint 机制则是适用于数据依赖关系特别复杂,重新计算代价高的RDD,比如某RDD关联的数据过多、计算链过长、被多次重复使用。                           8. 说一下Spark 架构。由哪几个部分构成?                Master 节点、Worker 节点、Executor 执行器、Task 计算任务             Master 节点上常驻Master 进程,该进程负责管理所有的Worker 节点。(分配任务、收集运行信息、监控worker的存活状态)             Worker 节点常驻Worker进程,该进程与Master 节点通信,还管理Spark 任务的执行。(启动Executor,监控任务运行状态)             Executor 执行器。Executor 是一个JVM 进程,是Spark 计算资源的单位。可以运行多个计算任务。             Task Spark 应用会被拆分为多个计算任务,分配给Executor 执行。Task 以线程的方式运行在Executor 中。              9.Spark 和  Flink 和 Storm 的区别说一下?          10. Spark 如何让50台机器,每台运行一个task?                  
点赞 15
评论 2
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
10-29 21:47
海康威视_自动化开发工程师(准入职员工)
海康威视内推,海康威视内推码
分享一下自己对海康的感受,也在海康总部的3期。 之前看了网上的评论实属是有点吓人的,但是百闻不如一见自己终究是亲自感受了一下。 这可能是我国内外大大小小加起来的第6段实习或者工作。 海康首先给我的感觉是人真的好多,尤其食堂的人,我可能上学都没有见过这么多人,还有电梯,我每次坐是一头雾水。当然这些对于我来说都不是很重要。 可能很多人最关心的就是海康的工作强度和时间是不是真如网上说的那么严重,而通过这段时间的感受,我觉得海康可能是我节奏最慢的一次体验,完成了任务就可以开开心心的回家了,根本不需要无效加班,如果自己想学点产品类的知识还是可以在公司里多学一点的。 关于部门小组氛围,我一开始是有点惊讶的...
海康威视公司福利 1149人发布
点赞
评论
收藏
分享
今天 11:13
汤臣倍健_市场倍优生(准入职员工)
汤臣倍健内推,汤臣倍健内推码
本人情况 加入汤臣倍健已经有一周了,是健力多品牌的产品实习生,主要参与健力多产品的商品化和上市过程。 工作时间 朝九晚五!朝九晚五!朝九晚五!这是我最喜欢小汤的地方 每当其他公司的实习生还在工作开会时,我已经喜提包包准备回家了,别提有多爽了 而且!!!居然不打卡!!这意味着实际工作的时间非常弹性!比如我们组就是默认早上10点上班,相当于朝十晚五了 工作氛围 超级好!!同事们都特别友善!!特别特别特别喜欢我的mentor不要求我加班,给我很大的工作自主性,注重对我能力的培养,还特别有同理心,有耐心!!!我上辈子哪修来的福分啊还遇到了两个很友好的实习搭子,已经在约逛街了实习强度 总体来说强度不大,...
汤臣倍健公司氛围 360人发布
点赞
评论
收藏
分享
10-15 11:25
已编辑
上海哈啰普惠科技_数科_测试开发(实习员工)
良心HR
沟通了2K+也是遇上一个好HR了
做个有文化的流氓:
幸遇良师,幸遇好的hr
找工作中的小确幸
点赞
评论
收藏
分享
09-17 19:25
已编辑
太原理工大学 游戏测试
boss偶遇瓦学妹hr,拼尽全力无法战胜
 哈哈哈😋
叁六玖:
公司名发我,我要这个HR带我打瓦
我的秋招日记
点赞
评论
收藏
分享
10-28 16:00
湖南大学 市场
牛马何尝没有新人美时期?
每天我都是组里第一个到工位的人在工位上蹲同事们然后鼓起勇气说的早上好因为都有回应,我会觉得非常的开心啊啊啊,还记得有一次把mentor名字叫成了leader的他也应了,我后知后觉才反应过来(无痛升职刚到vivo时我对办公室的一切都充满了新鲜感感觉自己像海绵宝宝一样活力满满,全身都是使不完的牛劲不知道什么时候会变成章鱼哥开会主动记笔记、追着同事问流程第一次用打印机,打印出五张白纸,最后美美把打印机里的纸卡在里面出不来了手忙脚乱也不知道怎么找IT但团队整体氛围很好,大家都很愿意交流,平时遇到问题也有人帮忙解答不太存在那种“靠自己摸索”的孤立感还给自己制定了健身计划,下班后可以去锻炼一下有种“上班+...
雾凇岛:
bro 精力用不完分xdm一点呗
vivo公司氛围 351人发布
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
26届0实习秋招总结
9658
2
...
java后端学习经验分享(大三进大厂版)
8104
京东秋招开奖
热聊中
3
...
企鹅后端日常实习一面
5402
4
...
摸爬滚打,我也一定要离开华为
4155
5
...
26届双非本拿下美团SSP的真实感受
3523
6
...
大家秋招压力很大一般怎么调节呀
3370
7
...
饿了么被淘宝闪购夺舍了,HC和团队会变吗
3359
8
...
本硕985文科女秋招 0 offer深夜有感
3058
9
...
那个绩点倒数,挂科7门的女生最后考上了985研究生
2920
10
...
愿大家都能成为很厉害的人
2614
创作者周榜
更多
正在热议
更多
#
你实习是赚钱了还是亏钱了?
#
4612次浏览
45人参与
#
找工作八股要背到什么程度?
#
3395次浏览
65人参与
#
京东开奖
#
427301次浏览
2435人参与
#
秋招开始捡漏了吗
#
29383次浏览
201人参与
#
我在牛爱网找对象
#
202543次浏览
1412人参与
#
用一句话形容你的团队氛围
#
2830次浏览
44人参与
#
你找工作是从容有余 or 匆忙滚爬?
#
2660次浏览
41人参与
#
入职以后才知道的校招谎言
#
101456次浏览
646人参与
#
上班后,才发现大学__白学了
#
5128次浏览
32人参与
#
今年秋招还有金九银十吗
#
23611次浏览
216人参与
#
同bg的你秋招战况如何?
#
160760次浏览
934人参与
#
今年秋招是回暖还是遇冷
#
2575次浏览
26人参与
#
五一之后,实习真的很难找吗?
#
90000次浏览
561人参与
#
学历对求职的影响
#
551985次浏览
3921人参与
#
规定下班时间vs实际下班时间
#
56728次浏览
332人参与
#
辞职后的日常
#
16438次浏览
84人参与
#
打工人的精神状态
#
103091次浏览
1318人参与
#
你喜欢工作还是上学
#
79096次浏览
865人参与
#
Offer比较,求稳定还是求发展
#
65083次浏览
272人参与
#
分享一个让你热爱工作的瞬间
#
44198次浏览
395人参与
#
一人一个landing小技巧
#
128549次浏览
1467人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务