首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客516400910号
门头沟学院 产品经理
发布于湖北
关注
已关注
取消关注
@三石大数据:
字节跳动大数据开发面经答案汇总之Spark篇上集
1.Spark有哪几种部署模式本地模式:常用于本地开发程序与测试集群模式:standalone模式:只使用spark自身节点的运行模式yarn模式:yarn作为资源调度框架的运行模式mesos模式:Mesos与Yarn同样是一款资源调度管理系统,可以为Spark提供服务2.spark on yarn的工作流程首先spark的客户端将作业提交给yarn的RM,然后RM会分配container,并且选择合适的NM启动ApplicationMaster,然后AM启动Driver,紧接着向RM申请资源启动executor,Executor 进程启动后会向 Driver 反向注册,全部注册完成后 Driver 开始执行main 函数,当执行到行动算子,触发一个 Job,并根据宽依赖开始划分 stage(阶段的划分),每个 stage 生成对应的 TaskSet(任务的切分),之后将 task 分发到各个 Executor 上执行。3.怎样提高并行度 相关参数各个stage的task的数量,也就代表了spark作业在各个stage的并行度spark.defalut.parallelism4.client和cluster模式的区别client模式下,driver运行在客户端;cluster模式下,driver运行在yarn集群5.Spark shuffle的过程spark的shuffle分为两种实现,分别为HashShuffle(spark1.2以前)和SortShuffle(spark1.2以后)HashShuffle分为普通机制和合并机制,分为write阶段和read阶段,write阶段就是根据key进行分区,开始先将数据写入对应的buffer中,当buffer满了之后就会溢写到磁盘上,这个时候会产生mapper的数量*reduer的数量的小文件,这样就会产生大量的磁盘IO,read阶段就是 reduce去拉取各个maptask产生的同一个分区的数据;HashShuffle的合并机制就是让多个mapper共享buffer,这时候落盘的数量等于reducer的数量*core的个数,从而可以减少落盘的小文件数量,但是当Reducer有很多的时候,依然会产生大量的磁盘小文件。SortShuffle分为普通机制和bypass机制普通机制:map task计算的结果数据会先写入一个(默认5M)中,每写一条数据之后,就会判断一下,是否达到了阈值,如果达到阈值的话,会先尝试增加内存到当前内存的2倍,如果申请不到才会溢写,溢写的时候先按照key进行分区和排序,然后将数据溢写到磁盘,最后会将所有的临时磁盘文件合并为一个大的磁盘文件,同时生成一个索引文件,然后reduce task去map端拉取数据的时候,首先解析索引文件,根据索引文件再去拉取对应的数据。bypass机制:将普通机制的排序过程去掉了,它的触发条件是而当shuffle map task数量小于200(配置参数)并且算子不是聚合类的shuffle算子(比如reduceByKey)的时候,该机制不会进行排序,极大的提高了其性能。6.讲讲Spark为什么比Hadoop快MapReduce需要将计算的中间结果写入磁盘,然后还要读取磁盘,从而导致了;而Spark不需要将计算的中间结果写入磁盘,这得益于Spark的RDD弹性分布式数据集和DAG有向无环图,中间结果能够以RDD的形式存放在内存中,这样大大减少了磁盘IO。(假设有多个转换操作,那么spark是不需要将第一个job的结果写入磁盘,然后再读入磁盘进行第二个job的,它是直接将结果缓存在内存中)MapReduce在shuffle时需要花费大量时间排序,而spark在shuffle时如果选择基于hash的计算引擎,是不需要排序的,这样就会节省大量时间。MapReduce是多进程模型,每个task会运行在一个独立的JVM进程中,每次启动都需要重新申请资源,消耗了大量的时间;而Spark是多线程模型,每个executor会单独运行在一个JVM进程中,每个task则是运行在executor中的一个线程。7.RDD是什么,有什么特点它翻译过来就叫做,是一种数据结构,可以理解成是一个集合。在代码中的话,RDD是一个抽象类。还有一个非常重要的特点:RDD是不保存数据的,仅仅封装了计算逻辑,也就是你直接打印RDD是看不见具体值的。8.RDD的血缘多个连续的RDD的依赖关系,称之为血缘关系;每个RDD会保存血缘关系9.宽窄依赖宽依赖:父的RDD的一个分区的数据会被子RDD的多个分区依赖,涉及到Shuffle窄依赖:父的RDD的一个分区的数据只会被子RDD的一个分区依赖10.stage划分对于窄依赖,不会进行划分,也就是将这些转换操作尽量放在在同一个 stage中,可以实现流水线并行计算。 对于宽依赖,由于有 shuffle 的存在,只能在父 RDD 处理完成后,才能开始接下来的计算,也就是说需要要划分 stage(从后往前,遇到宽依赖就切割stage)11.Transform和Action算子分别列举一些常用的,他们的区别是什么转换算子主要是将旧的RDD包装成新的RDD,行动算子就是触发任务的调度和作业的执行。转换算子:map flatMap filter reducebykey union行动算子:collect foreach take
点赞 5
评论 1
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 17:43
四川大学 Java
4.24腾讯pcg后台一面--已凉
上来是手撕一道找链表的中间节点 一道lru 总共撕了1h 第一道有点错找了一会然后两个项目是纯后端的 问我有没有做过ai相关的 我说最近在做一个agent智能体 然后问了我流式输出的原理 rag mcp感觉鹅已经全面拥抱ai了 没有单纯的后端开发了 还是太菜了没有好好准备ai相关的内容+手撕时间太长了
查看7道真题和解析
点赞
评论
收藏
分享
04-21 19:29
西藏大学 C++
又怂又宅
关注boss直聘好久了,好多次想主动联系HR,但是一直都没有勇气(ó﹏ò。) 之前被某二线游戏厂商拒绝了,然后就认怂了。也不知道纠结是我能力不行还是学历不行꒦ິ^꒦ິ
点赞
评论
收藏
分享
昨天 10:38
门头沟学院 Java
今年暑期是真的难
投票
个人认为今年暑期比去年难,看面经基本都是腾讯和字节。有些大厂虽然开了暑期实习,但基本都是泡池子,只有少部分人能得到面试机会。还有两三个月就要秋招了,有点慌难道今年更适合去考研吗?
爱睡觉的冰箱哥:
今年行情拉完了
点赞
评论
收藏
分享
今天 11:50
西安电子科技大学 UE5
腾讯云证后简历没、发面试反馈邮件、流程全灰
如图假期前过了腾讯天美的HR面,然后发了云证。然后6号hr打电话说简历有个信息录不上,需要更新一下。然后我这里也更新了。今天早上发了面试反馈邮件,还是每一轮的。。。然后流程也全灰了这是什么意思?横向挂了?然后暑期实习也结束了?小白不是很懂,求懂哥解惑。
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
毕业啦!我们要一起去广州打拼啦!
1.8W
2
...
毕业了,有些话只能藏在心里了
1.5W
3
...
2026春招到底卷成什么样了?填问卷说出真相,最高领200元现金红包
1.3W
4
...
字节 中国交易与广告 后端一面
1.2W
5
...
211本,130投0面,agent应用开发,简历求助!
7946
6
...
从阿里被裁到快手升P6,我花了四年
7574
7
...
在携程的一天
6187
8
...
从腾讯到阿里感,谢一路走来的自己
6021
9
...
华为暑期实习
5975
10
...
别人:阿里 字节 腾讯
5734
创作者周榜
更多
正在热议
更多
#
这个offer值得去吗?
#
31506次浏览
229人参与
#
校招薪资来揭秘
#
960481次浏览
4062人参与
#
在爱玛,骑向未来
#
20269次浏览
394人参与
#
如果春招能重来,我会___
#
29287次浏览
295人参与
#
24秋招避雷总结
#
1019916次浏览
7098人参与
#
你会因为行情,降低找工作标准吗?
#
44989次浏览
328人参与
#
联宝杯大学生创新大赛,你的技术值得产业级答案
#
50805次浏览
781人参与
#
机械人还在等华为开奖吗?
#
339180次浏览
1652人参与
#
米哈游求职进展汇总
#
688578次浏览
3348人参与
#
华为池子有多大
#
178045次浏览
931人参与
#
26届春招投递记录
#
8626次浏览
71人参与
#
25届网易互娱暑实进度
#
109081次浏览
802人参与
#
通信/硬件求职避坑tips
#
172010次浏览
1170人参与
#
记录我的毕业季
#
4520次浏览
118人参与
#
机械人,你的秋招第一份简历被谁挂了
#
268728次浏览
2450人参与
#
远程面试的尴尬瞬间
#
363806次浏览
2062人参与
#
大学最后一个寒假,我想……
#
103288次浏览
846人参与
#
机械求职避坑tips
#
103668次浏览
589人参与
#
你认为小厂实习有用吗?
#
145035次浏览
762人参与
#
运营商笔面经互助
#
219602次浏览
1833人参与
#
美团秋招笔试
#
216331次浏览
1192人参与
#
网易求职进展汇总
#
213128次浏览
1523人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务