首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客516400910号
门头沟学院 产品经理
发布于湖北
关注
已关注
取消关注
@三石大数据:
字节跳动大数据开发面经答案汇总之Spark篇上集
1.Spark有哪几种部署模式本地模式:常用于本地开发程序与测试集群模式:standalone模式:只使用spark自身节点的运行模式yarn模式:yarn作为资源调度框架的运行模式mesos模式:Mesos与Yarn同样是一款资源调度管理系统,可以为Spark提供服务2.spark on yarn的工作流程首先spark的客户端将作业提交给yarn的RM,然后RM会分配container,并且选择合适的NM启动ApplicationMaster,然后AM启动Driver,紧接着向RM申请资源启动executor,Executor 进程启动后会向 Driver 反向注册,全部注册完成后 Driver 开始执行main 函数,当执行到行动算子,触发一个 Job,并根据宽依赖开始划分 stage(阶段的划分),每个 stage 生成对应的 TaskSet(任务的切分),之后将 task 分发到各个 Executor 上执行。3.怎样提高并行度 相关参数各个stage的task的数量,也就代表了spark作业在各个stage的并行度spark.defalut.parallelism4.client和cluster模式的区别client模式下,driver运行在客户端;cluster模式下,driver运行在yarn集群5.Spark shuffle的过程spark的shuffle分为两种实现,分别为HashShuffle(spark1.2以前)和SortShuffle(spark1.2以后)HashShuffle分为普通机制和合并机制,分为write阶段和read阶段,write阶段就是根据key进行分区,开始先将数据写入对应的buffer中,当buffer满了之后就会溢写到磁盘上,这个时候会产生mapper的数量*reduer的数量的小文件,这样就会产生大量的磁盘IO,read阶段就是 reduce去拉取各个maptask产生的同一个分区的数据;HashShuffle的合并机制就是让多个mapper共享buffer,这时候落盘的数量等于reducer的数量*core的个数,从而可以减少落盘的小文件数量,但是当Reducer有很多的时候,依然会产生大量的磁盘小文件。SortShuffle分为普通机制和bypass机制普通机制:map task计算的结果数据会先写入一个(默认5M)中,每写一条数据之后,就会判断一下,是否达到了阈值,如果达到阈值的话,会先尝试增加内存到当前内存的2倍,如果申请不到才会溢写,溢写的时候先按照key进行分区和排序,然后将数据溢写到磁盘,最后会将所有的临时磁盘文件合并为一个大的磁盘文件,同时生成一个索引文件,然后reduce task去map端拉取数据的时候,首先解析索引文件,根据索引文件再去拉取对应的数据。bypass机制:将普通机制的排序过程去掉了,它的触发条件是而当shuffle map task数量小于200(配置参数)并且算子不是聚合类的shuffle算子(比如reduceByKey)的时候,该机制不会进行排序,极大的提高了其性能。6.讲讲Spark为什么比Hadoop快MapReduce需要将计算的中间结果写入磁盘,然后还要读取磁盘,从而导致了;而Spark不需要将计算的中间结果写入磁盘,这得益于Spark的RDD弹性分布式数据集和DAG有向无环图,中间结果能够以RDD的形式存放在内存中,这样大大减少了磁盘IO。(假设有多个转换操作,那么spark是不需要将第一个job的结果写入磁盘,然后再读入磁盘进行第二个job的,它是直接将结果缓存在内存中)MapReduce在shuffle时需要花费大量时间排序,而spark在shuffle时如果选择基于hash的计算引擎,是不需要排序的,这样就会节省大量时间。MapReduce是多进程模型,每个task会运行在一个独立的JVM进程中,每次启动都需要重新申请资源,消耗了大量的时间;而Spark是多线程模型,每个executor会单独运行在一个JVM进程中,每个task则是运行在executor中的一个线程。7.RDD是什么,有什么特点它翻译过来就叫做,是一种数据结构,可以理解成是一个集合。在代码中的话,RDD是一个抽象类。还有一个非常重要的特点:RDD是不保存数据的,仅仅封装了计算逻辑,也就是你直接打印RDD是看不见具体值的。8.RDD的血缘多个连续的RDD的依赖关系,称之为血缘关系;每个RDD会保存血缘关系9.宽窄依赖宽依赖:父的RDD的一个分区的数据会被子RDD的多个分区依赖,涉及到Shuffle窄依赖:父的RDD的一个分区的数据只会被子RDD的一个分区依赖10.stage划分对于窄依赖,不会进行划分,也就是将这些转换操作尽量放在在同一个 stage中,可以实现流水线并行计算。 对于宽依赖,由于有 shuffle 的存在,只能在父 RDD 处理完成后,才能开始接下来的计算,也就是说需要要划分 stage(从后往前,遇到宽依赖就切割stage)11.Transform和Action算子分别列举一些常用的,他们的区别是什么转换算子主要是将旧的RDD包装成新的RDD,行动算子就是触发任务的调度和作业的执行。转换算子:map flatMap filter reducebykey union行动算子:collect foreach take
点赞 5
评论 1
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
07-30 18:08
中南林业科技大学 产品经理
科大讯飞-飞凡计划来约面试啦
26届秋招提前批,科大讯飞-飞凡计划来约面试啦,秋招第2个一面✌️
科大讯飞一面309人在聊
点赞
评论
收藏
分享
07-30 08:49
已编辑
东南大学 硬件开发
华为-硬件工程师-校招面试题目解析
本华为面经来源为牛客网。问题大致分为【自我介绍与项目讲解、技术类问题、个人情况与公司认知问题、反问】本次提取其中的技术问题进行讲解由于配图较多,故转换为图片形式发布题目列表:2.与非门真值表3.常用的EDA4.AD和Cadence区别5.电阻类型6.电阻功能7.怎样才算高速电路、高频信号8.怎么画高频信号9.小信号敏感信号是什么10.怎么保护敏感信号11.怎么画时钟线12.485 232区别13.开关电源主要元器件14.开关电源续流二极管有什么影响15.(续流二极管)选型需要考虑什么题目解读如下:本面经涉及的知识点:电阻的功能、0欧电阻功能、电阻参数等在课程第一章前3题有介绍;例如高速信号判别...
硬件人秋招进展
点赞
评论
收藏
分享
06-09 15:54
合肥工业大学 嵌入式硬件工程师
机械真的没有20W的出路吗
欢迎各位大佬推荐可以去的岗位😃
wave_li:
来大疆吧,超出你想象
点赞
评论
收藏
分享
06-06 17:27
天津工业大学 golang
云智研发发了笔试后不久就发了面试,还需要做笔试吗🤔
如题,以及话说6月份了真的还招人吗🥹
我还是走开发吧:
金六银七
投递腾讯云智研发等公司10个岗位
点赞
评论
收藏
分享
07-31 11:52
快手_机器学习算法部_机器学习算法工程师(准入职员工)
快手内推
在快手做了三个多月的后端开发实习,在这里浅浅分享下我的实习体验~ 工作节奏: 基本上是早10晚9,周末双休。整体来说工作强度还是不小的,不过应该也是互联网常态了吧QAQ 福利待遇: 技术岗是400/天,晚上8点以后下班会发30餐补,入职也会一次性发180能量券,学校不在当地的话还可以申请1500/月的房补。¥这块老铁厂还是挺大方的哈哈。 实习生培养: 团队氛围很nice,我的mentor人真的很好,有问题向他请教都会很细致很耐心地给我解答,好感度upup~不过同事们平时可能都比较忙,捕捉到他们不容易,所以每次沟通或者汇报前最好提前做好准备。具体工作职责的话,一开始基本是接同事们剩下的活,直接上...
快手公司福利 971人发布
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
都是 dirty work,为什么别人的简历上就能言之有物🤔
2.1W
2
...
虾皮后端一面(已挂)
4122
3
...
虾皮秋招一面
3978
4
...
百度提前批,三面被推迟一周,喜提秋招第一凉
3701
5
...
7.30滴滴提前批一面凉经
3197
6
...
百度提前批 三面
3182
7
...
干活最少的实习生因为长得漂亮转正了
3096
8
...
他拿大厂SSP Offer打牌是什么概念啊?25届双非之光
3056
9
...
QQ提前批一面凉经
2588
10
...
7.30百度提前批一面
2376
创作者周榜
更多
正在热议
更多
#
你遇到最难的面试题目是_
#
15153次浏览
193人参与
#
反问环节如何提问
#
95521次浏览
1951人参与
#
中兴秋招
#
203764次浏览
2280人参与
#
简历上的经历如何包装
#
24449次浏览
728人参与
#
如何看待offer收割机的行为
#
815543次浏览
6088人参与
#
你最讨厌面试问你什么?
#
25153次浏览
282人参与
#
秋招最大的收获是什么?
#
38623次浏览
323人参与
#
我的实习收获
#
90893次浏览
1038人参与
#
26届的你,投了哪些公司?
#
37178次浏览
428人参与
#
滴滴求职进展汇总
#
233348次浏览
2116人参与
#
作业帮求职进展汇总
#
57016次浏览
376人参与
#
初创公司值得加入吗?
#
27326次浏览
194人参与
#
我对___祛魅了
#
43506次浏览
410人参与
#
数字马力求职进展汇总
#
184456次浏览
1500人参与
#
你跟室友的关系怎么样?
#
6107次浏览
94人参与
#
什么样的背景能拿SSP?
#
31548次浏览
202人参与
#
工作中哪个瞬间让你想离职
#
60710次浏览
545人参与
#
和同事相处最忌讳的是__
#
21234次浏览
217人参与
#
去年你投递实习了吗?
#
22889次浏览
331人参与
#
如何快速融入团队?
#
14940次浏览
182人参与
#
机械人的金三校招总结
#
36239次浏览
461人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务