首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客516400910号
门头沟学院 产品经理
发布于湖北
关注
已关注
取消关注
@三石大数据:
字节跳动大数据开发面经答案汇总之Spark篇上集
1.Spark有哪几种部署模式本地模式:常用于本地开发程序与测试集群模式:standalone模式:只使用spark自身节点的运行模式yarn模式:yarn作为资源调度框架的运行模式mesos模式:Mesos与Yarn同样是一款资源调度管理系统,可以为Spark提供服务2.spark on yarn的工作流程首先spark的客户端将作业提交给yarn的RM,然后RM会分配container,并且选择合适的NM启动ApplicationMaster,然后AM启动Driver,紧接着向RM申请资源启动executor,Executor 进程启动后会向 Driver 反向注册,全部注册完成后 Driver 开始执行main 函数,当执行到行动算子,触发一个 Job,并根据宽依赖开始划分 stage(阶段的划分),每个 stage 生成对应的 TaskSet(任务的切分),之后将 task 分发到各个 Executor 上执行。3.怎样提高并行度 相关参数各个stage的task的数量,也就代表了spark作业在各个stage的并行度spark.defalut.parallelism4.client和cluster模式的区别client模式下,driver运行在客户端;cluster模式下,driver运行在yarn集群5.Spark shuffle的过程spark的shuffle分为两种实现,分别为HashShuffle(spark1.2以前)和SortShuffle(spark1.2以后)HashShuffle分为普通机制和合并机制,分为write阶段和read阶段,write阶段就是根据key进行分区,开始先将数据写入对应的buffer中,当buffer满了之后就会溢写到磁盘上,这个时候会产生mapper的数量*reduer的数量的小文件,这样就会产生大量的磁盘IO,read阶段就是 reduce去拉取各个maptask产生的同一个分区的数据;HashShuffle的合并机制就是让多个mapper共享buffer,这时候落盘的数量等于reducer的数量*core的个数,从而可以减少落盘的小文件数量,但是当Reducer有很多的时候,依然会产生大量的磁盘小文件。SortShuffle分为普通机制和bypass机制普通机制:map task计算的结果数据会先写入一个(默认5M)中,每写一条数据之后,就会判断一下,是否达到了阈值,如果达到阈值的话,会先尝试增加内存到当前内存的2倍,如果申请不到才会溢写,溢写的时候先按照key进行分区和排序,然后将数据溢写到磁盘,最后会将所有的临时磁盘文件合并为一个大的磁盘文件,同时生成一个索引文件,然后reduce task去map端拉取数据的时候,首先解析索引文件,根据索引文件再去拉取对应的数据。bypass机制:将普通机制的排序过程去掉了,它的触发条件是而当shuffle map task数量小于200(配置参数)并且算子不是聚合类的shuffle算子(比如reduceByKey)的时候,该机制不会进行排序,极大的提高了其性能。6.讲讲Spark为什么比Hadoop快MapReduce需要将计算的中间结果写入磁盘,然后还要读取磁盘,从而导致了;而Spark不需要将计算的中间结果写入磁盘,这得益于Spark的RDD弹性分布式数据集和DAG有向无环图,中间结果能够以RDD的形式存放在内存中,这样大大减少了磁盘IO。(假设有多个转换操作,那么spark是不需要将第一个job的结果写入磁盘,然后再读入磁盘进行第二个job的,它是直接将结果缓存在内存中)MapReduce在shuffle时需要花费大量时间排序,而spark在shuffle时如果选择基于hash的计算引擎,是不需要排序的,这样就会节省大量时间。MapReduce是多进程模型,每个task会运行在一个独立的JVM进程中,每次启动都需要重新申请资源,消耗了大量的时间;而Spark是多线程模型,每个executor会单独运行在一个JVM进程中,每个task则是运行在executor中的一个线程。7.RDD是什么,有什么特点它翻译过来就叫做,是一种数据结构,可以理解成是一个集合。在代码中的话,RDD是一个抽象类。还有一个非常重要的特点:RDD是不保存数据的,仅仅封装了计算逻辑,也就是你直接打印RDD是看不见具体值的。8.RDD的血缘多个连续的RDD的依赖关系,称之为血缘关系;每个RDD会保存血缘关系9.宽窄依赖宽依赖:父的RDD的一个分区的数据会被子RDD的多个分区依赖,涉及到Shuffle窄依赖:父的RDD的一个分区的数据只会被子RDD的一个分区依赖10.stage划分对于窄依赖,不会进行划分,也就是将这些转换操作尽量放在在同一个 stage中,可以实现流水线并行计算。 对于宽依赖,由于有 shuffle 的存在,只能在父 RDD 处理完成后,才能开始接下来的计算,也就是说需要要划分 stage(从后往前,遇到宽依赖就切割stage)11.Transform和Action算子分别列举一些常用的,他们的区别是什么转换算子主要是将旧的RDD包装成新的RDD,行动算子就是触发任务的调度和作业的执行。转换算子:map flatMap filter reducebykey union行动算子:collect foreach take
点赞 5
评论 1
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 08:48
门头沟学院 Java
Agent别被挂羊头卖狗肉的岗位骗了
家人们谁懂啊!刷到这个话题我真的要吐槽了。今年春招,我身边至少10个同学,想冲Agent赛道,结果瞎投岗位,不是被挂羊头卖狗肉的岗位骗了,就是投了根本不匹配自己的岗位,浪费了大把时间,最后0offer,还吐槽Agent赛道卷、没机会。真的别再瞎投了!Agent赛道早就不是什么新鲜东西了,岗位细分得明明白白,哪些是真风口、有发展、能学到东西,哪些是坑、纯打杂、没前途,早就清清楚楚。今天我就把这些坑全扒出来,再告诉大家哪些岗位真正值得冲,别再被忽悠了!先盘点Agent赛道最坑的3个岗位,投了就是浪费时间这些岗位,名字里都带着“Agent”,听起来高大上,实则纯纯打杂、没发展、学不到任何东西,应届生...
想做Agent可以做哪些...
点赞
评论
收藏
分享
今天 18:03
西安电子科技大学 Java
不是吧,不是吧,前端面试又出新玩法了?!
前端新的面试题又来咯拖拽与 DOM问题 1:拖拽过程中,如果原本的元素消失了,onDrop 还能触发么?具体表现是什么?答案: 能触发。onDrop 事件会在放置的目标元素上触发。具体表现是:拖拽源元素在拖拽过程中被移除(如设置为 display: none 或从 DOM 中删除),只要鼠标在有效的放置目标上释放,onDrop 仍会触发。但是,event.dataTransfer 对象中关于拖拽源的数据可能变得不可靠或丢失。问题 2:如何改变拖拽预览图?答案: 使用 DataTransfer.setDragImage() 方法。 element.addEventListener('dragst...
牛客在线求职答疑中心
点赞
评论
收藏
分享
03-29 18:59
运城学院 Java
有没有大佬帮忙看看,这个简历能找到工作吗(没有实习经历),进大厂够不,每天都刷程序员被ai替代,焦虑的不行了...
程序员小白条:
咱们要对自己的简历和学历有清晰的认知,不要动不动就大厂了....都26届了,没实习还想着大厂,唉
点赞
评论
收藏
分享
04-13 21:05
杭州海康机器人技术有限公司_机器人业务中心开发1组_AI平台开发工程师(实习员工)
接到字节跳动电话
正在魏家凉皮吃饭呢,突然看见一个IP是上海的电话,当时就已经猜出来可能是字节跳动了,问我有没有实习的意向,最快多快到岗,能干多少天,然后说有个番茄小说的岗位可能会来面试我什么的,说实话,最近都好久没有投简历了,可能是过年那会投的,没想到现在被捞起来了,希望运气好一点吧,好久都没背八股了,这些天天天上班上的人有点累啊,听见有面试的机会,感觉整个人都精神起来了
kk_km:
一看魏家凉皮就知道ip了
点赞
评论
收藏
分享
05-05 19:43
门头沟学院 Java
大一开始卷?卷一个,还不如多睡会觉
今天刷到一个帖子,大一新生问怎么进大厂,底下的回答全是“现在就要开始卷实习了” “ACM金牌是必须的” “项目经历不能少”。 我差点没蚌住。 啥时候大一起跑线就画到这儿了?我大一的时候,还在研究怎么翘掉晚自习。 没错,就是去社团工位上摸鱼。 我当初进那个融媒体社团,面试就是个巨大的草台班子。我说我以前在破站做UP主,有个几千粉丝,学长就点点头,“噢,挺好的,录了。” 就这么简单。 进去之后呢?学长扔下一句“软件自己回去装,教程自己找”,就结束了。我当时就悟了:大学=自学,完美的诠释。 这绝对是我大学第一课。 不过,社团也不是一无是处,它给我最大的好处就是——一个合法逃掉晚自习的工位。高中的晚自...
大学四年该怎么过,才不算...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
毕业了,有些话只能藏在心里了
1.9W
2
...
毕业啦!我们要一起去广州打拼啦!
1.9W
3
...
2026春招到底卷成什么样了?填问卷说出真相,最高领200元现金红包
1.5W
4
...
字节 中国交易与广告 后端一面
1.2W
5
...
211本,130投0面,agent应用开发,简历求助!
7932
6
...
从阿里被裁到快手升P6,我花了四年
7648
7
...
华为暑期实习
7157
8
...
从腾讯到阿里感,谢一路走来的自己
6548
9
...
别人:阿里 字节 腾讯
6520
10
...
在携程的一天
6384
创作者周榜
更多
正在热议
更多
#
这个offer值得去吗?
#
31105次浏览
227人参与
#
校招薪资来揭秘
#
960352次浏览
4061人参与
#
在爱玛,骑向未来
#
20134次浏览
394人参与
#
如果春招能重来,我会___
#
29108次浏览
289人参与
#
24秋招避雷总结
#
1019806次浏览
7098人参与
#
你会因为行情,降低找工作标准吗?
#
44764次浏览
327人参与
#
联宝杯大学生创新大赛,你的技术值得产业级答案
#
50669次浏览
781人参与
#
机械人还在等华为开奖吗?
#
339145次浏览
1652人参与
#
米哈游求职进展汇总
#
688528次浏览
3348人参与
#
华为池子有多大
#
177967次浏览
931人参与
#
26届春招投递记录
#
8594次浏览
71人参与
#
通信/硬件求职避坑tips
#
171966次浏览
1170人参与
#
25届网易互娱暑实进度
#
109056次浏览
802人参与
#
记录我的毕业季
#
4432次浏览
116人参与
#
机械人,你的秋招第一份简历被谁挂了
#
268708次浏览
2450人参与
#
远程面试的尴尬瞬间
#
363763次浏览
2062人参与
#
大学最后一个寒假,我想……
#
103264次浏览
846人参与
#
机械求职避坑tips
#
103642次浏览
589人参与
#
你认为小厂实习有用吗?
#
145001次浏览
762人参与
#
网易求职进展汇总
#
213089次浏览
1523人参与
#
美团秋招笔试
#
216287次浏览
1191人参与
#
刚入职就____,这样正常吗?
#
148966次浏览
709人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务