阿里云数据开发面试

#软件开发2024笔面经#

阿里云数据开发岗位面试公司名称:阿里云
面试岗位:大数据开发
整个是大数据开发,我以为是数仓开发,结果问的全是Spark问题,被搞自闭了。1,自我介绍
2,park中RDD的Task数量由什么决定?3,Spark怎么实现算子中的变量共享?4,Spark共享变量的使用条件?
5,可序列化?连接池实例是在算子内还是在算子外?
我一开始没想好,先回答了连接池的作业:是为了连接的复用,将可能会用到的连接通道给提前打开,存在大量通信请求场景时,可以用到连接池来优化整个通信过程的效率。
我回答是 连接池实例应该在算子外创建和管理,这样算子共享相同的连接池。
但面试官说让我好好想想。然后问我如果进行网络连接,是一台电脑连接还是多台连接?应该是在算子内,通常是因为数据不能或不应当在算子之间共享,或者存在连接泄漏的风险。例如,在使用HBase时,连接器必须在算子内实例化连接池中的连接,以确保每个算子在处理数据时都能获得可用的连接。
6,习惯用的语言?Scala熟练不?对Scala有什么看法?
7,为什么选择Spark来处理数据?因为非结构化的数据多吗?
这是3面,整个流程大概花了50分钟,问的问题
脉友一场,知无不言
全部评论
真不错啊,面这么久
点赞
送花
回复
分享
发布于 04-26 13:52 辽宁
一面和二面中间隔了多久啊
点赞
送花
回复
分享
发布于 04-26 13:58 陕西
滴滴
校招火热招聘中
官网直投
最后结果怎么样 通过了吗
点赞
送花
回复
分享
发布于 04-26 14:13 河北

相关推荐

9 18 评论
分享
牛客网
牛客企业服务