一个云计算小公司面经:

1、介绍项目
2、spark的内存模型?sparkonyarn的两种部署方式?区别?
3、flink的任务调度过程?如何处理乱序数据?水印怎么定义怎么实现?最终迟到的数据要怎么处理?
4、jvm那一套、多线程那一套、如何自己设计一个hashmap?
5、问了一堆项目中具体问题和场景
6、100万条数据,内存很小只有1.5MB,要排序怎么办?能使用哪些排序方法?用哪种好?
7、何时发生内存泄漏(内存溢出OOM)?使用过什么工具观察过spark、flink任务执行时的内存运行情况?这两个框架内存溢出异常时分别是什么情况?
8、spark数据倾斜怎么办?使用sample算子的时候,三个参数分别代表什么含义?答数据抽取是否放回,打分值,随机数种子值。是否放回有什么区别?调用的什么算法?
#面经##大数据开发工程师##社招#
全部评论
问一下楼主,想转大数据开发,找个实习。是熟悉Hadoop还是Spark好呢?有哪些实践项目可以做吗
点赞 回复
分享
发布于 2020-03-05 02:29
博乐游戏
校招火热招聘中
官网直投

相关推荐

4 25 评论
分享
牛客网
牛客企业服务