奇虎360社招面经:大数据计算存储高级开发

一面:
1、介绍项目,公司的大数据架构。
2、kafka怎么保证数据的exactlyonce?
3、offset你们公司如何维护的?为什么不放在mysql?
4、kafka可以保证数据的局部有序,如何保证全局有序的?
5、介绍一下kafka的事务。
6、flink和sparkStreaming的区别?
7、flink批处理和实时处理有什么关系?
8、mapReduce的过程?map端预合并可以做取余操作吗?shuffle过程介绍一下?环形缓冲区溢写的阈值是多少?为什么是这个值?之后用的什么排序?为什么是这个排序?合并和归并有什么区别?
9、十大排序抽几个问空间复杂度、时间复杂度、稳定性、实现原理。
10、spark的RDD是什么东西?有什么特点?弹性体现在什么地方?
11、spark任务提交的过程?宽依赖窄依赖有什么区别?划分stage的过程除了宽窄依赖还有什么判断标准?任务分发的过程是怎么样的?
12、cache和persist的区别?是transformaiton算子还是action算子?
13、spark的内存模型是怎么样的?
14、redis为什么快?NIO AIO区别?
15、scala的match case和Java的switch case有什么区别?scala的隐式转换介绍一下?
16、多线程的原理?实现类、阻塞队列、参数、拒绝策略、区别。
17、Hive使用的时候会将数据同步到hdfs,小文件问题怎么解决的?
18、zookeeper了解吗?自己介绍,balabala。
差不多一个小时吧,有点懵,有的没答对,有的没答全,祈祷能通过吧。太南了。
#360公司##社招##面经##大数据开发工程师#
全部评论
老哥 kafka怎么保证全局有序,这个怎么说啊,只能一个分区才能保证吧
1 回复
分享
发布于 2020-10-05 15:56
补充两个: 1、消费者消费数据的时候,如果本条数据消费完,处理结果丢失了或offset未来得及提交,或数据库表主键id对应的值没有修改为已消费的状态,如何回滚重新处理? 2、spark部署的方式standalone和sparkOnyarn的时候有什么区别?
点赞 回复
分享
发布于 2020-01-11 22:45
淘天集团
校招火热招聘中
官网直投
欢迎大佬参加我们的社招面经征集活动呀!有京东卡可以拿 https://m.nowcoder.com/discuss/311389
点赞 回复
分享
发布于 2020-02-05 10:53
虽然距离发帖时间已经很久了,我先问下,老哥你申请高级开发你工作几年啦
点赞 回复
分享
发布于 2020-09-07 22:27
spark划分阶段就一个宽依赖啊,还有啥?
点赞 回复
分享
发布于 03-16 13:35 广东

相关推荐

4 53 评论
分享
牛客网
牛客企业服务