网易云音乐 大数据开发 面经
一面:
数据倾斜怎么处理?
写一个算法判断一个图是不是DAG?(答案是拓扑排序,我一直在说bfs,尴尬,这边花了太多时间,O__O "…)
flume用过是吧?flume数据源如何监听文件夹里有新文件产生?
用过实时计算吗?没用过
mapreduce的map进程和reducer进程的jvm垃圾回收器怎么选择可以提高吞吐量?
二面:
会Spark吗?不会(面试官很意外)
用过Hive是吧?写HiveQL:两张表:一张歌曲表,一张专辑表,找出每张专辑的Top100。(这边花了太多时间,写出来后有2处不对,group by和select的字段不一致,join语法不对(╯﹏╰))
HBase用过是吧?画一下它的架构图
知道HBase的LSM结构吗?乱说一通后,那我这边问完了,出去等通知吧!
HR面:
想留在杭州吗?父母对你留杭州同意吗?期待的薪资多少?还拿过哪些offer?
(个人感觉2面的面试官想问spark,可是因为我不会,所以聊的时间比较短,对spark不熟的童鞋可以参考一下我的面经,
可能有点短,前面的时间主要在聊之前做的项目和实习经历)