一面: 数据倾斜怎么处理? 写一个算法判断一个图是不是DAG?(答案是拓扑排序,我一直在说bfs,尴尬,这边花了太多时间,O__O "…) flume用过是吧?flume数据源如何监听文件夹里有新文件产生? 用过实时计算吗?没用过 mapreduce的map进程和reducer进程的jvm垃圾回收器怎么选择可以提高吞吐量? 二面: 会Spark吗?不会(面试官很意外) 用过Hive是吧?写HiveQL:两张表:一张歌曲表,一张专辑表,找出每张专辑的Top100。(这边花了太多时间,写出来后有2处不对,group by和select的字段不一致,join语法...