连续拷打超过一小时,传统八股不多 大数据相关拉满1. 项目拷打,主要拷打我上一段实习做的数据项目的技术选型2. 算法题:搜索二叉树,找两个值最近的祖先3. 请简述进程和线程的区别4. 给我了一个二叉树,让我说出其前序、中序、后续遍历的顺序5. Spark相比于Hadoop MR的优势 和劣势在哪里6. 描述一下Spark的宽窄依赖7. 在大数据开发的过程中,有哪些常见的数据倾斜情况8. 你刚才说的Kafka的数据倾斜,通常是什么情况导致的?如何避免?什么情况下 无法避免?9. 如果由于数据倾斜,导致Kafka一个分区消费慢,有什么处理方法?这个方法 有什么局限性?10. 如果上游Kafka没有数据倾斜,你在用Flink消费的时候出现了数据倾斜,通常是 什么原因导致的?有什么解决方案?11. Hive外部表和内部表的区别?12. Hadoop中Map任务数和Reduce任务数的决定因素?应该如何优化呢?13. Hive中order by和sort by语句有什么区别?14. Linux下如何在shell脚本中判断上一条命令执行成功与否?