1. 自我介绍2. 实习经历 难点3. 数据倾斜4. CTE的执行计划5. spark stage怎么划分6. 什么算子会触发宽依赖7. hive内部表和外部表区别8. HDFS小文件过多会有什么问题9. 对数仓分层的理解10. 数仓业务域和主题域的区别手撕:1. sql:查询某段时间借书的uid2. sql:查询至少连续两天登录的用户3. 算法:有序重复数组返回n出现的次数