70分钟1.自我介绍2.为什么不继续选择后端和算法,选择数开?3.在实习结束后,对数开有什么新的看法?4.讲讲实习项目经历业务逻辑。5.实习复盘离线数仓建设最难的点在哪?6.抛开数据治理不谈,数据仓库和数据建模最难的点是哪些?7.讲讲如果不按订单归因,按曝光归因的话该怎么修改链路?8.了解拉链表吗,如果按曝光归因拉链表核心字段怎么设置?9.了解数据漂移吗,数据飘逸是什么?10.怎么解决数据飘逸?11.RDD中宽窄依赖分别是什么?为什么这样设置?12.spark的流程,从语义入手13.真正执行之前spark会有哪些小步骤?14.spark怎么写入hive数据表?15.spark写入RDD用的是什...