2022暑期实习-大数据开发面经-字节跳动-data-电商
一面 50分钟
-
自我介绍
-
你学过的大数据掌握的最好的是哪一个
-
hive里面排序一般怎么使用的
-
hive内部表和外部表的区别,外部表在什么场景下使用
-
hive视图用过吗
-
你对维度和事实的理解
-
你说到了业务过程,谈谈对它的理解
-
你刚刚描述的是一个业务过程还是 多个业务过程
-
多个业务过程放到一张事实表的你举个例子
-
维度建模中 星型模型和雪花模型 之间的区别
-
缓慢变化维表如何处理呢
-
全量表的数据保存多久
-
那你们订单表是全量还是增量,你觉得增量是什么意思,那你们这边的数据保存多久呢
-
说一下订单表的设计过程 以及 表的分区含义
-
你前面提到了会进行维度退化,那么说一下订单表中有哪些维度退化属性
-
那你说一下你们数仓的一个全链路吧
-
我看你项目还写了一个实时的,你这个在哪看的
-
那说一下flink乱序事件处理的几种方式吧
-
抖音有一张流量表和一张交易表,分别是 table_a(mid, pv) 和 table_b(mid, gmv),如何将他们进行合并,数据倾斜如何处理
-
你想做什么方向
二面 35分钟
-
自我介绍
-
讲一下你的项目吧
-
挑一个你做的需求讲一下,你遇到的难点是什么
-
你知道维度建模的过程吗
-
你平时用什么语言多一点,回答java,然后问了一个string stringBuilder stringBuffer的区别
-
HDFS写的流程,要是有一个datanode挂了怎么办
-
kafka是如何保证数据不丢失和数据不重复,然后又说消费的时候呢
-
spark的shuffle的过程
-
你可以对shuffle进行优化吗
-
SQL题:table_a(date, uid, vid) 找出3月19号看不同视频数排名前五的uid 【最好不用distinct】
三面 leader 45分钟
-
自我介绍
-
一直在聊数仓项目 (建模基础,以及业务理解)
- 刷了一道算法题,主要就是 1-a 2-b ... 26-z,那么给你一个数值的字符串,问有多少中编码的方案,比如“12”,返回2(最后我没写出来,但是给出了动态规划的想法)
hr面 15分钟
- 自我介绍
- 你遇到过最大的问题是什么
- 你什么时候能来实习,实习多久(建议回答:立马入职,一直实习)
~~~还有一些常规的问题不记得了~~~
整体总结
- 一面基本全是业务,二面就是项目八股文都有一点,三面基本就是项目
- 数仓的面试还是比较偏向业务的和偏向数仓建模理论的,可能手撕算法比较少