百度数开一面
面试官挺年轻的,感觉二十来岁,而且全程拷打我spark底层,我估摸着是刚入职八股没忘干净
自我介绍
自我介绍我一般说,我是谁,来自xx学校,然后熟悉xxx技术栈,在xx实习,职责是xxx。
介绍实习(5min左右)
开始八股
数仓建模
1. 讲讲维度建模
2. 讲讲事实表和维度表,讲讲事实表几种类型
3. 讲讲事务性事实表和周期快照事实表的区别,应用场景
4. 为啥不用事务性而用周期快照
5. 讲讲拉链表
Spark
5. 讲讲spark底层做了哪些优化(我讲了列裁剪+分区裁剪)
6. 为啥行式存储不能列裁剪,非要列式存储
7. 讲讲列式存储底层是怎么做裁剪的
8. 为什么谓词下推不叫谓词上推,不是将where/on条件提到靠近数据源的地方吗
9. 讲讲shuffle底层(我讲了hashshuffle和sortshuffle)
10. sortshuffle一定会排序吗(bypass机制)
11. 讲讲宽窄依赖
12. 讲讲广播变量底层实现
13. 如果变量不在driver端广播,而是在executor端怎么办
14. 讲讲spark中的join底层实现
15. 讲讲rdd,rdd的弹性是怎么理解的
16. spark内存计算你是怎么理解的
17. dateframe和rdd的区别,对操作的数据来说还有啥不同
手撕SQL
last_value+case when解决秒了
反问
面试官一直问,直到我不会再换个
,不过面试官没板着脸,在笑,所以对我来说压力还好,不是特别大。
#面试问题记录#
自我介绍
自我介绍我一般说,我是谁,来自xx学校,然后熟悉xxx技术栈,在xx实习,职责是xxx。
介绍实习(5min左右)
开始八股
数仓建模
1. 讲讲维度建模
2. 讲讲事实表和维度表,讲讲事实表几种类型
3. 讲讲事务性事实表和周期快照事实表的区别,应用场景
4. 为啥不用事务性而用周期快照
5. 讲讲拉链表
Spark
5. 讲讲spark底层做了哪些优化(我讲了列裁剪+分区裁剪)
6. 为啥行式存储不能列裁剪,非要列式存储
7. 讲讲列式存储底层是怎么做裁剪的
8. 为什么谓词下推不叫谓词上推,不是将where/on条件提到靠近数据源的地方吗
9. 讲讲shuffle底层(我讲了hashshuffle和sortshuffle)
10. sortshuffle一定会排序吗(bypass机制)
11. 讲讲宽窄依赖
12. 讲讲广播变量底层实现
13. 如果变量不在driver端广播,而是在executor端怎么办
14. 讲讲spark中的join底层实现
15. 讲讲rdd,rdd的弹性是怎么理解的
16. spark内存计算你是怎么理解的
17. dateframe和rdd的区别,对操作的数据来说还有啥不同
手撕SQL
last_value+case when解决秒了
反问
面试官一直问,直到我不会再换个
#面试问题记录#
全部评论
哪个部门
接好运
相关推荐
点赞 评论 收藏
分享