知乎大数据开发校招一、二面面经

预先不知道一、二面同时进行,面了两个小时身心俱疲
面经是一面和二面的问题汇总,但是问题出现顺序可能会有些变化
一面
自我介绍
项目经验
在介绍完项目过后,面试官觉得我的反思比较多,让我提炼一下关键信息
为什么采用双分区加高优任务解决执行效率问题,不会出现依赖混乱的问题吗
详细讲讲你OLAP选型的思路,并且能否详细对比一下你提到的几款olap引擎(CK,doris,kylin)
数据仓库分为哪几层,每层分别是做什么的
数据主题域是怎样进行划分的,项目中是否也是同样进行划分
mapreduce的shuffle
hiveSQL和SparkSQL的区别
flink的背压机制
spark的宽窄依赖
SQL题
连续登录
接下来是反问
我问了一些对于湖仓一体,流批一体的看法,以及是否有打算进行探索
二面
自我介绍
目前采用的实时架构是怎样的?(flink还是flink+doris)
doris的join是什么类型的?
为什么采用flink+doris他的优缺点有哪些?有没有其他方案,优缺点?
数据倾斜问题,计算pv、性别个数应该采用那种方案解决数据倾斜,为什么?
数仓的分层,每层是做什么的,分层的好处
你觉得怎样判断一个数据明细模型是否算做一个好的数据明细模型
讨论了一下开发过程中遇到的技术债,指标同名不同义等,以及解决方案
简历里面的一个高执行时长高资源占用任务优化是怎样进行的?
为什么会出现这种性能瓶颈
分主题预计算的好处和坏处是什么?
指标维度矩阵了解吗?
推荐我继续深入研读数据仓库工具箱
反问
同样是问了流批一体和湖仓一题的看法

感觉自己的数仓基础还是需要进行提高
并且由于没太背八股文,导致一些底层原理的问题回答得不是那么完善,之后还是需要多加复习


#面试题目##知乎#
全部评论
问算法了吗?需要手撕吗
1 回复
分享
发布于 2022-03-17 14:04
请问你做的是实验室的项目吗
点赞 回复
分享
发布于 2022-03-22 22:07
联想
校招火热招聘中
官网直投
怎么不多问点实时
点赞 回复
分享
发布于 2022-04-01 04:32
能问下 hiveSQL和SparkSQL的区别  这个楼主咋答的啊
点赞 回复
分享
发布于 2022-04-19 20:28

相关推荐

3 41 评论
分享
牛客网
牛客企业服务