字节数据开发timeline
6.20一面
自我介绍,
项目拷打,
数据倾斜的发现,以及如何做的,
计算过哪些指标,
场景题:
计算2024-01-01至今商品的点击率,
为了计算该指标,dwd层和dws层该如何构建
sql题:
将连续的时间展开
user_id,s_date,e_date,
输出
user_id date_time,
求三日内留存率与三日留存率
耗时40分钟
6.23二面,
自我介绍,
项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,
sql:
连续登陆领金币问题,
直播间峰值
做完题又随便聊了聊,
耗时40分钟
6.26 加面三面,被面试官狠狠拷打,
先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,
两个小表之间join,产生数据倾斜你有什么好办法,
然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。
在问spark对比hadoop好在那里,一不小心答到了sparkAQE,
在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处
这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,
再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,
reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,
并且 combineByKey需要传入几个参数,
然后spark 火焰图了解吗?
count(distinct user_id) 用spark 怎么写,
一道sql题,
编程题看我没有刷过力扣直接没出,
面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。
耗时80分钟
#数据开发#
自我介绍,
项目拷打,
数据倾斜的发现,以及如何做的,
计算过哪些指标,
场景题:
计算2024-01-01至今商品的点击率,
为了计算该指标,dwd层和dws层该如何构建
sql题:
将连续的时间展开
user_id,s_date,e_date,
输出
user_id date_time,
求三日内留存率与三日留存率
耗时40分钟
6.23二面,
自我介绍,
项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,
sql:
连续登陆领金币问题,
直播间峰值
做完题又随便聊了聊,
耗时40分钟
6.26 加面三面,被面试官狠狠拷打,
先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,
两个小表之间join,产生数据倾斜你有什么好办法,
然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。
在问spark对比hadoop好在那里,一不小心答到了sparkAQE,
在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处
这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,
再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,
reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,
并且 combineByKey需要传入几个参数,
然后spark 火焰图了解吗?
count(distinct user_id) 用spark 怎么写,
一道sql题,
编程题看我没有刷过力扣直接没出,
面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。
耗时80分钟
#数据开发#
全部评论
相关推荐
昨天 09:51
重庆大学 数据仓库 点赞 评论 收藏
分享