一面就跪 level
获赞
1
粉丝
0
关注
7
看过 TA
9
江汉大学
2022
大数据开发工程师
IP属地:湖北
暂未填写个人简介
私信
关注
今天 17:25
已编辑
江汉大学 大数据开发工程师
6.20一面自我介绍,项目拷打,数据倾斜的发现,以及如何做的,计算过哪些指标,场景题:计算2024-01-01至今商品的点击率,为了计算该指标,dwd层和dws层该如何构建sql题:将连续的时间展开user_id,s_date,e_date,输出user_id  date_time,求三日内留存率与三日留存率耗时40分钟6.23二面,自我介绍,项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,sql:   连续登陆领金币问题,    直播间峰值做完题又随便聊了聊,耗时40分钟6.26 加面三面,被面试官狠狠拷打,先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,两个小表之间join,产生数据倾斜你有什么好办法,然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。在问spark对比hadoop好在那里,一不小心答到了sparkAQE,在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,并且 combineByKey需要传入几个参数,然后spark 火焰图了解吗?count(distinct user_id) 用spark 怎么写,一道sql题,编程题看我没有刷过力扣直接没出,面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。耗时80分钟           
查看21道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务