5.9 快手数据研发一面(大数据、数开)

项目为sgg经典离线数仓
1. 自我介绍
2. 项目介绍(难点、亮点)
3. 根据难点亮点提问
4. 数据域是什么,如何划分数据域,为什么这样划分数据域
5. DIM层维度表的设计原则
6. DWD层事实表设计要点
7. mapreduce shuffle流程
8. maptask和reduce task 与哪些因素有关
9. 数据热点(数据倾斜)在哪些场景下出现,如何解决
10. spark是为了解决mapreduce什么问题设计的
11. 手撕sql ,用户关注表有user_id、user_follower_id,求相互关注的用户对
(这里想考察的应该是当数据量大的时候,如何不使用join来求相互关注,因为当时场景给定的id是字符abcd,可以考虑使用concat)
12. 谓词下推是什么
13. 连接条件写在on里和where里有什么区别
14. count(1)和 count(*)的区别
15. count(1)如果其中有Null值,和count(*)一样吗,为什么
16. mapreduce和spark处理distinct去重操作的执行计划以及原理
(下去搜了下,面试官想听的应该是mr在执行distinct时会只用到一个reduce造成大量shuffle这个点)
17. sparksql调优的方法依赖日志诊断,具体不同情况如何根据日志去调优
18. 反问

5.10 更新  流程已结束 
双非属鼠又一次倒下了
全部评论
哥们项目让你介绍玩,然后就问难点,亮点是吗,还有其他深问吗
点赞 回复 分享
发布于 2024-05-23 01:17 广西
加油,看了一眼感觉我日志调优我也答不出来,因为本身就接触不了真正的大数据,根本就没用过,真要答的话我应该会说一下数据倾斜优化吧。。。其他的大多是八股,谓词下推可能我也答不出来
点赞 回复 分享
发布于 2024-05-17 17:02 湖南
你这个问的也太难了,谓词下推有好多在职的数据开发都不知道是什么
点赞 回复 分享
发布于 2024-05-14 16:54 上海
同 也是类似全是日志调优的问题 压根不太懂😥
点赞 回复 分享
发布于 2024-05-14 12:42 河北
校友,是日常还是暑期
点赞 回复 分享
发布于 2024-05-14 11:21 广东
啥时候面的
点赞 回复 分享
发布于 2024-05-11 18:45 重庆
和我之前面试题目差不多
点赞 回复 分享
发布于 2024-05-10 23:33 北京
是回答的不好挂的吗?还是其他原因
点赞 回复 分享
发布于 2024-05-10 19:01 北京

相关推荐

机械打工仔:不管啥专业,找工作改简历的第一课先把你那排版改了,简历上不要写个人简历四个字,找你要简历的谁不知道这个是简历?而且还占那么多空间,直接把自己名字和基础信息写上面,整体字体大一些。 还有这种经典两页简历一页大空白,导出PDF的时候多了一页几乎全是白的你自己看着不难受吗随手的事为啥不能改掉呢,这是态度问题,你试想一下你是HR你打开简历看到格式都没调整过会是什么感受?你自己都不重视你的简历,HR更不会在意。 然后内容你那个做两年咖啡就别往里写了,简历在精不在多,你在往你的简历里打字的时候就要想好这东西对你要找的工作有没有帮助。自我评价写一行就行了,不如给专业技能单开一栏。核心课程均分90这个真别写了,把你上过的有用的专业课列出来也行。有很多地方废话很多的精炼一下,比如你校内项目第一个写的那些,全然没有重点。 好好修改一下,我看你内容也挺优秀的,别被一个随便做的简历耽误了,我一个同专业的打工人看了都揪心更别说一天看几百份简历的HR
听劝,我这个简历该怎么改...
点赞 评论 收藏
分享
评论
10
78
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务