美团大数据开发面经
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了
面试官有问题必追问

自我介绍
项目深挖(20min)
实习工作介绍(5min)
数据倾斜有哪几种解决方法
Group by 倾斜,join倾斜,null值倾斜
分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了
Hdfs小文件危害,元数据压垮namenode,怎么处理:conbineinputformat
,linux本地聚合,开启hive的自动聚合。还有呢?忘记了
为什么开启map—join后会减小数据倾斜小表进内存,循环扫描大表,减小io次数.就这些吗?我说对
说一下你熟悉的排序算法(快排,归并,冒泡)还有呢?(说了桶排,堆排)不太熟悉,针对熟悉的说说时间复杂度。
数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)???
缓慢变化维度怎么处理:拉链表,还有呢?:直接丢弃,添加新列,使用历史表,嗯,还有呢?不知道了。。。。哪两个拉链表如何更新?Row——number()开窗,小的start_time在后面,大的start——time的序号在前面,然后取前面的值进行更新,后面的值更新最新日期。如果两个拉链表有重叠呢?说了sql取between,如果重叠就继续更新。哪拉链表如果出现断链怎么办(不会)(到这就不会了,然后继续深挖,问麻了都)
Hdfs怎么保证高可用:分布式,副本存储,secondnode,备胎机制还有呢?
传数据时的确认机制,还有呢?就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的?Map由块决定,redcue由分区决定。
怎么优化分区的键值:hash打散,map聚合。还有呢?特殊后缀,
Null值填充。还有呢?就这些了
介绍一下rdd,五大特性,rdd的map-join知道吗?(不太了解)
二叉树有几种遍历方式?前中后中的前中后代表什么。根据两个遍历可以确定第三个吗?可以。面试官接着问:你确定?。。。。。
还有一些答上来的八股不太记得了,突出一个很慌
手撕:处理特殊字符串。
反问。
自我介绍
项目深挖(20min)
实习工作介绍(5min)
数据倾斜有哪几种解决方法
Group by 倾斜,join倾斜,null值倾斜
分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了
Hdfs小文件危害,元数据压垮namenode,怎么处理:conbineinputformat
,linux本地聚合,开启hive的自动聚合。还有呢?忘记了
为什么开启map—join后会减小数据倾斜小表进内存,循环扫描大表,减小io次数.就这些吗?我说对
说一下你熟悉的排序算法(快排,归并,冒泡)还有呢?(说了桶排,堆排)不太熟悉,针对熟悉的说说时间复杂度。
数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)???
缓慢变化维度怎么处理:拉链表,还有呢?:直接丢弃,添加新列,使用历史表,嗯,还有呢?不知道了。。。。哪两个拉链表如何更新?Row——number()开窗,小的start_time在后面,大的start——time的序号在前面,然后取前面的值进行更新,后面的值更新最新日期。如果两个拉链表有重叠呢?说了sql取between,如果重叠就继续更新。哪拉链表如果出现断链怎么办(不会)(到这就不会了,然后继续深挖,问麻了都)
Hdfs怎么保证高可用:分布式,副本存储,secondnode,备胎机制还有呢?
传数据时的确认机制,还有呢?就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的?Map由块决定,redcue由分区决定。
怎么优化分区的键值:hash打散,map聚合。还有呢?特殊后缀,
Null值填充。还有呢?就这些了
介绍一下rdd,五大特性,rdd的map-join知道吗?(不太了解)
二叉树有几种遍历方式?前中后中的前中后代表什么。根据两个遍历可以确定第三个吗?可以。面试官接着问:你确定?。。。。。
还有一些答上来的八股不太记得了,突出一个很慌
手撕:处理特殊字符串。
反问。
全部评论
佬太强了
龟龟 看起来就很难
我也在优选,我只要是场景为主,你这个八股太多了,好难
进面了吗,这不进,那就可以确定是KPI了
就会一个,,,可以没有dws层。。。
我一面手撕了4个代码,就会一个,慌死了
等一波二面题
兄弟,结果咋样啊,感觉这一直在追着拷打啊
老哥加油呀,比我强
相关推荐
03-21 11:27
复旦大学 Java 点赞 评论 收藏
分享
03-01 21:45
中北大学 golang
孤蓝长空:请你说一下为什么你用websocket而不是http,请你说一下什么是rpc,为什么用rpc,你的rpc的传输协议是JSON,xml还是什么 请你描述一下你的鉴权流程(完整的) 我问的是第二个项目,随便问的哈哈哈 点赞 评论 收藏
分享
二十岁的编程男神王大...:那这个时代是什么时代呢? 是全员agent的时代,是前端+AI,后端+AI的时代,AI已经融入了项目生命周期的的每一个角落,那我最近在做的东西举例,检查BUG时,我们会用codex,CC等工具的skill去check,效果好还能直接fix,测试的时候,apifox等工具已经有了AI落地的改造,CI/CD阶段,我们会根据hook去跑AI check脚本,就连不少中间件,也迎来了AI落地的改造,(AI网关,AI在MQ中的运用),都可以去了解下
另外记着,这些东西不是意义,工作只是谋生的一个手段,ai是让开发提效了,但是呢,原先一周的工作流程压缩到了两天内,同时低级的都裁员了,只有高级的去维护,你看似写的大义凛然,或许那天你也会成为你文章里面拒绝往前走的人,你才大二,面对技术有热情是对的 点赞 评论 收藏
分享