美团大数据开发面经

个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问
自我介绍
项目深挖(20min)
实习工作介绍(5min)
数据倾斜有哪几种解决方法
Group by 倾斜,join倾斜,null值倾斜
分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了
Hdfs小文件危害,元数据压垮namenode,怎么处理:conbineinputformat
,linux本地聚合,开启hive的自动聚合。还有呢?忘记了
为什么开启map—join后会减小数据倾斜小表进内存,循环扫描大表,减小io次数.就这些吗?我说对
说一下你熟悉的排序算法(快排,归并,冒泡)还有呢?(说了桶排,堆排)不太熟悉,针对熟悉的说说时间复杂度。
数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)???
缓慢变化维度怎么处理:拉链表,还有呢?:直接丢弃,添加新列,使用历史表,嗯,还有呢?不知道了。。。。哪两个拉链表如何更新?Row——number()开窗,小的start_time在后面,大的start——time的序号在前面,然后取前面的值进行更新,后面的值更新最新日期。如果两个拉链表有重叠呢?说了sql取between,如果重叠就继续更新。哪拉链表如果出现断链怎么办(不会)(到这就不会了,然后继续深挖,问麻了都)
Hdfs怎么保证高可用:分布式,副本存储,secondnode,备胎机制还有呢?
传数据时的确认机制,还有呢?就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的?Map由块决定,redcue由分区决定。
怎么优化分区的键值:hash打散,map聚合。还有呢?特殊后缀,
Null值填充。还有呢?就这些了
介绍一下rdd,五大特性,rdd的map-join知道吗?(不太了解)
二叉树有几种遍历方式?前中后中的前中后代表什么。根据两个遍历可以确定第三个吗?可以。面试官接着问:你确定?。。。。。
还有一些答上来的八股不太记得了,突出一个很慌
手撕:处理特殊字符串。
反问。
全部评论
佬太强了
点赞 回复 分享
发布于 2023-10-02 15:58 广东
龟龟 看起来就很难
点赞 回复 分享
发布于 2023-09-27 08:54 四川
我也在优选,我只要是场景为主,你这个八股太多了,好难
点赞 回复 分享
发布于 2023-09-17 17:30 广东
进面了吗,这不进,那就可以确定是KPI了
点赞 回复 分享
发布于 2023-09-15 00:22 陕西
就会一个,,,可以没有dws层。。。
点赞 回复 分享
发布于 2023-09-14 21:09 江苏
我一面手撕了4个代码,就会一个,慌死了
点赞 回复 分享
发布于 2023-09-14 14:55 北京
等一波二面题
点赞 回复 分享
发布于 2023-09-14 11:42 北京
兄弟,结果咋样啊,感觉这一直在追着拷打啊
点赞 回复 分享
发布于 2023-09-10 13:01 四川
老哥加油呀,比我强
点赞 回复 分享
发布于 2023-09-08 19:27 湖北

相关推荐

头像
08-01 13:10
已编辑
武汉大学 Java
面试官非常普通的进入了面试,对于楼主直球表达的对一面面评的疑惑表示,太底层的东西我们都不问的(???)。1. 自我介绍2. tinykv有没有做出突出的优化点(没有)3. tinykv底层用的什么存储,badgerDB,好那你来说一下lsm tree的八股。4. lsm tree胡言乱语几min,楼主也是好久没系统介绍过lsm tree,基本想到啥说啥(读放大、写放大、kv分离、memtable),哪哪都不深入。5. b-tree和b+tree区别,使用场景,继续复读面经(但在复读至跳表时惨遭打断)6. lsm tree相较于b+tree的优势(最传统的ssd优势已经全忘了,吟诵的是方便调参以及更合适云存储场景使用)7. hash冲突怎么解决(参考java,红黑树,还有其他方法,但楼主没复习早忘了)8. hashmap怎么提高并发性能(参考java,分段锁),分几段比较好(不知道,楼主回答跑benchmark一测便知)9. 持久化的hashmap怎么在持久化的时候提供服务(楼主回答了双buffer设计,但只记得这个名字,细节早忘了),不用双buffer怎么做(那更是一窍不通)10. 面试官表示hashmap都是用mmap的,并且会自动写入磁盘(不懂什么意思,面试官说大家都知道,反正楼主不知道),并且持久化的时候会改一堆的链表,那么假如一个线程在改的过程中寄了导致链表只改了一部分,怎么办?(怎么办,凉拌,毫无思路,说像数据库事务一样整个redolog,楼主自己都觉得性能差)11. 编程题:写一个hashmap。楼主写了1h,不是因为难,只是因为菜。12. 有什么可以优化点?(楼主绞尽脑汁说了两点,vector预先申请大块空间、链表连续)13. 反问:做啥的:非关系型数据库作息:弹性,10点钟下班太晚了(不愧是藤子,至少楼主面的快手/百度/滴滴都表示这个点下班稀松平常)真的不care楼主对高性能存储什么都不懂吗:暧昧的眼神流程几面:3+1面后面聊了些数据库现状,面试官表示时序与对象数据库需求增大,存储行业仍有前景。很普通的二面,虽然很寄,就是很普通的深入到某个点就什么也不会了而已,楼主就这么菜,这点楼主早就知道了。成则称teg深入底层,越老越吃香,可顺利度过35岁危机;败则称teg钱少事多,绩效在集团垫底,就是因为根本没有发财的机会才会越老越吃香。楼主对db没有执念了,不会就是不会,没相关实习就是没相关实习,db不需要楼主这样浅尝辄止的人并非楼主的过错。不许愿三面了,早点挂了投ieg或者wxg去也不失为另一条康庄大道。———————————————挂了,投个sre提前批试试。tx无限复活就是好,每个岗位的面试都能体验一遍。
下一个更好呗:鸡架还是能跑路就跑,特别是数据库中的关系型数据库,2027年要全部国产化,现在基本上都成熟了,ob这些早就霸占市场了,其他db研发团队需求没那么大。
面试问题记录
点赞 评论 收藏
分享
评论
23
105
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务