美团数据仓库工程师一面 40min

👥 面试题目
1.自我介绍,能不能从几个方面说一下项目
2.有什么收获
3.简历里面哪个技术学的最好
4.spark的client模式和集群模式
5.yarn
6.能够重分区的算子
7.为什么用rdd,不用df和ds,他们的区别
8.为什么spark比mapreduce更快(磁盘io和进程线程模型)
9.spark也会OOM和溢写磁盘啊,mapreduce也有缓冲区啊,都是内存计算,为什么更快(统一内存模型和流水线加载内存,面试官说没到点上)
10.真实的优化经历,不要那些从网上背的八股
11.什么是aqe
12.为什么是动态调整,具体体现在哪方面(好像没说到他要的东西😭)
11.hdfs查看文件大小命令,这个没答出来
12.写一个SQL
13.反问:技术栈和建议
14.数据治理问题

第一次面试太紧张了,话术出大问题了😭,说话不流畅,面试官说自我介绍不太过关,回答思路有些混乱了,要分点回答,多练练表达。
全部评论
点赞
送花
回复
分享
发布于 04-27 12:51 山西
老哥,哪个部门,风控吗
点赞
送花
回复
分享
发布于 04-27 13:02 北京
滴滴
校招火热招聘中
官网直投
佬是本吗
点赞
送花
回复
分享
发布于 05-10 09:11 北京
日常?
点赞
送花
回复
分享
发布于 05-12 09:26 北京

相关推荐

头像
04-28 11:59
已编辑
河北科技大学 数学类
1.自我介绍2.熟悉flink还是spark答:flink3.介绍下flink架构吧答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager4.flink有哪些算子?答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。5.flink你知道有哪些窗口吗?计数窗口能介绍下吗?答:时间窗口有滚动滑动会话,计数窗口有滚动滑动。6.你知道窗口什么时候触发吗?答:讲了一下窗口触发器trigger7.你能介绍下flink有几种窗口触发器吗?底层怎么实现的。答:讲了一下事件时间触发器和处理时间触发器的原理。8.假如flink窗口突然不触发了,你怎么排查。答:这里我答了一下排查上游其中一个流是否断流,如果其中一条流断流可以设置withIdleness空闲时间,让窗口的最小水位线机制去掉那个断流的依赖,靠另外的流触发计算。这里面试官提了一个场景,如果小米商城半夜就是没人买东西或者数据量很小导致水位线不能及时更新,(就是每条流都没数据)那你该怎么触发呢?利用窗口触发器ProcessingTimeoutTrigger 9.口述一道sparksql题10.sparksql优化答:(1)sort by 代替 order by,需要结合distribute by使用。(2)count(distinct)优化(3)列裁剪(4)谓词下推(5)优化MAPJOIN阈值。(6)定期合并小文件,防止maptask数量过多(7)多用explain看执行计划,避免笛卡尔积等意外情况11.执行计划怎么看每个stage是根据shuffle切分,执行计划会写上具体的操作符和数据量和JOIN规则。12.distrubute by 会发生shuffle吗?根据什么字段distribute by? 这个和cluster by的区别是什么?13.反问:(1)小米数仓具体是做什么数据?(2)为什么岗位介绍上写了机器学习?面试官说这个有专门团队去做,跟数仓关系不大牛客字数限制,答案写的有点简略小米面试官的技术感觉很强,态度好,体验很不错,希望以后有机会能进吧。#大数据开发#
点赞 评论 收藏
转发
8 25 评论
分享
牛客网
牛客企业服务