汉得信息/汽车之家数据工程师校招面经

汉得信息

一面

1.介绍下你做的项目
2.说说数据统一管理平台
3.java web这块你参与开发了吗
4.项目提到了元数据,你能说说hive的元数据管理嘛,了解吗
5.问你对hive有哪些原理性了解
6.说说hive --> mr的过程
7.说说谓词下推是怎么回事
8.hive转mr过程是怎么了解的
9.问如果有个用户:去做了个全表扫描,去查数据,即便我们要求了要指定分区去查,但是他都没有这样做;那么,从你刚刚hive转mr过程的阶段中,你觉得应该从哪个阶段开始避免呢?
10.除了谓词下推,还能说说其它的优化嘛?
11.可分割的压缩格式,说下哪些压缩格式支持分割
12.jvm了解不,说下垃圾收集算法
13.平常用java和scala语言哪个多点
14.如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问
15.如何去线程监控
16.Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
17.如果大表与小表join,出现问题,你觉得该怎么优化
18.那如果现在只是单纯的数据量过大了,出现OOM,该怎么办呢?
19.现在如果在shuffle过程中,增加并行度,是否能缓解数据倾斜的情况?
20.你对未来的规划是什么?

二面
1.ThriftServer的HA如何去实现,能说下实现的思路吗
2.能说下Zookeeper的watch机制是如何实现的嘛?
3.java内存块以及关于多线程的理解
4.问了项目上的一些事
5.问你兴趣爱好

汽车之家


1.自我介绍
2.实习时间,能实习多久
3.MapReduce的执行流程
4.map最多可以有几个,combiner阶段,举2个不能使用combiner的例子
5.hql转MapReduce的流程说下
6.Spark Shuffle调优,调哪几个参数
7.问Spark Shuffle有哪几个类
8.问hashshuffle的consolidate机制被移除取代了,你觉得它有什么缺陷
9.问Synchronized与volatile的区别
10.说下你的能耗资源统计分析系统项目
11.问你们最终的数据是存哪的?
12.为什么使用es,而不是使用关系型数据库(MySQL)
13.重跑的设计,是指定批次重跑嘛,怎么设计的
14.ResourceManager HA的设计,如何设计?
15.问你一些简单的问题
16.问你在这边有没有买房的打算



#上海汉得信息技术股份有限公司##汽车之家##数据分析师##校招##面经#
全部评论
ThriftServer的HA你怎么回答的
点赞 回复
分享
发布于 2020-05-31 10:49

相关推荐

点赞 评论 收藏
转发
4 6 评论
分享
牛客网
牛客企业服务