5.25深圳盈华讯方面试(30min
(Java大数据实习生)
1.这个项目来源
2.集群框架是完全自己搭建的嘛
3.项目提及的数据源不一,怎么解决的
4.项目提及的数据质量差又是如何体现
5.项目里数据的清洗是怎么做的
6.用了Spark哪个模块, 用来做批处理还是流处理,SparkSQL
7.Spark知道哪些算子
8.了解什么窗口函数
9.Spark里的stage是如何划分的
10.Maxwell了解哪些,提及一个术语(没学过,说不上来)
11.kafka了解多少
12.kafka在项目里有多少个节点,他的组成是怎样的
13.jvm了解嘛
14.用java实现过什么
15.UDF函数了解嘛,写过什么UDF函数