京东 数据开发工程师 一面面经 已凉

40min 面试官问的很细,来自数据平台,技术感觉很强很全面。

warm-up

  1. 自我介绍
  2. 有其他意向吗?能来北京吗
  3. 挑一个做得好的项目介绍下全流程
  4. 难点在哪,讲一下

ElasticSearch

  1. ES有用到集群吗?有设置分片吗?有设置副本吗?副本数是多少?
  2. 你是怎么建立索引的?为什么这么建立索引?

Hive

  1. 离线处理有用过Spark 吗?没有,主要用的是Hive
  2. 说一下Hive 构造UDF 的过程?包含那几块?
  3. UDF 用什么语言开发的?开发完了怎么用?

    写HiveSQL

    temp 表:user_id, shangpin_id, leibie_id.
    要求返回每个用户访问次数最多的三个类别。user_id, types[a,b,c]

Spark

  1. 说一下checkpoint 机制,项目中有用到吗?
  2. 说一下Spark 和 Hadoop区别?
  3. 说一下Spark streaming 和 Flink 还有Storm 的区别?
  4. stage,job,task 的联系。如何划分stage?
  5. RDD、DataFrame、DataSet的区别?
  6. 如何确定task 数量
  7. 50台机器,如何保证每台机器上运行一个Task?怎么设置参数?
  8. Spark 如何处理数据倾斜?一个task 特别慢,其他的很慢都等待?如何应对这个task?
  9. 答了广播变量,面试官给否了,回答了热点key加随机值的方式
  10. 追问:有没有其他的方式,比如说数据预处理,在传入Spark 之前的预处理?
  11. 追问:Spark 如何通过调参处理数据倾斜? 面试官提了core...什么的,我没有用过,不会

反问

  1. 哪个部门的?面试官向我介绍了主要的开发内容。
  2. 主要的技术发展方向?

总结

标黑的都没答上来,凭印象说了一些要么就不会,面试官的工程能力很强,直接从实际场景还有参数这些来问,实在是顶不住,接下来还得继续看下自己项目的代码和具体细节。

加粗的地方,大家如果知道怎么回答麻烦告诉我一下,提前谢谢了!

#京东##大数据开发工程师##大数据开发#
全部评论
我一面硬是一个技术问题都没有,感觉又是kpi,等会二面~希望正常点
点赞
送花
回复
分享
发布于 2022-09-07 14:48 四川
RDD是Spark Core的API,相比DF的话偏底层一些,相比DF有更多的算子,实现逻辑更灵活,但同时带来的问题是交给Spark的优化空间比较小,Spark只能按你的逻辑来执行,性能你自己控制,而DF的话,像是数据库的一张表,携带数据信息,根据这些信息,Spark可以有自己的一套优化逻辑,所以Spark 3.0的优化大部分是SparkSQL方面的。
1
送花
回复
分享
发布于 2022-09-17 11:40 北京
滴滴
校招火热招聘中
官网直投
50台机器每个机器一个task,首先num-excutors 设置为50,spark.excutors.cores=1,每个Excutor给一个core,spark.task.cores设置为1,每个task可用core为1
2
送花
回复
分享
发布于 2022-09-17 11:46 北京
调参处理数据倾斜,一般是调整并行度加task可用core的数量,数据倾斜的表现是某个task处理的数据过多,导致时间长,通过调整并行度和core可以让数据大的分区交给多个task处理,core的数量是为了提高处理效率。这种也是数据倾斜处理中治标不治本的方法
2
送花
回复
分享
发布于 2022-09-17 11:54 北京
感觉大数据问的东西比JAVA难多了,主要是JAVA八股文整理的太好了吧
1
送花
回复
分享
发布于 2022-09-08 21:37 北京
兄弟,啥专业的啊?我感觉数据开发东西真的太多了,什么都要学,408那套,juc,jvm,大数据组件,已经麻了😥
1
送花
回复
分享
发布于 2022-09-11 17:03 广东
task数量和数据的分区相同,一般就是HDFS上的分区的数量,shuffle后分区数的可以通过shuffle.partitons这个参数调整,调整后reduce task的数量就是这个参数配置的。
1
送花
回复
分享
发布于 2022-09-17 11:42 北京
数据倾斜数据预处理,这个是治标不治本的方法,把数据处理提前交给Hive处理,这样Spark就省掉了聚合的操作,但hive在聚合的时候同样会发生数据倾斜。
1
送花
回复
分享
发布于 2022-09-17 11:48 北京
楼主二面否
点赞
送花
回复
分享
发布于 2022-09-09 19:25 北京

相关推荐

11 66 评论
分享
牛客网
牛客企业服务