科大讯飞大数据工程师面经凉经

一面：
1、简述scala和java的主要区别，使用过程中。scala的版本。
2、scala的根缀表达式。
3、接口和特质的区别
4、大数据的排序、去重的算法。（快排在大数据是不适用的）bitmap、布隆过滤平时可了解过。
5、遇到过jar包冲突的情况吗？
6、yarn资源申请过程。资源响应、资源分配是怎么进行的。
7、容器是什么。什么东西调用这个机器的资源？container是以什么形式存在于内存当中。（本质上也是一种线程）。
8、yarn的源码看过吗？有从某个入口进去，把yarn资源调度的过程自己捋一遍。
9、hdfs的读写路径。
10、具体通过什么途径进行通信。rpc
11、文件读取的时候怎么确定当前的block在哪个datanode上，读数据使用什么算法确定最优的那个datanode。
12、文件写入过程中namenode发现文件以及存在或者创建者没有权限操作，会返回什么错误。
13、hive用过吗？hive的组件及各个组件的作用。优化器有哪些优化的措施。
14、hive和hdfs交互流程。操作数据时和hdfs怎么操作数据的。
15、hivesql写过吗，数据倾斜遇到过吗，怎么处理的？
16、手写sql，学生分数按序排名，输出每个学生前百分之三十的学生分数的平均数。
17、azkaban，别的任务调度oozie学过吗？现在azkaban用的比较少。
18、举下spark的transform和action的算子，并讲下区别。
19、spark的rdd原理。spark怎么把你的算子转化成rdd的？rdd之间的一些关系。rdd怎么提交到内存上计算的。
20、数仓为什么要分成这几层。原始数据是什么格式的？底层数据处理到dw层是怎么处理的？spark还是什么？如果原始数据是半结构化的数据/非结构化的数据怎么办？
21、维度表和事实表怎么区分。维度是手机号或者地址，会经常变更的维度，这种怎么处理？（渐变维度？）加个版本号是吧。
22、数据建模过程中，数据导入、数据处理、数据展示都使用哪些工具？flume和sqoop有什么区别？

二面：
1、简述hadoop
2、写文件流程
3、pipeline
4、spark本身的批处理用过吗？

5、scala的样例类和伴生对象

感觉二面是为了刷kpi，因为1面很差，被面试官直接说基础很差。。。

#科大讯飞##面经##校招##数据开发工程师#

全部评论

推荐最新楼层

求一个体面的offer

大数据开发工程师

这也问的太深了吧。。。

3 回复

发布于 2020-09-22 16:30

白天不懂夜的嘿

哔哩哔哩_数据平台_开发工程师

这谁顶得住啊

2 回复

发布于 2020-09-29 16:29

百信银行

校招火热招聘中

官网直投

new_coders

数据分析师

一面这么难？

1 回复

发布于 2021-06-22 18:14

？不懂就问？

信息技术岗

老哥是社招吗？

点赞回复

发布于 2020-09-21 15:51

YuAN142615

数据库工程师

您好，这个"手写sql，学生分数按序排名，输出每个学生前百分之三十的学生分数的平均数。"前百分之三十要怎么写啊，用limit 0 , x吗，这里的x可以用0.3*count(*)这样的聚合函数？

点赞回复

发布于 2020-10-04 23:31

kon123

大数据开发工程师

感谢面经分享，感觉很深啊。第11是hdfs读取block的算法可以这样回答吗？从3个地址中取出一个离客户端最接近的DataNode来读取Block；如果客户端本身就是DataNode,那么将从本地直接获取数据；当该最近的datanode的负载达到一定的量级，客户端就会将数据请求发给其他的datanode。还是说是那种数学类型的算法啊？

点赞回复

发布于 2021-06-20 18:31

牛客934529503号

数据分析师

你好，我想问一下二面之后多久知道挂了呀，我昨天面的二面，感觉也很像kpi，但是我还在等结果，如果确定挂了我就签其他公司了

点赞回复

发布于 2023-04-07 16:46 安徽