阿里巴巴大数据开发高频面试题及答案【互联网回暖了！！！】_牛客网

准备春招的小辣鸡

去哪儿_数据开发

发布于江苏

关注

@三石大数据：阿里巴巴大数据开发高频面试题及答案【互联网回暖了！！！】

推荐阅读文章列表：大数据开发面试笔记V4.0   ||   面试聊数仓第一季  ||   小白大数据学习路线一、前言阿里巴巴2024届校园招聘正式开启，注意1+6+N分开招聘，机会变多了冲起来，兄弟姐妹们，我帮大家整理好了大数据开发的高频面试题，希望对你有用！！！注意：以下仅涉及大数据开发的知识，并不是说面试只会问这些，一般还会问java和计算机基础的八股文二、高频面试题总结1. MapReduce Shuffle为什么要将数据写入环形缓冲区Map的输出结果是由collector处理的，每个Map任务不断地将键值对输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。2. MapReduce Shuffle为什么容易发生数据倾斜因为key分布不均匀，在shuffle的时候，大量的key可能分配到某一个reduce当中，这就会产生数据倾斜3. MapReduce 实现joinpublic class Job_JoinDriver {   // mapper    static class Job_JoinMapper extends Mapper<LongWritable, Text, Text, Text> {        Text k = new Text();        Text v = new Text();        @Override        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {            // 通过切片获取到当前读取文件的文件名            InputSplit inputSplit = context.getInputSplit();            FileSplit fileSplit = (FileSplit) inputSplit;            String path = fileSplit.getPath().getName();            // 定义 sid 用于存放获取的 学生ID            String sid;            String[] split = value.toString().split("\\s+");            // 判断文件名            if (path.startsWith("student")) {                // 学生表的 ID 在第一位                sid = split[0];                // 将整条数据作为 vlaue，并添加 Stu 的标识                v.set("Stu" + value);            } else {                // 成绩表的 ID 在第二位                sid = split[1];                // 将整条数据作为 vlaue，并添加 Sco 的标识                v.set("Sco" + value);            }            k.set(sid);            context.write(k, v);        }    } // reducer    static class Job_JoinReducer extends Reducer<Text, Text, Text, Text> {        @Override        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {            // 用于存放获取到的学生信息            String stuContext = "";            // 用于存放学生的各科成绩            LinkedList<String> scoContext = new LinkedList<>();            for (Text value : values) {                String res = value.toString();                // 根据添加的标识，来区分学生信息和成绩                if (res.startsWith("Stu")){                    stuContext = res.substring(3);                } else {                    scoContext.add(res.substring(3));                }            }            for (String score : scoContext) {                // 将学生成绩与学生信息拼接                Text v = new Text(stuContext + "  " + score);                context.write(key, v);            }        }    }}4. Hadoop HA架构Hadoop的HA应该分为HDFS 的 HA 和 YARN 的 HA，主要是解决NameNode和ResourceManager的单点故障问题，所以HA就是通过配置Active/Standby两个实例来解决单点故障5. Hadoop HA当一个namenode挂掉，会有数据丢失吗不会丢失，当Active挂了之后，Standby节点会变为Active节点，其中ZKFC即ZKFailoverController，作为独立进程存在，负责控制NameNode的主备切换6. Hadoop和Spark的区别，Spark做了哪些优化区别这里就不提了，之前文章发过很多次。做的优化有：内存管理中间结果、优化数据格式、优化执行策略...7. Spark有哪几种运行模式Local、standalone、yarn8. Spark的stage划分是怎么实现的从最后一个RDD往前推，遇到窄依赖的父RDD时，就将这个父RDD加入子RDD所在的stage；遇到宽依赖的父RDD时就断开，父RDD被划分为新的stage。每个Stage里task的数量由Stage最后一个RDD中的分区数决定。如果Stage要生成Result，则该Stage里的Task都是ResultTask，否则是ShuffleMapTask。9. SQL中on和where的区别on和where后都是查询条件，ON 语句用于在进行多表查询的时候确定两个表之间的连接关系，WHERE 语句用于在单表查询或多表查询的时候筛选数据；如果同时存在，on先执行，where后执行10. Left join和 Left semi join区别Left join：主表记录全部有，如果从表多行的话，主表数据就被重复了一次。 Left semi join：不重复，主表找到第一条就返回记录，如果找不到就不显示，说白了就等价于exists或者in。11. semi join如何去优化使用in子查询，并且将子查询进行物化12. 请问你用过哪些HQL函数面试需要解释每个函数的意思get_json_object、collect_set、rank、row_number、lag、lead、first_value....13. 请问你遇到过数据倾斜吗请看前面的文章，面试必问！！！14. 事实表的设计流程选择业务过程以及确定事实表类型声明粒度确定事实确定维度冗余维度15. 在10亿个整数中找出不重复的整数采用2bit的bitmap（00表示不存在，01表示出现1次，10表示出现多次，11表示无意义），共需内存 2^32*2bit=1GB内存，可以接受，然后扫描这10亿个整数，查看bitmap中相对应的位，如果是00变01、01变10或者10保持不变，扫描完后，查看bitmap，把对应为是01的整数输出。

点赞 8

评论 1

全部评论

推荐最新楼层

10-10 07:34

清华大学 Java

阿里 Java 一面面经

一、面试基本情况时间：2025年9月下旬岗位：Java 后端开发工程师形式：远程视频面试时长：约 60 分钟面试内容比例：基础 30%，并发与集合 30%，JVM 20%，项目与系统设计 20%全网最全面的java面试八股文专栏：https://www.nowcoder.com/creation/manager/columnDetail/0n9XOd二、面试流程概览Java 基础语法与机制集合框架与并发编程JVM 原理与性能优化项目设计与系统思维开放性与场景题三、详细面试题目1. Java 基础Java 中重载与重写的区别是什么？== 和 equals() 的区别？为什么 String 是不可...

点赞评论收藏

分享

10-08 21:55

门头沟学院嵌入式软件工程师

新凯来嵌软一面面经

9月26号晚上面的 大概半个小时左右的面试时间 1、自我介绍 2、前20分钟问一下实习经历 3、问设计模式，数据库优化 4、手撕代码：求根号2的值 5、最后就是反问环节 1️⃣部门这边是做什么的？ 2️⃣部门强度怎么样？ 6、问我喜欢什么运动 整个面试环节，感觉还是很轻松愉快

查看8道真题和解析

点赞评论收藏

分享

昨天 20:55

已编辑

东南大学 C++

。收拾收拾心情下一家吧————————————————10.12更新上面不知道怎么的，每次在手机上编辑都会只有最后一行才会显示。原本不想写凉经的，太伤感情了，但过了一天想了想，凉经的拿起来好好整理，就像象棋一样，你进步最快的时候不是你赢棋的时候，而是在输棋的时候。那废话不多说，就做个复盘吧。一面：1，经典自我介绍2，项目盘问，没啥好说的，感觉问的不是很多3，八股问的比较奇怪，他会深挖性地问一些，比如，我知道MMU，那你知不知道QMMU（记得是这个，总之就是MMU前面加一个字母）4，知不知道slab内存分配器->这个我清楚5，知不知道排序算法，排序算法一般怎么用6，写一道力扣的，最长回文子串反问：1，工作内容2，工作强度3，关于友商的问题->后面这个问题问HR去了，和中兴有关，数通这个行业和友商相关的不要提，这个行业和别的行业不同，别的行业干同一行的都是竞争关系，数通这个行业的不同企业的关系比较微妙。特别细节的问题我确实不知道，但一面没挂我。接下来是我被挂的二面，先说说我挂在哪里，技术性问题我应该没啥问题，主要是一些解决问题思路上的回答，一方面是这方面我准备的不多，另一方面是这个面试写的是“专业面试二面”，但是感觉问的问题都是一些主管面/综合面才会问的问题，就是不问技术问方法论。我以前形成的思维定式就是专业面会就是会，不会就直说不会，但事实上如果问到方法论性质的问题的话得扯一下皮，不能按照上面这个模式。刚到位置上就看到面试官叹了一口气，有一些不详的预感。我是下午1点45左右面的。1，经典自我介绍2，你是怎么完成这个项目的，分成几个步骤。我大致说了一下。你有没有觉得你的步骤里面缺了一些什么，（这里已经在引导我往他想的那个方向走了），比如你一个人的能力永远是不够的,,,我们平时会有一些组内的会议来沟通我们的所思所想。。。。3，你在项目中遇到的最困难的地方在什么方面4，说一下你知道的TCP/IP协议网络模型中的网络层有关的协议......5，接着4问，你觉得现在的socket有什么样的缺点，有什么样的优化方向？6，中间手撕了一道很简单的快慢指针的问题。大概是在链表的倒数第N个位置插入一个节点。

青春期耐面王不会梦到...：什么岗呀，没去不一定是坏事，还有更好的，加油

点赞评论收藏

分享

09-09 00:48

上海交通大学产品经理

想玩飞盘的菠萝蜜在春...：上交✌🏻也拒？

点赞评论收藏

分享

10-09 11:30

南京邮电大学 Java

24届-java开发面经~华为OD呀呀呀

首先非常感谢栗栗姐，在整个面试过程中非常负责，每个环节都会积极地跟进，并且能够给出一些建议，基本不用特别担心！背景：双非一本，本专业非目标院校，24届，有半年java实习经验。机考：机考前力扣刷了大概200多道题，然后看了栗栗姐给的一些刷题资料，机考难度适中，390分通过。机考题目大概是（1）给一个打乱的数组，从0开始，里面的元素表示含7的次数，然后需要对他重新进行排列。（模拟即可）（2）一个字符串的，是滑动窗口的做法，具体有点记不清了，这个题卡了时间复杂度，过了90%。（3）大概意思是，给一个n，从0到n-1的编号，然后给出一堆二元组[i , j]，表示要想跳到i，需要先跳到j，然后问能否全...

查看16道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# Tplink求职进展汇总 #

178760次浏览 902人参与

# tplink提前批进度交流 #

205668次浏览 1493人参与

# 深信服秋招来了 #

278491次浏览 2914人参与

# 安克创新求职进展汇总 #

52531次浏览 516人参与

# 招银网络求职进展汇总 #

159737次浏览 976人参与

# 26届秋招投递记录 #

46262次浏览 493人参与

# 爱玛科技集团求职进展汇总 #

22883次浏览 177人参与

# 实习生如何通过转正 #

102972次浏览 1380人参与

# 央国企投递记录 #

120830次浏览 1509人参与

# 诺瓦星云求职进展汇总 #

219021次浏览 1710人参与

# 华为海思工作体验 #

28125次浏览 117人参与

# 电信求职进展汇总 #

18306次浏览 115人参与

# 机械制造岗投递时间线 #

31494次浏览 379人参与

# 什么专业适合考公 #

41435次浏览 243人参与

# 格力求职进展汇总 #

188433次浏览 1252人参与

# 面试被问“你的缺点是什么?”怎么答 #

150613次浏览 1941人参与

# 找工作有哪些冷知识 #

160137次浏览 2447人参与

# 毕业租房也有小确幸 #

138437次浏览 4481人参与

# 薪资爆料 #

169824次浏览 1391人参与

# 谈薪时HR压价该怎么应对 #

227406次浏览 3236人参与

# 国庆后，我的返工状态 #

16831次浏览 97人参与

# 硬件/芯片公司岗位评价 #

7147次浏览 27人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务