阿里巴巴大数据开发高频面试题及答案【互联网回暖了！！！】_牛客网

门头沟学院大数据开发工程师发布于浙江

关注

@三石大数据：阿里巴巴大数据开发高频面试题及答案【互联网回暖了！！！】

推荐阅读文章列表：大数据开发面试笔记V4.0   ||   面试聊数仓第一季  ||   小白大数据学习路线一、前言阿里巴巴2024届校园招聘正式开启，注意1+6+N分开招聘，机会变多了冲起来，兄弟姐妹们，我帮大家整理好了大数据开发的高频面试题，希望对你有用！！！注意：以下仅涉及大数据开发的知识，并不是说面试只会问这些，一般还会问java和计算机基础的八股文二、高频面试题总结1. MapReduce Shuffle为什么要将数据写入环形缓冲区Map的输出结果是由collector处理的，每个Map任务不断地将键值对输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。2. MapReduce Shuffle为什么容易发生数据倾斜因为key分布不均匀，在shuffle的时候，大量的key可能分配到某一个reduce当中，这就会产生数据倾斜3. MapReduce 实现joinpublic class Job_JoinDriver {   // mapper    static class Job_JoinMapper extends Mapper<LongWritable, Text, Text, Text> {        Text k = new Text();        Text v = new Text();        @Override        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {            // 通过切片获取到当前读取文件的文件名            InputSplit inputSplit = context.getInputSplit();            FileSplit fileSplit = (FileSplit) inputSplit;            String path = fileSplit.getPath().getName();            // 定义 sid 用于存放获取的 学生ID            String sid;            String[] split = value.toString().split("\\s+");            // 判断文件名            if (path.startsWith("student")) {                // 学生表的 ID 在第一位                sid = split[0];                // 将整条数据作为 vlaue，并添加 Stu 的标识                v.set("Stu" + value);            } else {                // 成绩表的 ID 在第二位                sid = split[1];                // 将整条数据作为 vlaue，并添加 Sco 的标识                v.set("Sco" + value);            }            k.set(sid);            context.write(k, v);        }    } // reducer    static class Job_JoinReducer extends Reducer<Text, Text, Text, Text> {        @Override        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {            // 用于存放获取到的学生信息            String stuContext = "";            // 用于存放学生的各科成绩            LinkedList<String> scoContext = new LinkedList<>();            for (Text value : values) {                String res = value.toString();                // 根据添加的标识，来区分学生信息和成绩                if (res.startsWith("Stu")){                    stuContext = res.substring(3);                } else {                    scoContext.add(res.substring(3));                }            }            for (String score : scoContext) {                // 将学生成绩与学生信息拼接                Text v = new Text(stuContext + "  " + score);                context.write(key, v);            }        }    }}4. Hadoop HA架构Hadoop的HA应该分为HDFS 的 HA 和 YARN 的 HA，主要是解决NameNode和ResourceManager的单点故障问题，所以HA就是通过配置Active/Standby两个实例来解决单点故障5. Hadoop HA当一个namenode挂掉，会有数据丢失吗不会丢失，当Active挂了之后，Standby节点会变为Active节点，其中ZKFC即ZKFailoverController，作为独立进程存在，负责控制NameNode的主备切换6. Hadoop和Spark的区别，Spark做了哪些优化区别这里就不提了，之前文章发过很多次。做的优化有：内存管理中间结果、优化数据格式、优化执行策略...7. Spark有哪几种运行模式Local、standalone、yarn8. Spark的stage划分是怎么实现的从最后一个RDD往前推，遇到窄依赖的父RDD时，就将这个父RDD加入子RDD所在的stage；遇到宽依赖的父RDD时就断开，父RDD被划分为新的stage。每个Stage里task的数量由Stage最后一个RDD中的分区数决定。如果Stage要生成Result，则该Stage里的Task都是ResultTask，否则是ShuffleMapTask。9. SQL中on和where的区别on和where后都是查询条件，ON 语句用于在进行多表查询的时候确定两个表之间的连接关系，WHERE 语句用于在单表查询或多表查询的时候筛选数据；如果同时存在，on先执行，where后执行10. Left join和 Left semi join区别Left join：主表记录全部有，如果从表多行的话，主表数据就被重复了一次。 Left semi join：不重复，主表找到第一条就返回记录，如果找不到就不显示，说白了就等价于exists或者in。11. semi join如何去优化使用in子查询，并且将子查询进行物化12. 请问你用过哪些HQL函数面试需要解释每个函数的意思get_json_object、collect_set、rank、row_number、lag、lead、first_value....13. 请问你遇到过数据倾斜吗请看前面的文章，面试必问！！！14. 事实表的设计流程选择业务过程以及确定事实表类型声明粒度确定事实确定维度冗余维度15. 在10亿个整数中找出不重复的整数采用2bit的bitmap（00表示不存在，01表示出现1次，10表示出现多次，11表示无意义），共需内存 2^32*2bit=1GB内存，可以接受，然后扫描这10亿个整数，查看bitmap中相对应的位，如果是00变01、01变10或者10保持不变，扫描完后，查看bitmap，把对应为是01的整数输出。

点赞 9

评论 1

全部评论

推荐最新楼层

04-07 15:19

门头沟学院 Unity3D客户端

武汉众娱游戏客户端一面

1.c#与unity内存管理机制2.ugui优化的方法3.资源加载的方法4.泛型委托使用的方法5.观察者模式什么时候使用，怎么使用，方法封装使用哪些api6.A*7.项目相关8.想来学习做哪些内容9.反问12分钟结束，第一次太紧张了，估计凉凉

查看8道真题和解析

点赞评论收藏

分享

04-06 22:50

华勤技术_远图未来_bios开发工程师(实习员工)

Bios实习学习篇- 2.DXE阶段核心功能详解

DXE 是 UEFI 启动流程中最核心、最复杂的阶段。它从 PEI 交接来的 HOB 列表出发，建立完整的 UEFI 系统服务环境，发现并调度 DXE 驱动，构建 Handle/Protocol 为中心的协议数据库，并逐步把平台组织成一个可被 BDS 使用、可供 OS Loader 接管的标准预启动环境。1. DXE 的起点：接收 HOB，接管系统状态PEI 通过 DXE IPL PPI 把 HOB List 传给 DXE Foundation。HOB 中记录了启动模式、已初始化内存、固件设备、Firmware Volume、I/O 与 MMIO 等关键信息，DXE 以此为依据建立后续的内存服...

点赞评论收藏

分享

03-19 11:34

天津大学 Java

字节暑期已offer

本人9本无实习经历，二月初开始面试，快手xhs简历都挂，京东一直泡池子，腾子三面挂，滴滴大模型算法一面挂，美团二面挂，亚麻OA都A了也挂，Google一面也挂。反正都是在挂中度过的，其实二月也是比较焦虑和陷入自我否定当中吧。但是还是比较感谢节子的速度的，而且面试的过程里面的氛围和节奏都很舒服，介绍业务和发展方向也是很明晰的。hr小姐姐人也挺好的，而且全程都是hr加我微信进行推进的，有什么情况和我说和和及时帮我推进流程，每次面试前都会提醒我今天的面试以及祝我顺利。（我感觉体感上面，志节是我面过的体验最好的一个了，从hr到面试官人都不错）timeline:3.6投简历推进评估3.7 hr打电话来约面3.9一面，20min后约二面3.11二面，二小时后约三面3.13三面，两小时后约hr面3.13hr面，面完就差不多oc了3.17 收到正式的offer

ShipDance：下个月面剪映前端，期待一起上班

点赞评论收藏

分享

04-10 20:16

广西大学算法工程师

猿辅导大模型开发一面

1. 自我介绍2. RAG 怎么优化，评估时你会看哪些指标RAG 的优化一般不能只盯着生成端，很多问题其实出在检索阶段。常见优化思路包括 query rewrite、chunk 切分策略调整、混合召回、重排序、上下文压缩和引用约束。比如文档切得太碎，召回会有信息断裂；切得太长，又容易把无关信息一起带进来，生成端会受污染。真正线上效果好的 RAG，通常不是“某个 embedding 更强”，而是检索、排序、上下文组织和回答约束配合得比较好。评估时我一般拆成两层。第一层看检索，比如 Recall@k、MRR、HitRate，看相关证据能不能被捞上来；第二层看生成，比如答案正确率、faithfuln...

AI-Agent面试实战...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# Agent面试会问什么？ #

31037次浏览 1229人参与

# 通信/硬件的薪资开多少，才值得去？ #

76251次浏览 406人参与

# 厦门银行科技岗值不值得投 #

18607次浏览 421人参与

# 面试体验最好和最差的公司 #

22490次浏览 159人参与

# 美团笔试 #

889629次浏览 5594人参与

# 我的求职进度条 #

979339次浏览 6512人参与

# 哪些公司一直卡在简历筛选 #

103335次浏览 339人参与

# 拿到offer之后，可以做些什么 #

103347次浏览 505人参与

# 说说你知道的学历厂 #

399222次浏览 1420人参与

# 平台or薪资硬件uu更看重哪个 #

167069次浏览 624人参与

# bilibili求职进展汇总 #

190605次浏览 1091人参与

# 听劝，这个公司值得去吗 #

714830次浏览 2024人参与

# 一人分享一个skill #

8177次浏览 220人参与

# 春招至今，你收到几个面试了？ #

79744次浏览 1049人参与

# 给工作过的公司写一条大众点评，你会怎么写？ #

10871次浏览 131人参与

# 美团秋招笔试 #

207981次浏览 1166人参与

# 拼多多工作体验 #

55145次浏览 387人参与

# 一人说一个提前实习的好处 #

122969次浏览 715人参与

# 烂工作和没工作哪个更痛苦？ #

18019次浏览 271人参与

# 巨人网络求职进展汇总 #

193647次浏览 1232人参与

# AI替代不了什么？ #

12128次浏览 201人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务