首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
liria_
门头沟学院 大数据开发工程师
发布于浙江
关注
已关注
取消关注
@三石大数据:
阿里巴巴大数据开发高频面试题及答案【互联网回暖了!!!】
推荐阅读文章列表:大数据开发面试笔记V4.0 || 面试聊数仓第一季 || 小白大数据学习路线 一、前言阿里巴巴2024届校园招聘正式开启,注意1+6+N分开招聘,机会变多了冲起来,兄弟姐妹们,我帮大家整理好了大数据开发的高频面试题,希望对你有用!!!注意:以下仅涉及大数据开发的知识,并不是说面试只会问这些,一般还会问java和计算机基础的八股文二、高频面试题总结1. MapReduce Shuffle为什么要将数据写入环形缓冲区Map的输出结果是由collector处理的,每个Map任务不断地将键值对输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更有效地使用内存空间,在内存中放置尽可能多的数据。2. MapReduce Shuffle为什么容易发生数据倾斜因为key分布不均匀,在shuffle的时候,大量的key可能分配到某一个reduce当中,这就会产生数据倾斜3. MapReduce 实现joinpublic class Job_JoinDriver { // mapper static class Job_JoinMapper extends Mapper<LongWritable, Text, Text, Text> { Text k = new Text(); Text v = new Text(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 通过切片获取到当前读取文件的文件名 InputSplit inputSplit = context.getInputSplit(); FileSplit fileSplit = (FileSplit) inputSplit; String path = fileSplit.getPath().getName(); // 定义 sid 用于存放获取的 学生ID String sid; String[] split = value.toString().split("\\s+"); // 判断文件名 if (path.startsWith("student")) { // 学生表的 ID 在第一位 sid = split[0]; // 将整条数据作为 vlaue,并添加 Stu 的标识 v.set("Stu" + value); } else { // 成绩表的 ID 在第二位 sid = split[1]; // 将整条数据作为 vlaue,并添加 Sco 的标识 v.set("Sco" + value); } k.set(sid); context.write(k, v); } } // reducer static class Job_JoinReducer extends Reducer<Text, Text, Text, Text> { @Override protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException { // 用于存放获取到的学生信息 String stuContext = ""; // 用于存放学生的各科成绩 LinkedList<String> scoContext = new LinkedList<>(); for (Text value : values) { String res = value.toString(); // 根据添加的标识,来区分学生信息和成绩 if (res.startsWith("Stu")){ stuContext = res.substring(3); } else { scoContext.add(res.substring(3)); } } for (String score : scoContext) { // 将学生成绩与学生信息拼接 Text v = new Text(stuContext + " " + score); context.write(key, v); } } }}4. Hadoop HA架构Hadoop的HA应该分为HDFS 的 HA 和 YARN 的 HA,主要是解决NameNode和ResourceManager的单点故障问题,所以HA就是通过配置Active/Standby两个实例来解决单点故障5. Hadoop HA当一个namenode挂掉,会有数据丢失吗不会丢失,当Active挂了之后,Standby节点会变为Active节点,其中ZKFC即ZKFailoverController,作为独立进程存在,负责控制NameNode的主备切换6. Hadoop和Spark的区别,Spark做了哪些优化区别这里就不提了,之前文章发过很多次。做的优化有:内存管理中间结果、优化数据格式、优化执行策略...7. Spark有哪几种运行模式Local、standalone、yarn8. Spark的stage划分是怎么实现的从最后一个RDD往前推,遇到窄依赖的父RDD时,就将这个父RDD加入子RDD所在的stage;遇到宽依赖的父RDD时就断开,父RDD被划分为新的stage。每个Stage里task的数量由Stage最后一个RDD中的分区数决定。如果Stage要生成Result,则该Stage里的Task都是ResultTask,否则是ShuffleMapTask。9. SQL中on和where的区别on和where后都是查询条件,ON 语句用于在进行多表查询的时候确定两个表之间的连接关系,WHERE 语句用于在单表查询或多表查询的时候筛选数据;如果同时存在,on先执行,where后执行10. Left join和 Left semi join区别Left join:主表记录全部有,如果从表多行的话,主表数据就被重复了一次。 Left semi join:不重复,主表找到第一条就返回记录,如果找不到就不显示,说白了就等价于exists或者in。11. semi join如何去优化使用in子查询,并且将子查询进行物化12. 请问你用过哪些HQL函数面试需要解释每个函数的意思get_json_object、collect_set、rank、row_number、lag、lead、first_value....13. 请问你遇到过数据倾斜吗请看前面的文章,面试必问!!!14. 事实表的设计流程选择业务过程以及确定事实表类型声明粒度确定事实确定维度冗余维度15. 在10亿个整数中找出不重复的整数采用2bit的bitmap(00表示不存在,01表示出现1次,10表示出现多次,11表示无意义),共需内存 2^32*2bit=1GB内存,可以接受,然后扫描这10亿个整数,查看bitmap中相对应的位,如果是00变01、01变10或者10保持不变,扫描完后,查看bitmap,把对应为是01的整数输出。
点赞 9
评论 1
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
04-07 15:19
门头沟学院 Unity3D客户端
武汉众娱游戏客户端一面
1.c#与unity内存管理机制2.ugui优化的方法3.资源加载的方法4.泛型委托使用的方法5.观察者模式什么时候使用,怎么使用,方法封装使用哪些api6.A*7.项目相关8.想来学习做哪些内容9.反问12分钟结束,第一次太紧张了,估计凉凉
查看8道真题和解析
点赞
评论
收藏
分享
04-06 22:50
华勤技术_远图未来_bios开发工程师(实习员工)
Bios实习 学习篇- 2.DXE阶段核心功能详解
DXE 是 UEFI 启动流程中最核心、最复杂的阶段。它从 PEI 交接来的 HOB 列表出发,建立完整的 UEFI 系统服务环境,发现并调度 DXE 驱动,构建 Handle/Protocol 为中心的协议数据库,并逐步把平台组织成一个可被 BDS 使用、可供 OS Loader 接管的标准预启动环境。1. DXE 的起点:接收 HOB,接管系统状态PEI 通过 DXE IPL PPI 把 HOB List 传给 DXE Foundation。HOB 中记录了启动模式、已初始化内存、固件设备、Firmware Volume、I/O 与 MMIO 等关键信息,DXE 以此为依据建立后续的内存服...
点赞
评论
收藏
分享
03-19 11:34
天津大学 Java
字节暑期已offer
本人9本无实习经历,二月初开始面试,快手xhs简历都挂,京东一直泡池子,腾子三面挂,滴滴大模型算法一面挂,美团二面挂,亚麻OA都A了也挂,Google一面也挂。反正都是在挂中度过的,其实二月也是比较焦虑和陷入自我否定当中吧。但是还是比较感谢节子的速度的,而且面试的过程里面的氛围和节奏都很舒服,介绍业务和发展方向也是很明晰的。hr小姐姐人也挺好的,而且全程都是hr加我微信进行推进的,有什么情况和我说和和及时帮我推进流程,每次面试前都会提醒我今天的面试以及祝我顺利。(我感觉体感上面,志节是我面过的体验最好的一个了,从hr到面试官人都不错)timeline:3.6投简历推进评估3.7 hr打电话来约面3.9一面,20min后约二面3.11二面,二小时后约三面3.13三面,两小时后约hr面3.13hr面,面完就差不多oc了3.17 收到正式的offer
ShipDance:
下个月面剪映前端,期待一起上班
点赞
评论
收藏
分享
04-10 20:16
广西大学 算法工程师
猿辅导 大模型开发 一面
1. 自我介绍2. RAG 怎么优化,评估时你会看哪些指标RAG 的优化一般不能只盯着生成端,很多问题其实出在检索阶段。常见优化思路包括 query rewrite、chunk 切分策略调整、混合召回、重排序、上下文压缩和引用约束。比如文档切得太碎,召回会有信息断裂;切得太长,又容易把无关信息一起带进来,生成端会受污染。真正线上效果好的 RAG,通常不是“某个 embedding 更强”,而是检索、排序、上下文组织和回答约束配合得比较好。评估时我一般拆成两层。第一层看检索,比如 Recall@k、MRR、HitRate,看相关证据能不能被捞上来;第二层看生成,比如答案正确率、faithfuln...
AI-Agent面试实战...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
大模型Agent面试全攻略(附答题思路)
3.8W
2
...
我感觉我遇到神仙mentor了
1.1W
3
...
谁都可能在说谎,但财报不会骗人
9360
4
...
春招产品内卷到什么程度了
7655
5
...
秋招失利别慌,好offer不怕晚
7290
6
...
入职翼支付2年多,聊聊感受
6043
7
...
淘天aiagent一面
4345
8
...
字节一二三hr面 java面经(已off)
4302
9
...
上线一个月了,说几句真心话
4213
10
...
我在北京的2046天
4028
创作者周榜
更多
正在热议
更多
#
Agent面试会问什么?
#
31037次浏览
1229人参与
#
通信/硬件的薪资开多少,才值得去?
#
76251次浏览
406人参与
#
厦门银行科技岗值不值得投
#
18607次浏览
421人参与
#
面试体验最好和最差的公司
#
22490次浏览
159人参与
#
美团笔试
#
889629次浏览
5594人参与
#
我的求职进度条
#
979339次浏览
6512人参与
#
哪些公司一直卡在简历筛选
#
103335次浏览
339人参与
#
拿到offer之后,可以做些什么
#
103347次浏览
505人参与
#
说说你知道的学历厂
#
399222次浏览
1420人参与
#
平台or薪资 硬件uu更看重哪个
#
167069次浏览
624人参与
#
bilibili求职进展汇总
#
190605次浏览
1091人参与
#
听劝,这个公司值得去吗
#
714830次浏览
2024人参与
#
一人分享一个skill
#
8177次浏览
220人参与
#
春招至今,你收到几个面试了?
#
79744次浏览
1049人参与
#
给工作过的公司写一条大众点评,你会怎么写?
#
10871次浏览
131人参与
#
美团秋招笔试
#
207981次浏览
1166人参与
#
拼多多工作体验
#
55145次浏览
387人参与
#
一人说一个提前实习的好处
#
122969次浏览
715人参与
#
烂工作和没工作哪个更痛苦?
#
18019次浏览
271人参与
#
巨人网络求职进展汇总
#
193647次浏览
1232人参与
#
AI替代不了什么?
#
12128次浏览
201人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务