首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
勤劳的铁锤在创作
深圳大学 算法工程师
发布于广东
关注
已关注
取消关注
@Data_Seven:
大数据面试题—包含真实面经(压力拉满)
从事数据开发,手写面试题5W字,涉及hadoop、zookeeper、kafka、spark、flink、clickhouse等常见的大数据中间件,文档可以后台踢我1、Hadoop特点hadoop是一个分布式计算平台,能够允许使用编程模型在集群上对大型数据集进行分布式处理hadoop的三大组件:HDFS(分布式文件存储平台)、MR(计算引擎)、YARN(资源调度平台)特点:高扩容:hadoop在集群键分发数据并完成数据计算,集群可以方便进行扩展节点成本低:hadoop使用链家的机器组成集群来分发和处理数据,不依赖高端成本,高效率:在集群中处理和分发数据,处理速度非常快可靠性:存储在hdfs上的数据文件,一般有多个备份,保证数据的可靠性2、说下Hadoop生态圈组件及其作用hive(离线数据仓库):基于hdfs,结合类SQL引擎,底层执行MR任务,用于OLAP分析查询的数据仓库。zookeeper(管理员): 分布式协调服务。就是为用户的分布式应用程序提供协调服务,如:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等等。kafka(消息通信中间件)flume(日志传输组件):是一个分布式可靠的高可用的海量日志收集、聚合、移动的工具,通俗来说flume就是一个日志采集工具spark(批处理计算框架):是一个快速的,通用的集群计算系统。flink(流处理计算框架)3、Hadoop主要分哪几个部分?他们有什么作用?HDFS:高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统,负责海量数据的存储YARN:资源管理调度系统,负责hadoop生态系统中任务的调度和监控MR:基于HDFS、YARN的分布式并行计算框架,负责海量数据的计算4、Hadoop集群工作时启动哪些进程?它们有什么作用?NN:是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件访问,这些元数据信息是存储在内存中的,也可以持久化到磁盘上。并且可以管理DNSNN:不是NN的冗余守护进程,而是提供周期性检查点和清理任务,帮助NN合并editslog,减少NN的启动时间(并不是NN的备用节点)fsimage - 它是在NameNode启动时对整个文件系统的快照edit logs - 它是在NameNode启动后,对文件系统的改动序列只有NN重启的时候,editlogs才会合并到fsimage文件中,得到一个文件系统的最新快照,但是在NN工作很久以后,editlogs文件变得很大。导致NN的重启会花费很长时间,此时SNN的职责就是帮助editlogs合并到fsimage文件中。定时去获取NN去获取editlogs,并更新到自己的fsimage上,一旦有了新的fsimage,它将拷贝回NN中DN:提供真实的文件数据的存储服务,以数据的形式存储HDFS文件,相应HDFS客户端的读写请求,周期性地向NN汇报心跳信息、数据块信息、缓存数据块信息RM:负责整个集群资源的管理和调度,功能包括对ApplicationMaster的管理、NM的管理、Application管理等,负责整个集群中所有资源的统一管理和分配,并且接受来自各个节点的资源汇报信息;NM:主要处理来自RM分配的任务,监测并且报告Container使用信息给RMJN:两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。5、在集群计算的时候,什么是集群的主要瓶颈网络带宽:集群中节点通常通过网络进行数据传输和通信,网络带宽不足,会导致数据传输速度慢,影响整个集群计算性能存储性能:如果存储系统的读写能力较低,会影响数据的读取和写入速度,降低整个集群的计算效率处理能力:集群中的节点数据量和节点的计算能力都会影响整体的计算能力,集群规模较小或者节点的计算能力较低,无法满足大规模数据处理的需求内存容量:进行大规模数据分析和处理,需要大量的内存资源来存储和操作数据,若节点的内存不足,会导致数据无法完全加载到内存中,影响性能数据倾斜:由于数据分布不均匀,导致某些节点的数据负载过重,从而使得这些节点成为整个集群的瓶颈(解决数据倾斜方法后续详谈)6、搭建Hadoop集群的xml文件有哪些?core-site.xml:配置Hadoop的核心参数,如文件系统默认方案、HDFS地址等。hdfs-site.xml:配置HDFS的相关参数,如副本数量、数据块大小等。mapred-site.xml:配置MapReduce相关参数,如作业跟踪器地址、任务分配器等。yarn-site.xml:配置YARN相关参数,如资源管理器地址、节点管理器等。hive-site.xml:如果需要使用Hive,则需要配置Hive的相关参数,如元数据存储位置、数据库连接等。7、Hadoop的Checkpoint流程?该流程是指在集群中,将正在运行的任务的状态信息和元数据信息保存在持久化存储中,以便在集群发生故障时候能够及时恢复任务;若不适用HA,hadoop的checkpoint机制就是主节点的元数据备份机制,通过SN,每隔一段时间将NN的元数据更新并备份,然后返回给fsimage和NN,SNN会每隔默认60分钟,都会通知更新日志信息edits,以便后续元数据备份操作;元数据是保存在内存当中的,这样容易丢失,NN的工作量巨大,管理众多DN,还要更新操作日志文件edits,还要将元数据信息序列化到本地,所以SNN就会开始代替NN完成元数据的保存工作流程如下:1、当一个任务开始执行时,Hadoop会周期性地将任务地状态信息和元数据信息写入到Checkpoint目录中。这些信息包括任务的进度、输入数据的位置、已经完成的工作等。2、Checkpoint目录通常位于分布式文件系统(如HDFS)中,以保证数据的安全性和可靠性。3、Hadoop还会在内存中保存一个Checkpoint ID,用于标识当前的Checkpoint。4、在任务执行过程中,如果集群发生故障或节点失效,任务会停止执行。5、当集群恢复正常后,Hadoop会检查Checkpoint目录中的状态信息和元数据信息,并根据Checkpoint ID找到最新的Checkpoint。6、Hadoop会使用Checkpoint中的信息来恢复任务的执行状态,包括任务的进度、输入数据的位置等。7、任务恢复完成后,Hadoop会继续执行任务,并从上次Checkpoint的位置继续处理数据,以确保不会重复执行已经完成的工作。
点赞 7
评论 2
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
11-22 09:06
已编辑
门头沟学院 Java
双非机械转码拿下大厂SP的人生回顾和小感悟
今天是11月21日,秋招的末期了,吃完饭买了几个橘子骑着共享单车走在路上,突然手机铃声响起(秋招开始之后,手机铃声没敢关过,除非面试的时候),我心里一颤,但不知道这是诈骗电话、广告电话还是有HR来捞池子里面的鱼了。途中接过挺多广告电话的,秋招人应该都懂。电话一接,是网易HR的电话,电话那边传来一句话:“恭喜你通过所有面试”,听到这个我知道我的秋招故事要结局了,电话那边的HR在跟我介绍薪资福利待遇,我却有点小分神,思绪回到这些年奋斗的日子。高中摆烂生涯从高中开始讲吧,高一高二我属于那种很自由散漫的学生,因为高一高二不禁手机。我每天沉迷王者,晚上盖着被子在里面打王者,因为不盖被子,手机灯光会被级长...
投递小米集团等公司10个岗位
点赞
评论
收藏
分享
11-20 22:48
已编辑
广东海洋大学 Java
腾讯云智 一面
时间:2025/11/13自我介绍 (然后聊了两句情况,base地什么的)常见 Java 里面常见的集合有哪些?一般覆盖 equals 之后, hashcode 方法是不是也要覆盖?spring bean 的作用域有哪些?一般项目中用什么?Singleton作用域有什么优缺点?就是设计模式你实践中用过哪些?设计模式分类分哪几类?常见的数据结构有哪些?链表跟数组有啥区别?我想实现 O1 的这个查找效率用什么数据结构?二分查找的它这个逻辑是怎么样?它的过程是能描述一下?时间复杂度?(LBS,RBS光用了,解释的不清楚笑死)口述LRU实现思路MySQL 事务有啥特性?Redis 有哪些数据类型?用 ...
腾讯云智研发一面224人在聊
点赞
评论
收藏
分享
10-31 10:39
哈尔滨工业大学(威海) Java
简历求拷打
投了三四天,除了字节没人约面,求简历修改😇
牛至超人:
把哈工大,再加大加粗,看见闪闪发光的哈工大字样,面试官直接流口水
投递字节跳动等公司10个岗位
点赞
评论
收藏
分享
10-24 14:28
东北大学 Java
秋招第一个offer
在和同学吃饭的过程中收到了秋招第一个offer😭很高兴啊,有没有大佬知道满帮海外项目能开多少,工作强度怎么样啊
嵩潮:
如有其他等价offer,速跑
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
28届一直想找实习但是不敢开始怎么办
967
2
...
大家不是好奇自己的面评长什么样子吗?
966
3
...
【现金奖励】26秋招薪资爆料征集,瓜分现金红包!
947
4
...
挑战一篇讲完实习转正
928
5
...
玩脱了,偷走老板4万块
873
6
...
最恐怖的一集 测开也卷了
777
7
...
大厂面试官:实习期间有没有参与处理过线上问题?拿走直接抄答案!
701
8
...
互联网大厂程序员?我祛魅了
687
9
...
deep seek把人当傻子耍
629
10
...
没人肯帮我打掩护怎么办
617
创作者周榜
更多
正在热议
更多
#
找实习是选平台还是选业务?
#
1898次浏览
20人参与
#
记录实习开销
#
165941次浏览
641人参与
#
百度秋招
#
53689次浏览
391人参与
#
OC/开奖
#
208976次浏览
1383人参与
#
科大讯飞工作体验
#
29937次浏览
73人参与
#
秋招疯了,看什么都像offer
#
19112次浏览
130人参与
#
腾讯音乐秋招
#
432731次浏览
4790人参与
#
应届生第一份工作最好去大厂吗?
#
87265次浏览
885人参与
#
材料转码还有必要吗?
#
32844次浏览
153人参与
#
华为工作体验
#
244120次浏览
1304人参与
#
实习学到最有价值的工作习惯
#
42135次浏览
368人参与
#
办公室恋情是职场大忌吗
#
11018次浏览
21人参与
#
设计人的面试记录
#
167760次浏览
1546人参与
#
华为池子有多大
#
125210次浏览
811人参与
#
你知道哪些职场黑话?
#
65553次浏览
454人参与
#
电信求职进展汇总
#
29386次浏览
159人参与
#
招银网络科技工作体验
#
26161次浏览
95人参与
#
实习生应该准时下班吗
#
318377次浏览
1718人参与
#
研究所VS国企,该如何选
#
226744次浏览
1944人参与
#
CVTE求职进展汇总
#
27110次浏览
327人参与
#
移动求职进展汇总
#
14419次浏览
119人参与
#
蚂蚁求职进展汇总
#
134219次浏览
1214人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务