首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
想玩飞盘的干饭人在debug
山西大同大学 大数据开发工程师
发布于北京
关注
已关注
取消关注
@三石大数据:
京东大数据开发高频面试题及答案【互联网回暖了!!!】
推荐阅读文章列表:大数据开发面试笔记V4.0 || 面试聊数仓第一季 || 小白大数据学习路线 一、前言京东2024届校园招聘面向应届生开放8000+岗位!!!冲起来,兄弟们,我帮大家整理好了大数据开发的高频面试题,希望对你有用!!!二、高频面试题总结 1. clickhouse的写入和读取为什么快写入:ClickHouse采用类LSM Tree的结构,数据写入后定期在后台Compaction,而且, ClickHouse在数据导入时全部是顺序写入,写入后数据段不可更改,在后台 compaction 时也是多个段 合并排序后写回磁盘。读取:本质就是利用优秀的存储引擎来减少磁盘IO对性能的影响,比如mergeTree、ReplacingMergeTree等,同时ClickHouse在将数据写入磁盘前,会进行预排序,以保证数据在磁盘上是有序的,在实现范围查找时可以将随机读变成顺序读,从而有效提高IO效率。另外,压缩可以减少写入和读取的数据量,从而减少IO的时间2. hbase中rowkey的设计原则是什么,如何解决热点现象设计原则:长度原则散列原则唯一原则热点现象:预分区+rowkey设计3. kafka的副本机制Kafka有主题的概念,每个主题又分为若干个分区。副本的概念是在分区层级下定义的,每个分区配置有若干个副本4. hdfs为什么是128M一块首先解释为什么不能设置太大,也不能设置太小?如果块设置过大,一方面,从磁盘传输数据的时间会明显大于寻址时间,导致程序在处理这块数据时,变得非常慢;另一方面,mapreduce中的map任务通常一次只处理一个块中的数据,如果块过大运行速度也会很慢。如果块设置过小,一方面存放大量小文件会占用NameNode中大量内存来存储元数据,而NameNode的内存是有限的,不可取;另一方面文件块过小,寻址时间增大,导致程序一直在找block的开始位置。再解释为什么设置为128m?HDFS中平均寻址时间大概为10ms;经过前人的大量测试发现,寻址时间为传输时间的1%时,为最佳状态;所以最佳传输时间为10ms/0.01=1000ms=1s目前磁盘的传输速率普遍为100MB/s;计算出最佳block大小:100MB/s x 1s = 100MB所以我们设定block大小为128MB5. Hive的数据存储格式有哪些,优缺点TextFile行存储,优点:数据操作方便,直接使用put上传数据文件,并且可以直接使用cat 查看HDFS上的文件内容;缺点:直接存储文件,数据量级大,磁盘开销大。SequenceFile行存储,优点:可压缩、可分割,优化磁盘利用率和I/O;缺点:含有键值对的二进制文件,数据量级大,对于Hadoop生态系统之外的工具不适用,需要通过text文件转化加载。rcfile行列式存储,优点:可压缩、高效的列存取、查询效率较高;缺点:读取全量数据性能低(扫描的数据块多效率低 )。orcfile列式存储,优点:压缩快、快速列存取、效率比rcfile高,上层presto查询引擎和orc格式兼容性较好;缺点:查询引擎不支持 impala 只能用hive查询数据。parquet列存储,优点:支持多种查询引擎。6. udf函数的分类udf、udaf、udtf7. MapReduce的执行过程 请阅读之前的文章8. flink和spark的区别是什么 请阅读之前的文章9. hbase的特点和底层,和mysql有什么区别HBase主要包括region server和master,region server主要用于region的管理,而master主要用于管理region server,另外还有zookeeper和hdfs,zookeeper主要是用来保证master的高可用,hdfs提供存储服务。hbase是一个数据库,而hive一般用于构建数据仓库hbase可以看做是一个存储框架,而hive是一款分析框架hbase的查询延迟比较低,常用于在线实时的业务,而hive常用于离线的业务10. flink有哪些算子map、flatMap、filter、keyBy、reduce、union、split、connect等11. flink的窗口函数滚动窗口Tumbling Windows滑动窗口Sliding Windows会话窗口Session Windows12. flink的精准一次性如何保证的checkpoint算法13. kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑保证数据不丢失:生产者端:producer发送数据到kafka的时候,当kafka接收到数据之后,需要向producer发送ack确认收到,如果producer接收到ack,才会进行下一轮的发送,否则重新发送数据....【大数据开发面试笔记V4.0含所有答案】消费者端:消费者消费数据的时候会不断提交offset,就是消费数据的偏移量,以免挂了,下次可以从上次消费结束的位置继续消费....【大数据开发面试笔记V4.0含所有答案】保证数据不重复:问题:当我们把ack级别设置为-1之后,假设leader收到数据并且同步ISR队列之后,在返回ack之前leader挂掉了,那么producer端就会认为数据发送失败,再次重新发送,那么此时集群就会收到重复的数据,这样在生产环境中显然是有问题的【大数据开发面试笔记V4.0含所有答案】14. 数据倾斜请阅读之前的文章15. zookeper的leader选举机制,常见的一些应用场景,举例说明 zookeeper刚启动的时候:投票过半数时,服务器id大的胜出我举个例子吧,假设有3台服务器,服务器1先启动,此时只有它一台服务器启动了,没有任何服务器可以进行通信,因此处于Looking状态,紧接着服务器2启动,它就会和1进行通信,交换选举结果,此时id较大的2胜出,并且满足半数以上的服务器同意选举2,所以2就成为了leader,最后服务器3启动,虽然自己的id大一些,但是前面已经选出了leader,因此自己就成为了follower
点赞 12
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
不愿透露姓名的神秘牛友
07-29 11:57
浪潮提前批挂
投递浪潮等公司10个岗位
点赞
评论
收藏
分享
07-29 15:51
莉莉丝游戏_测试工程师(准入职员工)
哔哩哔哩内推
啊一切都是命运之门的选择,8年b站老用户没想到能拿到offer,来b站两周了,简单说一下在阿b的感受吧 面试整体很丝滑,4.28hr面—4.29leader面—4.30上午面完晚上就发offer了 我猜是因为之前做过珀莱雅在B站渠道的媒介和综艺《萌探3》的pd,有商务的经验,整体比较匹配岗位所以过的很快 想了解面经的后面会发一个完整的笔记 1️⃣工作氛围:入职后感觉每天都很开心,部门氛围很好,工作也很有成长性。部门都很年轻,会耐心教工作内容,很多S级项目从策划到落地都可以参与,有不懂的及时提问,哥哥姐姐们都很好,每天都感觉进步一点点。 2️⃣工作时间:我们部门是11点上班8点下班,弹性打卡,基...
哔哩哔哩公司福利 810人发布
点赞
评论
收藏
分享
07-03 17:09
广州理工学院 Web前端
已经找累了
苍蓝星上艾露:
这简历。。。可以试试我写的开源简历优化工具https://github.com/weicanie/prisma-ai
点赞
评论
收藏
分享
07-04 17:40
惠州学院 Java
26双非二本简历
又来麻烦牛客的各位佬了,帮我看看我的简历吧,给点建议,这次实习简历不再是包装的了,想跳槽了,小外包公司太闲了学不到东西怕浪费时间,现在秋招提前批还是沉淀秋招哇😭😭😭
投递牛客等公司10个岗位
点赞
评论
收藏
分享
07-29 15:35
厦门大学 嵌入式工程师
如果你已经知道1个月后要被公司裁掉,你会做什么?
rt,如果是你现在会做什么?
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
百度提前批,三面被推迟一周,喜提秋招第一凉
1.1W
2
...
虾皮秋招一面
3573
3
...
他拿大厂SSP Offer打牌是什么概念啊?25届双非之光
3467
4
...
觉得研发高人一等的这辈子有了
2768
5
...
百度提前批 三面
2032
6
...
最强本科✌
1759
7
...
也是逆天了
1451
8
...
被猿辅导挂了简历,但我想说...
1405
9
...
虾皮一面凉经
1368
10
...
上班一周,工资还没拿,先欠公司两千
1338
创作者周榜
更多
正在热议
更多
#
工作中哪个瞬间让你想离职
#
65526次浏览
581人参与
#
找工作如何保持松弛感?
#
92104次浏览
1114人参与
#
中兴秋招
#
206985次浏览
2303人参与
#
如何快速融入团队?
#
18484次浏览
217人参与
#
Offer比较,你最看重什么?
#
194124次浏览
1315人参与
#
和同事相处最忌讳的是__
#
26441次浏览
255人参与
#
秋招被确诊为……
#
166006次浏览
786人参与
#
虾皮求职进展汇总
#
250604次浏览
1879人参与
#
投格力的你,拿到offer了吗?
#
87461次浏览
586人参与
#
你最希望上岸的公司是?
#
135822次浏览
709人参与
#
计算机专业还有必要去大厂卷吗
#
38692次浏览
183人参与
#
26届的你,投了哪些公司?
#
49986次浏览
518人参与
#
柠檬微趣工作体验
#
6889次浏览
40人参与
#
简历上的经历如何包装
#
31938次浏览
859人参与
#
我对___祛魅了
#
52102次浏览
458人参与
#
你跟室友的关系怎么样?
#
8173次浏览
123人参与
#
你遇到最难的面试题目是_
#
17489次浏览
209人参与
#
通信硬件岗投递时间线
#
18927次浏览
69人参与
#
我想象的实习vs现实的实习
#
290507次浏览
2246人参与
#
什么样的背景能拿SSP?
#
41777次浏览
235人参与
#
你最讨厌面试问你什么?
#
29950次浏览
328人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务