首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
想玩飞盘的干饭人在debug
山西大同大学 大数据开发工程师
发布于北京
关注
已关注
取消关注
@三石大数据:
京东大数据开发高频面试题及答案【互联网回暖了!!!】
推荐阅读文章列表:大数据开发面试笔记V4.0 || 面试聊数仓第一季 || 小白大数据学习路线 一、前言京东2024届校园招聘面向应届生开放8000+岗位!!!冲起来,兄弟们,我帮大家整理好了大数据开发的高频面试题,希望对你有用!!!二、高频面试题总结 1. clickhouse的写入和读取为什么快写入:ClickHouse采用类LSM Tree的结构,数据写入后定期在后台Compaction,而且, ClickHouse在数据导入时全部是顺序写入,写入后数据段不可更改,在后台 compaction 时也是多个段 合并排序后写回磁盘。读取:本质就是利用优秀的存储引擎来减少磁盘IO对性能的影响,比如mergeTree、ReplacingMergeTree等,同时ClickHouse在将数据写入磁盘前,会进行预排序,以保证数据在磁盘上是有序的,在实现范围查找时可以将随机读变成顺序读,从而有效提高IO效率。另外,压缩可以减少写入和读取的数据量,从而减少IO的时间2. hbase中rowkey的设计原则是什么,如何解决热点现象设计原则:长度原则散列原则唯一原则热点现象:预分区+rowkey设计3. kafka的副本机制Kafka有主题的概念,每个主题又分为若干个分区。副本的概念是在分区层级下定义的,每个分区配置有若干个副本4. hdfs为什么是128M一块首先解释为什么不能设置太大,也不能设置太小?如果块设置过大,一方面,从磁盘传输数据的时间会明显大于寻址时间,导致程序在处理这块数据时,变得非常慢;另一方面,mapreduce中的map任务通常一次只处理一个块中的数据,如果块过大运行速度也会很慢。如果块设置过小,一方面存放大量小文件会占用NameNode中大量内存来存储元数据,而NameNode的内存是有限的,不可取;另一方面文件块过小,寻址时间增大,导致程序一直在找block的开始位置。再解释为什么设置为128m?HDFS中平均寻址时间大概为10ms;经过前人的大量测试发现,寻址时间为传输时间的1%时,为最佳状态;所以最佳传输时间为10ms/0.01=1000ms=1s目前磁盘的传输速率普遍为100MB/s;计算出最佳block大小:100MB/s x 1s = 100MB所以我们设定block大小为128MB5. Hive的数据存储格式有哪些,优缺点TextFile行存储,优点:数据操作方便,直接使用put上传数据文件,并且可以直接使用cat 查看HDFS上的文件内容;缺点:直接存储文件,数据量级大,磁盘开销大。SequenceFile行存储,优点:可压缩、可分割,优化磁盘利用率和I/O;缺点:含有键值对的二进制文件,数据量级大,对于Hadoop生态系统之外的工具不适用,需要通过text文件转化加载。rcfile行列式存储,优点:可压缩、高效的列存取、查询效率较高;缺点:读取全量数据性能低(扫描的数据块多效率低 )。orcfile列式存储,优点:压缩快、快速列存取、效率比rcfile高,上层presto查询引擎和orc格式兼容性较好;缺点:查询引擎不支持 impala 只能用hive查询数据。parquet列存储,优点:支持多种查询引擎。6. udf函数的分类udf、udaf、udtf7. MapReduce的执行过程 请阅读之前的文章8. flink和spark的区别是什么 请阅读之前的文章9. hbase的特点和底层,和mysql有什么区别HBase主要包括region server和master,region server主要用于region的管理,而master主要用于管理region server,另外还有zookeeper和hdfs,zookeeper主要是用来保证master的高可用,hdfs提供存储服务。hbase是一个数据库,而hive一般用于构建数据仓库hbase可以看做是一个存储框架,而hive是一款分析框架hbase的查询延迟比较低,常用于在线实时的业务,而hive常用于离线的业务10. flink有哪些算子map、flatMap、filter、keyBy、reduce、union、split、connect等11. flink的窗口函数滚动窗口Tumbling Windows滑动窗口Sliding Windows会话窗口Session Windows12. flink的精准一次性如何保证的checkpoint算法13. kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑保证数据不丢失:生产者端:producer发送数据到kafka的时候,当kafka接收到数据之后,需要向producer发送ack确认收到,如果producer接收到ack,才会进行下一轮的发送,否则重新发送数据....【大数据开发面试笔记V4.0含所有答案】消费者端:消费者消费数据的时候会不断提交offset,就是消费数据的偏移量,以免挂了,下次可以从上次消费结束的位置继续消费....【大数据开发面试笔记V4.0含所有答案】保证数据不重复:问题:当我们把ack级别设置为-1之后,假设leader收到数据并且同步ISR队列之后,在返回ack之前leader挂掉了,那么producer端就会认为数据发送失败,再次重新发送,那么此时集群就会收到重复的数据,这样在生产环境中显然是有问题的【大数据开发面试笔记V4.0含所有答案】14. 数据倾斜请阅读之前的文章15. zookeper的leader选举机制,常见的一些应用场景,举例说明 zookeeper刚启动的时候:投票过半数时,服务器id大的胜出我举个例子吧,假设有3台服务器,服务器1先启动,此时只有它一台服务器启动了,没有任何服务器可以进行通信,因此处于Looking状态,紧接着服务器2启动,它就会和1进行通信,交换选举结果,此时id较大的2胜出,并且满足半数以上的服务器同意选举2,所以2就成为了leader,最后服务器3启动,虽然自己的id大一些,但是前面已经选出了leader,因此自己就成为了follower
点赞 12
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 08:40
河南师范大学附属中学 C++
dachang
好玩当然选择大厂,工资高 5555555555555555555555555555555555555555555555555555555555555
点赞
评论
收藏
分享
10-14 13:12
迅雷_X-PEP 产品星(准入职员工)
迅雷内推,迅雷内推码
产品面经,摘自优秀牛油一面:群面(产品和运营混合),一组大概78910个人吧(我们组10个),我们抽到的题目是选一款直播APP,设计成小程序,并简要设计初期冷启动的增长方案。一个小组有30分钟的讨论时间(自我介绍+leader自荐+讨论+汇报+补充)。中午等一面结果,10进3。二面:单面(业务面),是一个很温柔的面试官,问题也比较常规,主要围绕简历,问实习经历的项目和科研经历,抠得比较细,会问一个项目是怎么做的,有什么收获(贡献),数据分析对于产品的意义,还让我介绍了我的两个科研项目。三面:HR面,问了一些家庭基本情况,研究生的日常(科研、生活、工作),杭州和深圳的印象,杭州景点推荐,给HR推...
点赞
评论
收藏
分享
09-13 08:07
南京晓庄学院 财务
这offer真的是拿到手软😁😁😁
安全劝退第二人:
美团offer
查看图片
秋招的第一个offer,...
点赞
评论
收藏
分享
昨天 14:09
已编辑
门头沟学院 客户端其它
选offer,就看这四点!
问君能有几多愁?选了个offer,怕它前景似个球,梦里都在改需求。今天索隆就和大家好好说道说道,选一个适合自己的offer,到底该从哪些方向掂量!OK,Everyone,话不多说,我们直接上干货,嗨嗨嗨。一、💰 钱是硬道理除了央国企等特殊情况,这可以说是衡量offer好坏最实在的指标了。尤其在当前环境下,校招生的起薪非常关键——它直接决定了你未来升职加薪和跳槽的基准。常规的薪资构成一般是:基础工资 + 绩效工资 + 年终奖 + 各类补贴(餐补、交通补、房补等)。也有些公司会提供股票激励、项目奖金等额外福利。切记,这些细节一定要在签约前问清楚、弄明白。二、🍃 环境定心情这里说的“环境”,既指...
牛客小黄鱼:
问君能有几多愁?选了个offer,怕它前景似个球,梦里都在改需求。 哈哈哈哈哈好诗好诗
从哪些方向判断这个off...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
这个实习生我要给他转正
1.1W
2
...
没有家庭的托举,我只能靠自己
5510
3
...
27四非本,字节后端实习OC
5194
4
...
10.19百度笔试
3725
5
...
选offer,就看这四点!
3520
6
...
途虎养车嫡长意向
2948
7
...
制造业求职 0 offer 时期的破局之道
2509
8
...
感觉很多学计算机的人太压抑了
2371
9
...
10.20哈啰一面
2279
10
...
以Mentor视角,说说我最喜欢什么样的实习生
2185
创作者周榜
更多
正在热议
更多
#
发面经攒人品
#
2702983次浏览
36661人参与
#
产品实习,你更倾向大公司or小公司
#
175925次浏览
1996人参与
#
平安产险科技校招
#
1891次浏览
0人参与
#
26届秋招公司红黑榜
#
2294次浏览
4人参与
#
一汽大众工作体验
#
11806次浏览
23人参与
#
最难的技术面是哪家公司?
#
53304次浏览
882人参与
#
智慧芽求职进展汇总
#
7050次浏览
22人参与
#
机械人的工作环境真的很差吗
#
23782次浏览
117人参与
#
你认为小厂实习有用吗?
#
93006次浏览
604人参与
#
入职第一天,你准备什么时候下班
#
83748次浏览
457人参与
#
参加完秋招的机械人,还参加春招吗?
#
67416次浏览
596人参与
#
经纬恒润求职进展汇总
#
135993次浏览
1060人参与
#
度小满求职进展汇总
#
7477次浏览
40人参与
#
你有哪些缓解焦虑的方法?
#
36369次浏览
831人参与
#
秋招想进国企该如何准备
#
96926次浏览
483人参与
#
来聊聊机械薪资天花板是哪家
#
146142次浏览
804人参与
#
饿了么求职进展汇总
#
76835次浏览
682人参与
#
我对___祛魅了
#
134352次浏览
743人参与
#
职场捅娄子大赛
#
429224次浏览
4161人参与
#
关于提前批我想问
#
242577次浏览
2284人参与
#
机械人的薪资开到多少,才适合去?
#
134807次浏览
489人参与
#
我的求职进度条
#
132144次浏览
1523人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务