三石大数据

2023-03-17 15:33 已编辑门头沟学院大数据开发工程师发布于美国

关注

史上最全的大数据开发面经及答案汇总【字节跳动】

这是一篇总结了牛客网中10+篇字节大数据开发面经的文章，希望能够对大家有所帮助

本篇后续将会持续更新~~~ 【不断更新答案】

Hadoop篇

1.介绍一下Hadoop hadoop是什么

2.谷歌的三篇论文是否了解，三驾马车GFS，BigTable，MapReduce

3.hdfs源码你知道的话，讲讲元数据怎么管理的？

4.hdfs 你知道namenode的问题吗？怎么解决？应该就是联邦机制

5.hdfs写数据流程

6.namenode如果挂掉了怎么办【HA配置】

7.说一下mapredeuce

8.哪个阶段最费时间，环形缓冲区的调优以及什么时候需要调

shuffle：排序和溢写磁盘原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快】

9.环形缓冲区了不了解？说一下他的那个阈值高低的影响

10.写一个wordcount

11.WordCount在MapReduce中键值对变化

<偏移量, 一行数据> -> <单词1, 1> <单词2, 1> .... -> <单词1，10> <单词2，15>

12.map端为什么要排序？

13.map端输出的文件组织形式是什么样的？

14.reduce怎么知道从哪里下载map输出的文件

通过MRAPPMaster获取哪些节点有map输出，当map执行结束后，会汇报给MRAPPMaster。reduce中的一个线程会定期询问MRAPPMaster以便获取map输出的位置

15.如果map输出太多小文件怎么办

开启combiner合并，但是在求平均值的时候是不能使用的

16.MapReduce优化的case

输入端：合并小文件 combineinputformat map端：提高环形缓冲区的大小，减少IO次数开启combiner

zookeeper篇

1.zookeeper简单介绍一下，为什么要用zk？zk的架构？

2.zk的数据存储，当重启后怎么重构zk的数据模型

3.zk的原理，基于什么协议，follower和observer的区别，zk怎么扩容

4.zab和raft的区别引申到paxos和raft

5.zk机房扩容有什么要注意的吗？（我只知道过半所以奇数个，其他的不知道

6.cap原则

Flume篇

1.Flume都有什么组件，channel的特性以及什么时候该用什么类型的channel，除了Flume还有什么数据收集工具

DataX，Sqoop

Kafka篇

1.Kafka在项目中起到的作用，如果挂掉怎么保证数据不丢失，不使用Kafka会怎样

2.Kafka呢怎么保证数据一致性引申到exactly once

3.Kafka通过哪些机制实现了高吞吐量？

Hive篇

1.如何理解Hive，为什么使用Hive

2.Hive的实现逻辑，为什么处理小表延迟比较高

因为其计算是通过MapReduce，MapReduce是批处理，高延迟的。小文件也要执行MapReduce。Hive的优势在于处理大数据，对于处理小数据没有优势

HBase篇

1.Hbase的架构，读写缓存？

2.blockcache的底层实现？你提到了LRU那除了LRU还可以有什么方案？

3.Hbase重启后怎么重构blockcache？（不会只知道hlog和memstore）

4.Hbase写入方式 bulkload 不同写入方式的应用场景

Spark篇

1.Spark on yarn的流程，分部署模式答

2.怎样提高并行度相关参数

3.client和cluster模式的区别

4.Spark shuffle以及为什么要丢弃hashshuffle

5.讲讲Spark为什么比Hadoop快

6.RDD是什么，有什么特点

7.RDD的血缘

8.宽窄依赖

9.stage划分

10.Transform和Action算子分别有什么常用的，他们的区别是什么

11.Spark 能产生shuffle的算子

12.Spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

13.Spark内存管理

14.Spark数据落盘

15.看过Spark底层源码没有

16.Spark程序故障重启，checkpoint检查点

17.Spark 数据倾斜

18.用Spark遇到了哪些问题

19.Spark join的有几种实现

20.背压机制应用场景底层实现

Flink篇

1.Flink的组成

2.Flink流批一体解释一下

3.聊聊Sparkstreaming和Flink？为什么你觉得Flink比Sparkstreaming好？

4.那Flink shuffle呢？你了解吗？

5.watermark用过吗

6.checkpoint Chandy-Lamport算法

7.如何用checkpoint和watermark防止读到乱序数据。

8.Kafka和Flink分别怎么实现exactly once，问的比较深入，我只回答了一些用法，二阶段提交说了流程，没说出来机制。

9.流式框架

1)节点挂了，怎么保证任务正常执行

2)有状态怎么维护之前的状态

3)checkpoint数据重用前提

java基础篇

1.java限定词（private那些）

2.ArrayList原理，为什么初始是10，为什么扩容1.5倍

3.hashmap的实现原理

4.怎么解决hash碰撞+ 时间复杂度+优化+改成红黑树了时间复杂度+继续优化

5.实现单例模式

6.多路复用，NIO这些了解过吗？

7.100M的数组随机查快还是顺序查快解释为什么？

并发编程篇

1.如何实现多线程写过多线程吗

2.4种线程池功能

3.java内存模型

4.java内存模型中，线程和进程会如何分配这些资源

5.volatile的作用

6.synchronized和volited的区别

7.synchronized与lock的区别

8.公平锁与非公锁的区别

9.java锁都有什么，JUC包

10.lock是公平的还是非公平的（答案是可以根据逻辑去自己实现是否公平）

11.怎么保证线程同步？

12.sychornized讲一下和其他的区别

13.sychornized怎么优化

14.volatile可以保证原子性吗？

15.cas呢？我讲了cas的原理结果怼我我不是问你原理我是问你怎么保证原子性的？

16.reentrantlock底层原理

17.除了reentrantlock，你还知道什么锁

18.读写锁底层实现原理和应用场合

19.synchronize底层实现锁升级公平？

20.多线程（线程间的通信，锁，volatile，CAS）

算法篇

都是网上的一些原题，自行寻找答案

1.岛屿问题

2.矩阵最小路径和问题求矩阵最短路径

3.判断一棵二叉树是否镜像对称

4.判定二叉排序树

5.二叉树之Z遍历

6.非递归实现中序遍历

7.二叉搜索树查找第k个

8.堆排序

9.桶排序

10.股票交易1 2

11.二分查找

12.k个一组反转

13.重排链表

14.链表排序（归并排序实现）

15.包含min函数的栈 O(1)

16.搜索旋转排序数组

17.最长回文子串

18.LRU

19.数据结构让你设计一个hash表怎么设计？

20.那设计一个hashtable

21.string转int

#你觉得今年春招回暖了吗##牛客解忧铺##大数据开发面经##字节##春招#

全部评论

推荐最新楼层

就要转码嘛

门头沟学院 Java

这难度无敌了

1 回复分享

发布于 2024-09-06 11:22 江苏

牛客219693234号

门头沟学院 Java

点个赞

1 回复分享

发布于 2023-03-19 10:55 香港

dut_南宁

大连理工大学大数据开发工程师

计网操作系统这些八股有吗？

点赞回复分享

发布于 2023-09-19 16:25 辽宁

三石大数据

楼主

门头沟学院大数据开发工程师

大家把希望及时更新的题目发出来，优先进行更新

点赞回复分享

发布于 2023-03-17 15:34 美国

昨天 19:18

清华大学机械设计/制造

机械本科刚毕业薪资水平如何？

大家好，今天给你们分享机械本科刚毕业薪资水平。以下是各位网友的经历，给你们参考。网友1：随便找，这破专业基本工资都差不多，1.2k，从大专到985众生平等，不过足够努力的话，后面差距会拉开很大。网友2：直接往半导体fab投就行了，我在半导体干设备啊转正也就五六千，工程师一万多。网友3：二本非机械专业转行机械设计，工资6.5k，双休，郑大都有12K。网友4：我末二机械本应届都拿13k了，而且我很菜。网友5：苏机械行业很发达啊，本科如果是相关专业的，你就多投就行了，不过走社招会苦点，苏州关于机械的挺多的，不行可以找个小公司进去学一年再跳大一点的公司。网友6：机械行业博大精深，没有任何一个人敢说精通...

刚入职的你踩过哪些坑

点赞评论收藏

01-31 15:08

华南师范大学前端工程师

字节前端实习一面二面凉经 10月份

字节一面复盘三个部分，自我介绍、技术知识考察、实战考察（如果时间允许，实际没有）流程是问简历上的项目，基本是从上往下看到什么问什么，根据简历问到了vue、WXML、CSS、深度学习、色彩原理、图层蒙版的简单知识。项目问题你后面也写过，WXML, 也写过传统的前端，对吧？对你觉得这个WXML和HTML有什么区别呢？ 答：微信小程序接近vue的思想，组件化，库管理更方便。 更好的答案（为什么开发wxml而不使用html）：底层优化：WXML 是为小程序环境量身定制的，它与 WXSS 和 JavaScript 的结合更加高效。功能取舍：标签更轻量级，解析和编译开销小安全：屏蔽了iframe href...

大厂面试问八股多还是项目...

点赞评论收藏

2025-12-31 16:41

已编辑

江西农业大学 C++

27届，寒假找实习

最近在投递简历。在BOSS上，投了50来份小厂(1000人以下)。只有几个人回复(我知道这很正常)，目前有一个小厂hr的电话，说他们的要求很高，我代码有点少。感觉小厂的要求都好高，什么QT，游戏项目/引擎，嵌入式，音视频，图片处理，机器学习，数据挖掘/分析等等，我是不是要改变策略，投中大厂(可能他们的要求比较低，比较看重学习能力)？现在想，先投一个月(边复习+MySQL+QT)，不行就考研去了。

程序员花海：实习和校招简历正确格式应该是教育背景+实习+项目经历+个人评价其中项目经历注意要体现业务实习经历里面的业务更是要自圆其说简历模板尽可能保持干净整洁不要太花哨的

你投了多少家公司？进展是...

点赞评论收藏

01-14 00:53

北京邮电大学 Java

请大家帮忙看看简历

目前研二，组里只放暑期，目标java后端开发，也有意向试着投投大模型应用开发相关岗位。项目的话，现在写在简历上的魔改的点评+某个知识星球上的agent项目可行吗？简历整体还有需要调整的地方吗？

牛客96763241...：邮✌️算法吧，没必要后端

听劝，我这个简历该怎么改...

点赞评论收藏

01-30 14:57

黑龙江大学 Java

双非硕秋招java后端转ai应用开发心路历程(一)

个人bg介绍: 专升本 -> 双非硕，硕士转码，在校期间1b1c共计两篇长文(事实上在ai应用开发相关面试时，文章并没有起到太大的作用，也可能是面试的公司规模不是特别大)，在校timeline: 2023年入学时基础比较差，主要以c/c++为主，刚入学时也比较迷茫，在学业上主要以python为主，组内的项目主要以java为主，也算是学的比较杂，当时对于就业的考量是只要比本科强就可以，因为当时的专业为物流，所以基本都是土木相关，这也就导致了无论硕士就业如何，相较于本科而言都是向上的，这也就导致了当时对于就业方向的选择比较随性，只要能找到工作就好。 中间陆陆续续把小论文都撰写好了，在2024...

AI求职实录

点赞评论收藏

189

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

创作者周榜

正在热议

# 关于春招/暑期实习，你想知道哪些信息？ #

2547次浏览 64人参与

# 一张图晒一下你的AI员工 #

1495次浏览 45人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

史上最全的大数据开发面经及答案汇总【字节跳动】

Hadoop篇

1.介绍一下Hadoop hadoop是什么

2.谷歌的三篇论文是否了解，三驾马车GFS，BigTable，MapReduce

3.hdfs源码你知道的话，讲讲元数据怎么管理的？

4.hdfs 你知道namenode的问题吗？怎么解决？应该就是联邦机制

5.hdfs写数据流程

6.namenode如果挂掉了怎么办 【HA配置】

7.说一下mapredeuce

8.哪个阶段最费时间，环形缓冲区的调优以及什么时候需要调

9.环形缓冲区了不了解？说一下他的那个阈值高低的影响

10.写一个wordcount

11.WordCount在MapReduce中键值对变化

12.map端为什么要排序？

13.map端输出的文件组织形式是什么样的？

14.reduce怎么知道从哪里下载map输出的文件

15.如果map输出太多小文件怎么办

16.MapReduce优化的case

zookeeper篇

1.zookeeper简单介绍一下，为什么要用zk？zk的架构？

2.zk的数据存储，当重启后怎么重构zk的数据模型

3.zk的原理，基于什么协议，follower和observer的区别，zk怎么扩容

4.zab和raft的区别 引申到paxos和raft

5.zk机房扩容有什么要注意的吗？（我只知道过半所以奇数个，其他的不知道

6.cap原则

Flume篇

1.Flume都有什么组件，channel的特性以及什么时候该用什么类型的channel，除了Flume还有什么数据收集工具

Kafka篇

1.Kafka在项目中起到的作用，如果挂掉怎么保证数据不丢失，不使用Kafka会怎样

2.Kafka呢 怎么保证数据一致性 引申到exactly once

3.Kafka通过哪些机制实现了高吞吐量？

Hive篇

1.如何理解Hive，为什么使用Hive

2.Hive的实现逻辑，为什么处理小表延迟比较高

HBase篇

1.Hbase的架构，读写缓存？

2.blockcache的底层实现？你提到了LRU那除了LRU还可以有什么方案？

3.Hbase重启后怎么重构blockcache？（不会 只知道hlog和memstore）

4.Hbase写入方式 bulkload 不同写入方式的应用场景

Spark篇

1.Spark on yarn的流程，分部署模式答

2.怎样提高并行度 相关参数

3.client和cluster模式的区别

4.Spark shuffle以及为什么要丢弃hashshuffle

5.讲讲Spark为什么比Hadoop快

6.RDD是什么，有什么特点

7.RDD的血缘

8.宽窄依赖

9.stage划分

10.Transform和Action算子分别有什么常用的，他们的区别是什么

11.Spark 能产生shuffle的算子

12.Spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

13.Spark内存管理

14.Spark数据落盘

15.看过Spark底层源码没有

16.Spark程序故障重启，checkpoint检查点

17.Spark 数据倾斜

18.用Spark遇到了哪些问题

19.Spark join的有几种实现

20.背压机制应用场景 底层实现

Flink篇

1.Flink的组成

2.Flink流批一体解释一下

3.聊聊Sparkstreaming和Flink？为什么你觉得Flink比Sparkstreaming好？

4.那Flink shuffle呢？你了解吗？

5.watermark用过吗

6.checkpoint Chandy-Lamport算法

7.如何用checkpoint和watermark防止读到乱序数据。

8.Kafka和Flink分别怎么实现exactly once，问的比较深入，我只回答了一些用法，二阶段提交说了流程，没说出来机制。

9.流式框架

java基础篇

1.java限定词（private那些）

2.ArrayList原理，为什么初始是10，为什么扩容1.5倍

3.hashmap的实现原理

4.怎么解决hash碰撞+ 时间复杂度+优化+改成红黑树了时间复杂度+继续优化

5.实现单例模式

6.多路复用，NIO这些了解过吗？

7.100M的数组 随机查快还是顺序查快 解释为什么？

并发编程篇

1.如何实现多线程 写过多线程吗

6.namenode如果挂掉了怎么办【HA配置】

4.zab和raft的区别引申到paxos和raft

2.Kafka呢怎么保证数据一致性引申到exactly once

3.Hbase重启后怎么重构blockcache？（不会只知道hlog和memstore）

2.怎样提高并行度相关参数

20.背压机制应用场景底层实现

7.100M的数组随机查快还是顺序查快解释为什么？

1.如何实现多线程写过多线程吗

12.sychornized讲一下和其他的区别

15.cas呢？我讲了cas的原理结果怼我我不是问你原理我是问你怎么保证原子性的？

19.synchronize底层实现锁升级公平？

2.矩阵最小路径和问题求矩阵最短路径

19.数据结构让你设计一个hash表怎么设计？