大数据开发面经，转转，滴滴，美团

整理近期面得别的公司的面经，和大家分享一下。觉得有用的话，收个藏，评论一下，谢谢。

--------------------------------------------------------------------------------------------------------
转转
--------------------------------------------------------------------------------------------------------
1.自我介绍
2.Kafka，架构，ACK，发送数据，消费数据，高吞吐等
3.Flume的Source（常用的），Channel（常用的），Sink（常用的），Flume拦截器知道不，自定义，Flume小文件处理（调两个参数，我记得是）
4.Hadoop的高可用，一些要点，两个namenode如何保持同步（会通过JournalNodes的独立进程进行相互通信），脑裂和防止脑裂
5.Yarn资源调度流程和调度器
6.写过MapReduce吗，说一下shuffle，自定义过分区吗，写过？压缩了解吗？都用过那个（要了解每个的特点）
7.数据仓库的模型，分层，三范式，
8.如何保证数据质量，数据一致性?
9.拉链表了解吗？什么情况用到，怎么实现?
10.表级别的优化（表的设计？），Hive的优化，分区，mapjoin
11.hive的计算引擎（mr，tez，spark），tez引擎的优点，自定义UDF，UDTF
12.写个sql，省份，城市，人口数量，统计人口排名前两名城市
13.模糊去重和精确去重的算法
14.Spark Streaming 和Flink了解多少（一点点）
15.无序数组求目标值，Hash
16.8个球,一个轻，找出来
17.MySQL的了解，两个引擎区别
18.索引实效的情况
19.反问

--------------------------------------------------------------------------------------------------------
滴滴
--------------------------------------------------------------------------------------------------------
1.ArrayList和LinkedList，HashMap和HashTable对比
2.项目的流程之类的，数据建设的情况，平成做哪些工作
3.数仓分层
4.快排思想
5.数据结构常用的，应用过哪些，ArrayList和LinkedList怎么实现的，堆和栈中的存储，操作系统为啥么这么做，链表和数组区别
6.多线程的了解，实现方式，常用的几种线程池，保持同步（sync，lock类），解释一下线程
7.HDFS读写原理（怎么读取这个文件系统，API实现可以看一下，包括建立连接这些），分布式文件怎么存储，切片
8.MapReduce，Zookeeper，Kafka解释，kafka和反压（好像是，不太知道）
9.spark和mr对比
10.写了个题和这个类似的一个题《编程之美》——电话号码对应英语单词
11.线程池核心参数（corePoolSize，maximumPoolSize，workQueue）线程池的饱和策略
12.JDK1.8的特性
13.关联两个表（带join和不带join方式），空值的处理
14.MySQL和HBase的对比（底层存储），优缺点
15.volatile解释一下，ThreadLocal
16.MySQL的优化，索引有那些
17.HDFS，shuffle，yarn资源调度
18.UDF，UDTF，UDAF解释一下，explode()怎么用
--------------------------------------------------------------------------------------------------------
美团
--------------------------------------------------------------------------------------------------------
1.Kylin的特点，存储HBase的rowkey的优化，
2.分组排序 rank() over() 这个
3.项目架构有那些，怎么做的，做过那些
4.MR的提交执行流程
5.Hive两个大表join的过程，
6.HDFS的put和get流程
7.撕代码：LeetCode 124
8.那个项目参与最长，参与度高，聊一聊，还是那些问题，用到啥，做了那些事情，技术选型，项目遇到的问题，难点,优化等
9.数据仓库建模
10.主从复制是咋样的，三副本写入，是怎么样的，应该要把写流程和机架感知（副本存放），和节点传输应答流程（Pipeline）说一说。
11.写题
两个有序链表合并去重(LeetCode21题，记得去重)

--------------------------------------------------------------------------------------------------------

笔试一个月的B站终于有消息了要面试了，终于有一家上海的公司给面试了🤣

#秋招##面经##校招##美团##滴滴##转转##大数据开发工程师#

全部评论

推荐最新楼层

在写bug的大西瓜很健谈

广东石油化工学院 Java

现在社招面大数据，0 offer

点赞回复分享

发布于 2020-09-16 15:49

求求了让我上岸吧

顺丰科技有限公司_大数据_大数据开发工程师

有笔试的整理吗感谢

点赞回复分享

发布于 2020-09-13 00:26

沙雕网友野比大雄

皖通邮电_控制器软件开发

点赞回复分享

发布于 2020-09-11 21:34

啦都法系

哔哩哔哩_商业技术_大数据

太强了，上海的机会确实没其他地方多

点赞回复分享

发布于 2020-09-10 12:47

阿越哦哦

河北工业大学运营

恭喜恭喜

点赞回复分享

发布于 2020-09-10 12:27

牛客158695886号

中国电信数字智能科技分公司_大数据开发

{"pureText":"","imgs":[{"alt":"discuss_1599710937201.jpeg","height":1607,"localSrc":"content://media/external/images/media/5319","src":"https://uploadfiles.nowcoder.com/message_images/20200910/158695886_1599710938686_discuss_1599710937201.jpeg","width":1080}]}

点赞回复分享

发布于 2020-09-10 12:09

我家的狗不咬人

山东大学运营