大数据开发面经,转转,滴滴,美团

整理近期面得别的公司的面经,和大家分享一下。觉得有用的话,收个藏,评论一下,谢谢。

--------------------------------------------------------------------------------------------------------
转转
--------------------------------------------------------------------------------------------------------
1.自我介绍
2.Kafka,架构,ACK,发送数据,消费数据,高吞吐等
3.Flume的Source(常用的),Channel(常用的),Sink(常用的),Flume拦截器知道不,自定义,Flume小文件处理(调两个参数,我记得是)
4.Hadoop的高可用,一些要点,两个namenode如何保持同步(会通过JournalNodes的独立进程进行相互通信),脑裂和防止脑裂
5.Yarn资源调度流程和调度器
6.写过MapReduce吗,说一下shuffle,自定义过分区吗,写过?压缩了解吗?都用过那个(要了解每个的特点)
7.数据仓库的模型,分层,三范式,
8.如何保证数据质量,数据一致性?
9.拉链表了解吗?什么情况用到,怎么实现?
10.表级别的优化(表的设计?),Hive的优化,分区,mapjoin
11.hive的计算引擎(mr,tez,spark),tez引擎的优点,自定义UDF,UDTF
12.写个sql,省份,城市,人口数量,统计人口排名前两名城市
13.模糊去重和精确去重的算法
14.Spark Streaming 和Flink了解多少(一点点)
15.无序数组求目标值,Hash
16.8个球,一个轻,找出来
17.MySQL的了解,两个引擎区别
18.索引实效的情况
19.反问


--------------------------------------------------------------------------------------------------------
滴滴
--------------------------------------------------------------------------------------------------------
1.ArrayList和LinkedList,HashMap和HashTable对比
2.项目的流程之类的,数据建设的情况,平成做哪些工作
3.数仓分层
4.快排思想
5.数据结构常用的,应用过哪些,ArrayList和LinkedList怎么实现的,堆和栈中的存储,操作系统为啥么这么做,链表和数组区别
6.多线程的了解,实现方式,常用的几种线程池,保持同步(sync,lock类),解释一下线程
7.HDFS读写原理(怎么读取这个文件系统,API实现可以看一下,包括建立连接这些),分布式文件怎么存储,切片
8.MapReduce,Zookeeper,Kafka解释,kafka和反压(好像是,不太知道)
9.spark和mr对比
10.写了个题 和这个类似的一个题《编程之美》——电话号码对应英语单词
11.线程池核心参数(corePoolSize,maximumPoolSize,workQueue)线程池的饱和策略
12.JDK1.8的特性
13.关联两个表(带join和不带join方式),空值的处理
14.MySQL和HBase的对比(底层存储),优缺点
15.volatile解释一下,ThreadLocal
16.MySQL的优化,索引有那些
17.HDFS,shuffle,yarn资源调度
18.UDF,UDTF,UDAF解释一下,explode()怎么用
--------------------------------------------------------------------------------------------------------
美团
--------------------------------------------------------------------------------------------------------
1.Kylin的特点,存储HBase的rowkey的优化,
2.分组排序 rank() over() 这个
3.项目架构有那些,怎么做的,做过那些
4.MR的提交执行流程
5.Hive两个大表join的过程,
6.HDFS的put和get流程
7.撕代码:LeetCode 124
8.那个项目参与最长,参与度高,聊一聊,还是那些问题,用到啥,做了那些事情,技术选型,项目遇到的问题,难点,优化等
9.数据仓库建模
10.主从复制是咋样的,三副本写入,是怎么样的,应该要把写流程和机架感知(副本存放),和节点传输应答流程(Pipeline)说一说。
11.写题
两个有序链表 合并 去重(LeetCode21题,记得去重)
--------------------------------------------------------------------------------------------------------
笔试一个月的B站终于有消息了要面试了,终于有一家上海的公司给面试了🤣

#秋招##面经##校招##美团##滴滴##转转##大数据开发工程师#
全部评论
现在社招面大数据,0 offer
点赞 回复 分享
发布于 2020-09-16 15:49
有笔试的整理吗 感谢
点赞 回复 分享
发布于 2020-09-13 00:26
点赞 回复 分享
发布于 2020-09-11 21:34
太强了,上海的机会确实没其他地方多
点赞 回复 分享
发布于 2020-09-10 12:47
恭喜恭喜
点赞 回复 分享
发布于 2020-09-10 12:27
{"pureText":"","imgs":[{"alt":"discuss_1599710937201.jpeg","height":1607,"localSrc":"content://media/external/images/media/5319","src":"https://uploadfiles.nowcoder.com/message_images/20200910/158695886_1599710938686_discuss_1599710937201.jpeg","width":1080}]}
点赞 回复 分享
发布于 2020-09-10 12:09
点赞 回复 分享
发布于 2020-09-10 12:00

相关推荐

友友们第一次接到这种规模还算可以的公司面试,求指点面试官:做一下自我介绍我:面试官您好,我叫XXX,就读与XXXXX(学院本) 软件工程专业数据与软件开发方向 目前是大三,在校期间主要学习了Hadoop Spark 等大数据相关课程面试官:hive用的多吗我:多,我在学校期间主要做的项目就是数据采集 处理分析,其中处理主要就是利用hive面试官:ok,hive的内部表和外部表有什么区别我:内部表和外部表主要是对于表结构和具体文件数据的关系,外部表的一些表操作比如删除操作,不会删除文件数据,仅仅是删除表的元数据。而内部表的操作就会影响到具体数据文件面试官:ok,hive的静态分区和动态分区的区别我:hive的静态分区主要是在建表的时候就手动指定分区,动态分区是根据表中具体的字段进行分区设置,静态分区之后会产生一个分区列在表结构的最后,但不作为表的具体数据字段。面试官:ok,动态分区主要运用到哪些场景 可以是其他数据类型吗我:主要运用到分区像时间这种,每天一份数据放到不同的日期分区里面存储,这个应该是可以,具体我没有用到过复杂数据类型,不太了解这块面试官:好,OK我这边没什么问题了,你还有什么需要问的吗我:咱们公司这个面试流程是怎么样的我会综合比对一下,如果你过了我这关我后续会联系你的我:好的,那具体薪资这些我就等后续详细再聊,我也没什么了结束断开视频会议
点赞 评论 收藏
分享
评论
11
78
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务