大数据开发工程师精选面经合集 - 校招实习社招 - 牛客网

大数据开发工程师精选面经合集

35家公司

73篇面经

最新热门

靠谱的秋田犬说这不是bug

05-05 16:18

湖北理工学院计算机类

大数据开发一面

腾讯会议一面(30分钟)自我介绍项目介绍数据如何采集，整个流程叙述一遍项目难点说一下两个项目的区别讲一下数仓分层里面的表叙述一下有什么分析一下两个事物之间的关系，怎么分析(有点抽象的问题)，有什么经验

点赞评论收藏

转发

04-30 22:09

已编辑

未填写教育信息

Pdd数据分析已挂二面

🕒岗位/面试时间🤔面试感受一面4月23日，是一个年轻小哥，长得很帅人也非常好，水平很高感觉提示也特别到位，全程体验良好，问了一道概率一道python 一道SQL隔两天约了二面吐槽一下二面改了三次时间，最后定的4月26号二面面试官看起来非常不专心，一开始迟到了几分钟，然后刚开始他手机一直响，感觉漫不经心还在玩手机，关于问简历感觉非常不专业，因为他自己不懂还要重复性的问好几遍，他自己就是做纯业务方面的，我简历上有相关开发的经验，就说我这也不是数据相关的……[我的开发经验也是涉及大数据处理，可惜他不懂Flink他还说为啥用Flink不用hive我无语，这两个根本就不是一个东西]写代码全程无提示也无交流，我尝试交流他说他在写面试评价再吐槽一下Python我手撕用的二分法，他好像不懂，他说高斯牛顿，其实我的可以跑出来，可是他一开始总是说你这个不对，你这个不对啊，就这样，我让他帮忙把输出结果copy给我我调试好了三天后显示应聘终止，遇到这种面试官就是浪费时间

拼多多二面48人在聊

点赞评论收藏

转发

04-28 11:59

已编辑

河北科技大学数学类

小米大数据一面

1.自我介绍2.熟悉flink还是spark答：flink3.介绍下flink架构吧答：这里越深越好，我就讲到了flink的jobmanager(dispathcer，jobmaster)和taskmanager4.flink有哪些算子?答：map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。5.flink你知道有哪些窗口吗？计数窗口能介绍下吗？答：时间窗口有滚动滑动会话，计数窗口有滚动滑动。6.你知道窗口什么时候触发吗？答：讲了一下窗口触发器trigger7.你能介绍下flink有几种窗口触发器吗？底层怎么实现的。答：讲了一下事件时间触发器和处理时间触发器的原理。8.假如flink窗口突然不触发了，你怎么排查。答：这里我答了一下排查上游其中一个流是否断流，如果其中一条流断流可以设置withIdleness空闲时间，让窗口的最小水位线机制去掉那个断流的依赖，靠另外的流触发计算。这里面试官提了一个场景，如果小米商城半夜就是没人买东西或者数据量很小导致水位线不能及时更新，（就是每条流都没数据）那你该怎么触发呢？利用窗口触发器ProcessingTimeoutTrigger 9.口述一道sparksql题10.sparksql优化答:(1)sort by 代替 order by，需要结合distribute by使用。(2)count(distinct)优化(3)列裁剪(4)谓词下推(5)优化MAPJOIN阈值。(6)定期合并小文件，防止maptask数量过多(7)多用explain看执行计划,避免笛卡尔积等意外情况11.执行计划怎么看每个stage是根据shuffle切分，执行计划会写上具体的操作符和数据量和JOIN规则。12.distrubute by 会发生shuffle吗？根据什么字段distribute by? 这个和cluster by的区别是什么？13.反问：(1)小米数仓具体是做什么数据？(2)为什么岗位介绍上写了机器学习？面试官说这个有专门团队去做，跟数仓关系不大牛客字数限制，答案写的有点简略小米面试官的技术感觉很强，态度好，体验很不错，希望以后有机会能进吧。#大数据开发#

小米一面128人在聊

点赞评论收藏

转发

在冲浪的比尔很想润

04-25 20:36

中央民族大学统计学类

美团大数据开发实习

一面——60mins自我介绍拉链表的制作，数据量有多少，为什么不用快照表呢项目有哪些表数仓分层有哪些，具体做了什么，数仓分层作用怎么设计表，怎么建模，DIMDWD层的主题分了哪些如何做的可视化什么是数据倾斜，数据倾斜的解决方案Hadoop和spark的区别Spark的shuffle流程是怎么样的对哪些数据库了解Shuffle有哪几种类型在shuffle的过程中会进行排序吗，有哪几种排序什么是快速排序，时间复杂度是多少，手撕快排代码题Spark是如何划分stage阶段Spark SQL的执行流程，如何将一个SQL语句转换为任务宽窄依赖，宽依赖阶段会发生什么两个SQL题反问

点赞评论收藏

转发

DataPulse大数据社区

04-25 13:28

大数据开发工程师

阿里云数据开发面试

#软件开发2024笔面经# 阿里云数据开发岗位面试公司名称:阿里云面试岗位:大数据开发整个是大数据开发，我以为是数仓开发，结果问的全是Spark问题，被搞自闭了。1，自我介绍2，park中RDD的Task数量由什么决定?3，Spark怎么实现算子中的变量共享?4，Spark共享变量的使用条件?5，可序列化?连接池实例是在算子内还是在算子外?我一开始没想好，先回答了连接池的作业:是为了连接的复用，将可能会用到的连接通道给提前打开，存在大量通信请求场景时，可以用到连接池来优化整个通信过程的效率。我回答是 连接池实例应该在算子外创建和管理，这样算子共享相同的连接池。但面试官说让我好好想想。然后问我如果进行网络连接，是一台电脑连接还是多台连接?应该是在算子内，通常是因为数据不能或不应当在算子之间共享，或者存在连接泄漏的风险。例如，在使用HBase时，连接器必须在算子内实例化连接池中的连接，以确保每个算子在处理数据时都能获得可用的连接。6，习惯用的语言?Scala熟练不?对Scala有什么看法?7，为什么选择Spark来处理数据?因为非结构化的数据多吗?这是3面，整个流程大概花了50分钟，问的问题脉友一场，知无不言

软件开发2024笔面经

点赞评论收藏

转发

04-24 19:55

快手_数据研发(实习员工)

面经|某小厂-数据开发实习

一面（4.24）： 总体30 min    1.为什么在上一家公司离职    2.对公司有什么诉求    3.理解到你的诉求是想提升技术了，那假如在公司干活不能提升你的技术那你会怎么办（跑路）    4.你希望自己以后成为什么样的人    5.AB test    6.标准明细表（没太听懂）    7.数仓的分层    8.spark为什么比MR快    9.项目中具体干了什么活    10.你觉得沟通很重要吗    11.如果你有简单的方案可以完成业务方的需求，但业务方坚持要你用他所提供的更复杂的方案怎么办（把两边的leader拉过来开会）    12.如果两边的leader都不想管这件事怎么办（？？？？？？？）    13.数据倾斜总体感觉一般，感觉和面试官在很多观点上有diff（面试官认为技术人员是为业务方服务的，要尽可能去完成业务方的需求；我认为技术人员和业务方是平等的，他让我干的活我不想做我可以选择不做面试官认为我在面试过程中提到的需求做不了这种事情不可能存在。你没接触过这么大数据量的数据当然不知道还有跑不动的任务）

点赞评论收藏

转发

DataPulse_辉常努腻

04-24 19:17

上海交通大学计算机类

百度面试2024数据开发岗位

#软件开发2024笔面经# 百度面试2024数据开发岗位1.结合以往经历，谈谈项目管理哪些过程域，你认为更重要？原因是啥？你的弱势点有哪些？2.讲一个项目，完整介绍下项目，你的职责，具体咋做的，成效业绩。3.总结讲一下你主导过的数据分析应用类项目中痛难点有哪些？怎么解决的？4.横向讲一下几个etl工具的优缺点？cdm,kettle,infa5.数据共享服务怎么做的？过程中如何做到的安全合规？6.数据要素相关工作做过哪些？有过哪些接触？7.招投标工作，文档材料编写汇报，做过哪些？ #offer#  #大数据#   

软件开发2024笔面经

点赞评论收藏

转发

04-20 11:03

阿里大文娱-优酷数据开发-实习一面

有幸收到阿里大文娱的实习一面，面试官是个很温柔的姐姐，下面记录一下问题：1.自我介绍2.说一下你的两个项目，挑一个讲（我挑了Flink相关的一个项目讲）3.checkpoint怎么做的4.exactly-once的语义是怎么实现的5.你了解反压吗？6.在校课程会学什么7.你是怎么理解数据科学的？（科学的去获取、存储、处理、分析、挖掘数据）8.你提到数据分析，你可以讲讲数据分析的思路吗？（以泰坦尼克号生存预测为例，讲了数据的清洗、归一化、可视化探究、预测等步骤）9.你怎么确定要用什么模型进行预测呢？（都试一遍QAQ）10.所以你是盲测的？那后续怎么调参11.说说SVM，随机森林的原理12.算法学过吗（机器学习深度学习算法都学过）13.你研究生学的是什么（深度学习）14.说几个深度学习的算法（介绍了一下CNN的原理）15.发论文了吗？（准备投了）最后面试官小姐姐因为没有找到合适的编程题就没考了反问：base在哪？（北京）业务内容？（有做数仓的，有开发大数据工具的，有数据科学的。）难怪问了我这么多深度学习的东西。。。许愿一面过~

点赞评论收藏

转发

69岁扶墙写python

04-19 18:34

滴滴_数据分析师(实习员工)

携程大数据分析工程师的校招面经~

前几个月面的了，一面过了但是没有参加二面，已经有点久远了凭记忆贡献面经。1.一开始就是常规的自我介绍2.然后挖简历，主要问的过去几段实习，有两段大厂一段小厂都问了，挖的比较细。3.两道SQL题手撕：次日留存和连续活跃天数（都很常规）4.问了一下abtest了不了解，我之前没有做过但是是统计学背景，所以问了一些一二类错误还有假设检验，最小样本量计算，统计功效的计算还有一些其他内容。5.时间序列分析了解吗（只是学过一些ARIMA之类的，写过LSTM和Transformer可以做，但是没有用在时间序列上）6.异常值怎么检验（我记得我说的最方便的就是看分布，看箱线图，也可以3sigma）7.异动归因问题，店铺某款产品销售量突然下降，要求全链路拆解8.可不可以提前实习9.反问（问了部门，偏技术还是偏业务什么的，记不太清了）

点赞评论收藏

转发

DataPulse_辉常努腻

04-24 19:13

上海交通大学计算机类

2024腾讯面试数据岗位

#软件开发2024笔面经# 0)项目中遇到哪些问题?1)业务数据采集框架选择(FlinkCDC，Maxwell,Canal)2)Dwd 层新老访客修复、Dws层用户回流状态过大，选择状态后端不合理导致OOM3)状态后端选择 RocksDB导致链路延迟过高4)Dws层读取外部数据库维度数据网络延迟过高导致反压5)数据倾斜导致的反压6)Flink SQL 未设置 TTL 导致的 OOM7)改变程序拓扑结构，通过Savepoint恢复程序未指定算子Uid 导致的报错8)Kafka 分区动态增加，Flink键控不到新分区数据导致数据丢失9)某个Kafka分区没有数据，导致 Flink下游水位线无法抬升，窗口无法关闭计算10) Kafka的问题(挂了、丢了、重复了、积压了、乱序了、如何提高吞吐量)11) Hbase 的rowkey设计不合理导致的数据热点问题12) Redis做旁路缓存，与Hbase的数据一致性问题13) Flink写Clickhouse的精准一次性问题14) Clickhouse 的优化问题 #大数据#  #数据人的面试交流地#  #offer#

软件开发2024笔面经数据人的面试交流地

点赞评论收藏

转发

聪明勇敢有力气y

04-19 08:08

已编辑

第一拖拉机制造厂拖拉机学院

美团数据开发转正实习面经总结:美团效率，完全没准备好就面试了。问了很多八股，兼具深度广度，知道的不知道全问了。学习之路道阻且长啊。数仓分层：为什么不能直接建DWD,DIM层，ODS层的必要性是什么？DWS层的作用是什么，为什么不能直接建ADS层？完全同上乱答SQL考查:统计每个科目各等级的人数，写的很艰辛，面试的时候脑子经常短路，干着急。菜就多练分组topN，窗口函数。left join where中的条件写在where里和写在on里面有什么区别，查询结果一样吗？Java考查:HashMap底层组成，怎么减少扩容次数，答扩大初始容量，增加扩容因子。说说面向对象。了解的数据类型。Hive：什么情况会导致倾斜，怎么解决。写了一个HQL语句，问从提交到MR的整个详细执行过程，答的很粗略。hive 怎么根据表名去找表数据，metastore。MySQL 常见内存引擎，什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树，而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则，100个文件前面99个小文件，最后一个文件150M，默认切几片。顺势问到小文件的危害，怎么解决。分区器问题，疯狂拷打，但没什么印象了环形缓冲区调大调小有什么问题，纯乱答。写个快排，没注意有重复元素，好像陷入死循环了。问了为什么选择走数据开发这条路，有看过什么大数据类型的书吗。最后问你的亮点是什么，一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。

点赞评论收藏

转发

04-16 15:53

门头沟学院管理科学与工程类

腾讯视频数据工程三面凉经

初试：1.数据库索引相关2.数据库事务3.锁，死锁4.hadoop，join的mr过程5.数据倾斜及解决方案，如何采样大key不人工分拆6.clickhouse，了解哪些其他olap数据库7.数仓建模，事实表，维度表8.一个新业务如何从0构建数仓9.实习中遇到的问题，怎么解决的10.sql 总体难度不大，但是我老是细节有问题二面：1.sql查询clickhouse过程，clickhouse相关，其他olap了解多少2.设计数仓表3.实习经历相关，了解哪些大数据前沿方向三面：场景题，结合实习工作内容好的数仓是怎样的数据质量，及时性如何保证了解哪些大数据前沿方向职业规划为什么不读研个人评价编程掌握化身鹅黑了#暑期##腾讯##数据开发工程师#

点赞评论收藏

转发

DataPulse_辉常努腻

04-24 19:11

上海交通大学计算机类

2024字节跳动面试数据开发

#软件开发2024笔面经# 2024字节跳动面试 数据岗位1.模型开发的流程，需求调研过程中有哪些人员参加，调研过程，你会输出什么文档？2.如何保障数据质量（准确性）？3.spark有什么优缺点？在使用过程如何规避缺点？4.spark内存模型？5.spark和MR为什么会进行shuffle，如何减少shuffle？6.小文件治理的方式？7.主题域建设的流程？8.大表join大表的优化（10亿与1千万数据关联）？9.为什么存在ods穿透？10.你希望公司工作强度如何？ #数据人的面试交流地#  #第一次面试#  #如何确定求职岗位#  #大数据#

软件开发2024笔面经数据人的面试交流地

点赞评论收藏

转发

爆裂哈密瓜

04-14 15:52

东北大学计算机类

美团数开暑期实习上岸面经二

去年四月的暑期实习二面：自我介绍大数据技术怎么学习的了解哪些olap引擎mr过程mr的知识在实际工作中用到了哪些300m，切片大小是128m，切几片spark为什么快rdd任务划分spark优化数据倾斜哪些sql会造成数据倾斜hive隐式转换count distinct怎么解决小文件缺点数仓的意义维度和事实的区别维度属性是什么维度建模的步骤数仓分层维度退化元数据ads层分析了哪些指标项目挑战点怎么学习新技术一道sql题二面就是这些问题啦，觉得有用的话点个赞噢～ #美团校招#  #美团2024届秋招#  #美团工作体验#

点赞评论收藏

转发

04-11 14:26

腾讯软件工程-数开实习一面

面了1个小时左右，下面记录一下问的问题1.上来介绍了一下业务，是做qq浏览器的2.问了一下做过的项目背景（尚硅谷离线数仓）3.问了一下大数据专业在校课程学什么，会学计算机的基础课程吗（我说了会，然后就开始疯狂拷打计算机基础......但计算机基础几乎没看，主要都在准备大数据的课程）4.进程和线程的区别5.死锁的四个条件6.python怎么创建线程7.线程安全怎么保证8.http和https的区别9.什么的对称加密算法和非对称加密算法，分别应用在什么场景10.TCP和udp11.四次挥手，四次挥手等待多久12.数据库常用的索引结构13.为什么b+树可以减少磁盘io14.b树应用在哪些地方15.数据库的acid16.mysql怎么实现acid17.怎么回滚18.数组和链表的区别19.栈和队列20.怎么用栈实现队列21.图的最短路径算法22.常见排序算法的时间复杂度23.排序算法的稳定性写一道连续子数组最大和。还以为会问一些大数据相关的内容，结果问的全都是计算机基础，都没怎么看过，纯纯的被拷打了

点赞评论收藏

转发

DataPulse_辉常努腻

04-24 16:03

上海交通大学计算机类

阿里巴巴数据研发面试2024

这是阿里巴巴的一个研发岗位，涵盖一些大数据的笔试专业面试问题 #软件开发2024笔面经# 针对过往经历Q：字节确实注重数据驱动，这样子的决策方式可能会有什么问题？哪些决策没办法用这些方法进行验证？Q：结合过往实习经历，你现在想要帮商家提升GMV，你觉得该如何去进行提升？行为面Q：在这几段实习经历中，哪段需要联系各方的人推动解决问题的情景更多？Q：在合作过程中遇到比较多的卡点是什么，导致这个事情很难推动？Q：在沟通过程中，对你能力最大的挑战是什么？ #不给转正的实习，你还去吗#  #大数据#  #找实习多的是你不知道的事#

软件开发2024笔面经不给转正的实习，你还去吗

点赞评论收藏

转发

牛客336021770号

04-08 22:06

天津大学计算机类

美团软开-大数据科学方向面经

#美团暑期[话题]##美团暑期[话题]##美团数据开发#4.8美团数据开发一面，记录一下面经供大家参考，同时积攒人品，希望顺利OC。（25暑期转正实习）面试官人很好，整个面试过程约一小时十五分钟，非常nice，面试官全程视频，也给了我很多建议，受益匪浅，整个过程八股较少，都是穿插项目问八股，感觉面试官一直在从我会的角度深入。具体如下：1.你知道hive的窗口函数吗，窗口函数有哪些，都是干什么用的，知道lag函数吗，做什么的2.平时用Spark的时候关注过内存管理吗（没了解,面试官说可以多看看这个）3.Spark算子类型了解吗，种类和具体的算子案例4.Spark内存管理了解吗，内存管理的机制介绍一下5.Spark sql调优是怎么做的6.使用过scala语言吗，用在什么地方，在编写代码过程中有什么挑战7.spark缓存机制了解吗，有那几个函数（cache、persist）Spark缓存级别有几个，具体内容是什么8.Spark一般用在什么场景，了解Spark图计算的框架吗（这里因为我项目里有一个图计算的项目，就问了一些图计算的内容，比如用到的算法，还有一个中心度算法，可以多了解一下）9.Spark的数据倾斜问题，map-side-join，spark的spill机制，如果内存不够了要怎么办，如果手动设置了某个参数呢（这里具体的参数名忘掉了）10.SQL题,牛客SQL 16题，较难，一开始没啥思路，就把那些SQL语句都写上了，包括limit啥的，测试没跑通，刚刚想重新分析一下，面试官说没关系，题比较难，也基本上写出来了，就没让我再继续改了。之后又问了我一些问题，比如base北京能不能来，居住问题，了解美团的业务群吗，中间还问了我一些项目管理的问题，感觉都不像技术面了。整场面试感觉题目答上来百分之95吧，SQL题没做出来有点遗憾，不过感觉好像面试官不是很在意。反问问了一下base，是不是在望京那边，然后问了一下面试官对于大数据学习的一些建议，面试官建议我可以先区分一下大数据的具体内容，比如离线在线、源码开发还是数据仓库等等，然后根据具体的方向学习对应知识。最后总结一句，面试很nice，面试官也很nice，大家都说美团的面试让人感觉很好，现在看来的确如此。分享一下，积点德，希望能顺利二面然后OC

点赞评论收藏

转发

04-11 13:39

美团金融数据开发实习一面

没想到实习的第一面给了团子，记录一下：1.面试官上来直接介绍业务：美团金融，负责借贷、理赔的，对这个挺感兴趣2.发散：说说大数据和计算机专业的区别3.谈谈对chatgpt的理解4.介绍一下自己的项目背景（尚硅谷电商离线数仓）5.两阶段聚合是怎么解决数据倾斜的6.拉链表如何解决维度缓慢变化7.数仓的分层结构8.数仓的建模流程9.如果产品给了一个用目前技术无法解决的问题，该怎么办？10.如果团队成员不遵守开发规范怎么办？sql：对所有员工的薪水按照salary降序进行1-N的排名总的来说，面试的题不仅涉及专业核心，也有一些发散题，蛮有意思的。面试官也很nice，许愿一面能过

点赞评论收藏

转发

DataPulse_辉常努腻

04-18 13:39

已编辑

上海交通大学计算机类

数仓-SQL面试题-实录

投票

SQL总结/真实企业级SQL/通俗易懂解法/数开人的福音1. breed、date、value，value值中，有null的，null值用紧邻两行非空的均值填充? SQL怎么写？(数据治理)思路1. 紧邻数据必须是一个从第一行到当前行的最后一个非空数据行 和 从当前行到最后一行的第一个非空数据行 的 均值。2. 这时候可以采用窗口函数去解决。3. 使用last_vlaue+first_value,且还可以使用true来忽略空值行。解决问题的思路(函数使用思路)：1. 有的有值，有的没有，如何做？  1. 使用if if(value==null, .... , value)  2. 使用nvl nvl(value, .... , value)2. 以上紧邻和以下紧邻，非空值（必须一个从最上到当前，一个从当前到最下，而且需要忽略空值）3. 必须一个从最上到当前：需要用last_value(),再使用ignore_nulls True 去做忽略空4. 必须一个从当前到最下：需要用first_value(),再使用ignore_nulls True 去做忽略空👥面试题目飞书链接：https://ykg8hl7h33.feishu.cn/docx/VNo7dJLJfoDwT1xNNVpcLg8Snlc #面试#  #大数据#  #offer#  #笔试#  #24届软开秋招面试经验大赏#

24届软开秋招面试经验大赏

点赞评论收藏

转发

加油吧少年!

04-07 15:29

阿里巴巴集团_阿里集团-CTO线_软件开发工程师岗

Flink常见面试问题(附答案)

 适合小白或者其他领域转Flink或者轻度使用者查看，大佬轻轻喷基础篇1. 什么是Apache Flink？Apache Flink是一个开源的流处理和批处理框架，可以实现快速、可靠、可扩展的大数据处理。2. Flink与Hadoop的区别是什么？Flink是一个全面的流处理和批处理框架，提供了低延迟和高吞吐量的实时数据处理能力，而Hadoop更侧重于离线批处理。3. Flink中的事件时间（Event Time）和处理时间（Processing Time）有什么区别？事件时间是数据实际生成的时间，而处理时间是数据到达Flink系统的时间。事件时间可以通过时间戳标记数据，而处理时间是Flink根据数据到达的顺序生成的。4. Flink的容错机制是如何实现的？Flink使用检查点（Checkpoint）机制实现容错。它会定期保存应用程序的状态，并在发生故障时恢复到最近的一个检查点状态。5. 什么是Flink的窗口（Window）？窗口是Flink中用于对无限数据流进行有界处理的机制。它将无限流切分为有限的、不重叠的块，并对每个窗口进行计算。6. Flink支持哪些类型的窗口？Flink支持滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）和会话窗口（Session Window）。7. Flink中的状态后端（State Backend）是什么？状态后端是Flink用于保存和管理应用程序状态的机制。它可以存储状态到内存、文件系统或分布式存储系统（如HDFS）中。8. Flink的水印（Watermark）是什么？水印是用于表示事件时间进度的标记。它通常与数据流中的时间戳一起使用，用于处理乱序事件和延迟数据。9. Flink的时间窗口触发器（Trigger）是什么？时间窗口触发器用于控制何时触发计算窗口的输出。它可以基于元素数量、处理时间、水印等条件进行触发。... 完整版见：原文链接：https://blog.csdn.net/qq_30757161/article/details/137459710#数据开发##金三银四，你有感觉到吗##大数据#

金三银四，你有感觉到吗

点赞评论收藏

转发

玩命加载中

写面经

发动态

发动态

发帖子

写文章

全站热榜

牛客网
牛客企业服务