大数据开发工程师精选面经合集
35家公司
73篇面经
最新 热门
/feed/main/detail/ac0bc73c69224069a4e2e4581f8f0ffe/feed/main/detail/62416cdf7520492aab9321e85ee1b476
头像
04-28 11:59
已编辑
河北科技大学 数学类
小米大数据一面
1.自我介绍2.熟悉flink还是spark答:flink3.介绍下flink架构吧答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager4.flink有哪些算子?答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。5.flink你知道有哪些窗口吗?计数窗口能介绍下吗?答:时间窗口有滚动滑动会话,计数窗口有滚动滑动。6.你知道窗口什么时候触发吗?答:讲了一下窗口触发器trigger7.你能介绍下flink有几种窗口触发器吗?底层怎么实现的。答:讲了一下事件时间触发器和处理时间触发器的原理。8.假如flink窗口突然不触发了,你怎么排查。答:这里我答了一下排查上游其中一个流是否断流,如果其中一条流断流可以设置withIdleness空闲时间,让窗口的最小水位线机制去掉那个断流的依赖,靠另外的流触发计算。这里面试官提了一个场景,如果小米商城半夜就是没人买东西或者数据量很小导致水位线不能及时更新,(就是每条流都没数据)那你该怎么触发呢?利用窗口触发器ProcessingTimeoutTrigger 9.口述一道sparksql题10.sparksql优化答:(1)sort by 代替 order by,需要结合distribute by使用。(2)count(distinct)优化(3)列裁剪(4)谓词下推(5)优化MAPJOIN阈值。(6)定期合并小文件,防止maptask数量过多(7)多用explain看执行计划,避免笛卡尔积等意外情况11.执行计划怎么看每个stage是根据shuffle切分,执行计划会写上具体的操作符和数据量和JOIN规则。12.distrubute by 会发生shuffle吗?根据什么字段distribute by? 这个和cluster by的区别是什么?13.反问:(1)小米数仓具体是做什么数据?(2)为什么岗位介绍上写了机器学习?面试官说这个有专门团队去做,跟数仓关系不大牛客字数限制,答案写的有点简略小米面试官的技术感觉很强,态度好,体验很不错,希望以后有机会能进吧。#大数据开发#
点赞 评论 收藏
转发
/feed/main/detail/604a968dd63b45b8b9c90f3c875eb128/feed/main/detail/e737d8481bbf4ca492807282341af7f7
阿里云数据开发面试
点赞 评论 收藏
转发
/feed/main/detail/40eb6b426b8846938696b211ad2d94da
面经|某小厂-数据开发实习
点赞 评论 收藏
转发
/feed/main/detail/78914e360da84bb1af25ad2ea667b49f/feed/main/detail/0bca2b9d3e154702b7ceff64f2816ab2/feed/main/detail/47514faec91642ecab16c18a0a47dd6c/feed/main/detail/51a7e15ec0fe43d4850cdf088b7fa84a/feed/main/detail/dd0418fbbdf84c198a33f7d3e47b19bf
美团数据开发转正实习面经总结:美团效率,完全没准备好就面试了。问了很多八股,兼具深度广度,知道的不知道全问了。学习之路道阻且长啊。数仓分层:为什么不能直接建DWD,DIM层,ODS层的必要性是什么?DWS层的作用是什么,为什么不能直接建ADS层?完全同上乱答SQL考查:统计每个科目各等级的人数,写的很艰辛,面试的时候脑子经常短路,干着急。菜就多练分组topN,窗口函数。left join where中的条件写在where里和写在on里面有什么区别,查询结果一样吗?Java考查:HashMap底层组成,怎么减少扩容次数,答扩大初始容量,增加扩容因子。说说面向对象。了解的数据类型。Hive:什么情况会导致倾斜,怎么解决。写了一个HQL语句,问从提交到MR的整个详细执行过程,答的很粗略。hive 怎么根据表名去找表数据,metastore。MySQL 常见内存引擎,什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树,而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则,100个文件前面99个小文件,最后一个文件150M,默认切几片。顺势问到小文件的危害,怎么解决。分区器问题,疯狂拷打,但没什么印象了环形缓冲区调大调小有什么问题,纯乱答。写个快排,没注意有重复元素,好像陷入死循环了。问了为什么选择走数据开发这条路,有看过什么大数据类型的书吗。最后问你的亮点是什么,一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。
点赞 评论 收藏
转发
/feed/main/detail/87c5386b3bfa43aeabfd3cbced257e03/feed/main/detail/15d2ca19211d4eb5bef80d150790a2eb/feed/main/detail/31074f2caf624f48a07bf2253b5e7fd4/feed/main/detail/3bb10e39ff3849d3b637052e1275b662/feed/main/detail/104531819b8e440a893eabfee9c824b6/feed/main/detail/f9841847d5ac43deaf693b215ea93ee9
美团软开-大数据科学方向面经
#美团暑期[话题]##美团暑期[话题]##美团数据开发#4.8美团数据开发一面,记录一下面经供大家参考,同时积攒人品,希望顺利OC。(25暑期转正实习)面试官人很好,整个面试过程约一小时十五分钟,非常nice,面试官全程视频,也给了我很多建议,受益匪浅,整个过程八股较少,都是穿插项目问八股,感觉面试官一直在从我会的角度深入。具体如下:1.你知道hive的窗口函数吗,窗口函数有哪些,都是干什么用的,知道lag函数吗,做什么的2.平时用Spark的时候关注过内存管理吗(没了解,面试官说可以多看看这个)3.Spark算子类型了解吗,种类和具体的算子案例4.Spark内存管理了解吗,内存管理的机制介绍一下5.Spark sql调优是怎么做的6.使用过scala语言吗,用在什么地方,在编写代码过程中有什么挑战7.spark缓存机制了解吗,有那几个函数(cache、persist)Spark缓存级别有几个,具体内容是什么8.Spark一般用在什么场景,了解Spark图计算的框架吗(这里因为我项目里有一个图计算的项目,就问了一些图计算的内容,比如用到的算法,还有一个中心度算法,可以多了解一下)9.Spark的数据倾斜问题,map-side-join,spark的spill机制,如果内存不够了要怎么办,如果手动设置了某个参数呢(这里具体的参数名忘掉了)10.SQL题,牛客SQL 16题,较难,一开始没啥思路,就把那些SQL语句都写上了,包括limit啥的,测试没跑通,刚刚想重新分析一下,面试官说没关系,题比较难,也基本上写出来了,就没让我再继续改了。之后又问了我一些问题,比如base北京能不能来,居住问题,了解美团的业务群吗,中间还问了我一些项目管理的问题,感觉都不像技术面了。整场面试感觉题目答上来百分之95吧,SQL题没做出来有点遗憾,不过感觉好像面试官不是很在意。反问问了一下base,是不是在望京那边,然后问了一下面试官对于大数据学习的一些建议,面试官建议我可以先区分一下大数据的具体内容,比如离线在线、源码开发还是数据仓库等等,然后根据具体的方向学习对应知识。最后总结一句,面试很nice,面试官也很nice,大家都说美团的面试让人感觉很好,现在看来的确如此。分享一下,积点德,希望能顺利二面然后OC
点赞 评论 收藏
转发
/feed/main/detail/1e0b696265e44a7c84c74bbf06609995/feed/main/detail/8fcc0cf8d93a4abcb9de29a9453494ea
数仓-SQL面试题-实录
投票
点赞 评论 收藏
转发
/feed/main/detail/e57a5d8de6d047a48e91b2aec8a0c0e4
Flink常见面试问题(附答案)
 适合小白或者其他领域转Flink或者轻度使用者查看,大佬轻轻喷基础篇1. 什么是Apache Flink?​Apache Flink是一个开源的流处理和批处理框架,可以实现快速、可靠、可扩展的大数据处理。​2. Flink与Hadoop的区别是什么?​Flink是一个全面的流处理和批处理框架,提供了低延迟和高吞吐量的实时数据处理能力,而Hadoop更侧重于离线批处理。​3. Flink中的事件时间(Event Time)和处理时间(Processing Time)有什么区别?​事件时间是数据实际生成的时间,而处理时间是数据到达Flink系统的时间。事件时间可以通过时间戳标记数据,而处理时间是Flink根据数据到达的顺序生成的。​4. Flink的容错机制是如何实现的?​Flink使用检查点(Checkpoint)机制实现容错。它会定期保存应用程序的状态,并在发生故障时恢复到最近的一个检查点状态。​5. 什么是Flink的窗口(Window)?窗口是Flink中用于对无限数据流进行有界处理的机制。它将无限流切分为有限的、不重叠的块,并对每个窗口进行计算。6. Flink支持哪些类型的窗口?​Flink支持滚动窗口(Tumbling Window)、滑动窗口(Sliding Window)和会话窗口(Session Window)。7. Flink中的状态后端(State Backend)是什么?​状态后端是Flink用于保存和管理应用程序状态的机制。它可以存储状态到内存、文件系统或分布式存储系统(如HDFS)中。8. Flink的水印(Watermark)是什么?​水印是用于表示事件时间进度的标记。它通常与数据流中的时间戳一起使用,用于处理乱序事件和延迟数据。9. Flink的时间窗口触发器(Trigger)是什么?​时间窗口触发器用于控制何时触发计算窗口的输出。它可以基于元素数量、处理时间、水印等条件进行触发。​... 完整版见:原文链接:https://blog.csdn.net/qq_30757161/article/details/137459710#数据开发##金三银四,你有感觉到吗##大数据#
点赞 评论 收藏
转发
/feed/main/detail/0b6bdee3f8a749989ef6e41f0060c765
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

牛客网
牛客企业服务