首页 / 数据开发面经
#

数据开发面经

#
19864次浏览 174人互动
此刻你想和大家分享什么
热门 最新
蔚来一面面经
数据开发岗 秋招第一个面试,被狠狠拷打了1.spark和flink有哪些共性和区别2.你说到flink是一条数据一条数据的处理,那我们要对以前数据做聚合会怎么处理(状态机制)3.状态怎么进行恢复和使用(checkpoint机制,下游二阶段提交)4.为什么会有二阶段提交5.了解过二阶段提交机制怎么实现吗6.两阶段提交是保证卡夫卡提交和checkpoint机制同时完成,怎么去保证这个事情,状态保存在哪里7.flink针对kafka是怎么去传递两阶段结果的8.对spark有哪些自己的理解9.spark为什么能处理大规模数据集(高并发)10.多台机器处理,内存是比较宝贵的,数据过大,内存放不下怎么处理(写盘)11.spark当中结点分为那些类型12.大规模数据集,不断落盘,是写到同一个磁盘文件还是多个磁盘文件13.spark中间会一直生成小文件,如何处理14.什么是OOM,什么时候会出现OOM15.怎么去定位OOM出现在哪16. jvm, 内存模型17.spark SQL怎么执行(任务调度)18.底层资源调度是什么资源19.程序运行,内存放的什么东西,怎么管理内存,内存分配20. MySQL执行引擎21.什么是聚簇索引22.为什么要回表,什么样的操作会回表23.介绍什么是b+树24.知道平衡二叉树吗,什么是二叉树25.精准一次语义,kafka中有那些语义26.java这一块熟悉哪些内容,对java这块实现数据结构了解那些27.hashmap底层怎么实现,怎么去实现不可重复的,如果重复了怎么处理。hashcode和equals方法有什么区别和联系,如何判断是否和现有的key相同28.线程安全问题,什么是线程安全29.主要课程包括哪些30.大模型这块,transform架构了解过吗,用来做什么31.SQL题,求班级TOP5学生信息32.SQL锁机制,多个用户同时去写一条数据33.锁机制和事物区别34.什么是悲观锁什么是乐观锁35.乐观锁怎么实现36.进程和线程有什么区别,怎么去调度线程/进程运行,了解过协程吗37.一个进程中包含哪些部分,哪些数据38.讲一下堆和栈,栈有哪些应用反问后续,9.26约二面
脾气小祖宗:感觉蔚来出结果好慢啊。一面自我感觉很好,面试官也给予肯定,但是10天了都没后文。
点赞 评论 收藏
分享
2025-12-28 14:46
已编辑
门头沟学院 大数据开发工程师
米哈游数开秋招凉经
一面 1.自我介绍2. 最常耗时的一个SQL,怎么定位这个问题,包括怎么去做的优化。3. 有考虑过索引的优化吗?4. 同学在跑SQL的时候有没有explain这个SQL去看一下它的执行计划呢?5. 假如explain发现SQL执行计划没有错乱、没有不合理的情况,但实际上跑的还是很慢,同学有考虑过这是为什么吗?6. 同学怎么去判断到底是资源不足导致的慢,还是数据倾斜导致的慢呢?7. 能不能从Spark SQL的内部角度谈一下,一个SQL怎么从字符串变成最后可执行的task的?8. join的优化会影响在哪一层上吗?比方说a join b改成b join a,实际影响的是哪一层的执行计划9. 怎么去判断一个Spark任务是否存在倾斜10. 除了Spark UI,根据业务判断,可不可以从SQL特征上判断出数据倾斜呢?11. group by数据倾斜12. join的倾斜是怎么处理的,聚合的倾斜是怎么处理的。13. 加盐的话会有什么副作用吗?14. 加完盐之后能一次得到结果吗?15. 如果倾斜的key占到整个数据的大概70%,用broadcast的方式不行,同学会考虑怎么办呢?16. 在Spark内部,broadcast之后是怎么实现的?广播的数据存在哪儿?使用的是什么数据结构呢?17. 同学有了解过broadcast这张表过大的话,Spark会怎么去控制这个情况发生吗?18. 如果broadcast的阈值设置不合理,比方说设成了1G,会有什么情况发生呢?19. driver会因为broadcast表过大而发生OOM吗?20. orc相比text file,在执行层面会快在哪?为什么要用orc而不用text file,优势在于哪?21. 除了压缩、列式存储,orc文件的结构有什么特征吗?22. orc与parquet优势在哪,缺点在哪?。。。。。。实习相关内容36. 有一张员工表,字段是员工ID和薪资,希望通过SQL找到里面第二高的工资是多少?不用窗口函数该怎么实现呢?37. 同学有了解过Java的内存模型吗?38. 同学有了解过Java的hashCode和equals之间的关系吗?39. 同学有了解过Java的类加载器的相关内容吗?比方说分为几种类加载器,加载顺序是什么样的?40. 同学对垃圾回收机制有了解过吗?有了解过CMS和G1吗?41. CMS的缺点是什么呢?为什么它扫描时间会很久呢?CMS不是并发的吗?42. 同学常用的OLAP引擎是什么?43. 同学有了解过Doris的tablet是什么吗?44. Doris的分区和分桶有什么区别吗?45. 分区和分桶各有什么好处呢?46. 同学有了解过实时相关的概念吗?了解过Kafka的topic和partition之间有什么关系吗?47. Kafka里面的offset同学有了解过它是干什么用的吗?offset是全局的还是分区内的?48. 有一个场景:MySQL里有一张20亿数据的表,不使用任何数据同步组件(比如canal、maxwell、flink cdc等),怎么把数据从MySQL迁移到Hive或者Doris里面?49. 在读取MySQL数据做分批迁移的时候,怎么分片读呢?比方说表里面有一个时间字段,该怎么利用?编程题:二叉搜索树转化为双端链表二面1.自我介绍2.实习介绍3.数据治理怎么做的SQL题:已知数仓表 t 的结构包含:uid(int)vid(string)start_time(yyyy-mm-dd hh:ll:ss)end_time(yyyy-mm-dd hh:ll:ss)dt(分区字段)hour(分区字段)数据样例:uid=100043435,vid=f1ewmkflgkl2ds,start_time=2025-12-24 18:06:18,end_time=2025-12-24 18:17:25,dt=2025-12-24,hour=18。求出一天内每5分钟的视频播放量top10最终结果start_time    end_time    top1000:00            00:05        ....00:05            00:10        .........4.java抽象类和接口的区别5.什么情况用抽象类什么情况用接口5.java 中lock和synchronized的区别6.编程题:实现一个滑动窗口数据结构,支持实时评算窗口内的最大值、最小值和平均值。第二问:求最大值、最小值不用数据结构、排序、组内遍历,还有别的实现方式吗一面问麻了二面炸缸了
投递米哈游等公司8个岗位
点赞 评论 收藏
分享
虾皮一面
数开岗,面的非常愉快一开始先介绍了面试流程1.自我介绍,挑实习经历讲一讲2.代码手撕3.八股考察4.QA环节直接介绍实习经历,没有自我介绍,讲了10分钟开始手撕。1.数据是真实数据吗2.来源系统是同一个系统吗了解了一下主要做的项目数据来源手撕:问了下比较熟的编程语言(java)连续子数组最大和多少知道虾皮是干嘛的吗SQL  求销量表,每个类别下售量TOP10的商品id排名连续怎么做衣服这一品类数据量特别多,导致数据倾斜怎么处理,只针对这一场景处理(二次聚合)给谁加随机值,怎么加,举例还有别的方法吗,只针对这个情景(压缩)你知道spark有做这件事吗(压缩)自己工作中会开这个配置吗spark和flink哪个比较熟,或者其他组件哪个学的好,可以自己挑个熟悉的来讲,还是随便挑个问1.flink状态后端知道哪些2.讲一下checkpoint是在干嘛3.如果状态后端是Rocksdb,checkpoint是怎么存的4.一个算子是怎么知道自己该做checkpoint5.从checkpoint恢复的时候,怎么做的6.一个算子,怎么知道恢复时应该读哪份文件7.看过checkpoint文件里面的结构吗8.有遇到过从checkpoint恢复时失败,是由于算子找不到从哪恢复的问题吗spark方面的问题1.executor, 他的内存分成几部分?堆内堆外内存区别为什么会有堆内堆外内存2.在shuffule的过程中,这几部分是否/如何参与其中3.节点0OM,我有哪些方法或者配置,去优化?最后反问总结,面试官全程态度超好,一直在说别着急,没问题,会有正反馈,体验最好的一次面试
查看29道真题和解析
点赞 评论 收藏
分享
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务