米哈游数开秋招凉经

一面
1.自我介绍
2. 最常耗时的一个SQL,怎么定位这个问题,包括怎么去做的优化。
3. 有考虑过索引的优化吗?
4. 同学在跑SQL的时候有没有explain这个SQL去看一下它的执行计划呢?
5. 假如explain发现SQL执行计划没有错乱、没有不合理的情况,但实际上跑的还是很慢,同学有考虑过这是为什么吗?
6. 同学怎么去判断到底是资源不足导致的慢,还是数据倾斜导致的慢呢?
7. 能不能从Spark SQL的内部角度谈一下,一个SQL怎么从字符串变成最后可执行的task的?
8. join的优化会影响在哪一层上吗?比方说a join b改成b join a,实际影响的是哪一层的执行计划
9. 怎么去判断一个Spark任务是否存在倾斜
10. 除了Spark UI,根据业务判断,可不可以从SQL特征上判断出数据倾斜呢?
11. group by数据倾斜
12. join的倾斜是怎么处理的,聚合的倾斜是怎么处理的。
13. 加盐的话会有什么副作用吗?
14. 加完盐之后能一次得到结果吗?
15. 如果倾斜的key占到整个数据的大概70%,用broadcast的方式不行,同学会考虑怎么办呢?
16. 在Spark内部,broadcast之后是怎么实现的?广播的数据存在哪儿?使用的是什么数据结构呢?
17. 同学有了解过broadcast这张表过大的话,Spark会怎么去控制这个情况发生吗?
18. 如果broadcast的阈值设置不合理,比方说设成了1G,会有什么情况发生呢?
19. driver会因为broadcast表过大而发生OOM吗?
20. orc相比text file,在执行层面会快在哪?为什么要用orc而不用text file,优势在于哪?
21. 除了压缩、列式存储,orc文件的结构有什么特征吗?
22. orc与parquet优势在哪,缺点在哪?
。。。。。。实习相关内容
36. 有一张员工表,字段是员工ID和薪资,希望通过SQL找到里面第二高的工资是多少?不用窗口函数该怎么实现呢?
37. 同学有了解过Java的内存模型吗?
38. 同学有了解过Java的hashCode和equals之间的关系吗?
39. 同学有了解过Java的类加载器的相关内容吗?比方说分为几种类加载器,加载顺序是什么样的?
40. 同学对垃圾回收机制有了解过吗?有了解过CMS和G1吗?
41. CMS的缺点是什么呢?为什么它扫描时间会很久呢?CMS不是并发的吗?
42. 同学常用的OLAP引擎是什么?
43. 同学有了解过Doris的tablet是什么吗?
44. Doris的分区和分桶有什么区别吗?
45. 分区和分桶各有什么好处呢?
46. 同学有了解过实时相关的概念吗?了解过Kafka的topic和partition之间有什么关系吗?
47. Kafka里面的offset同学有了解过它是干什么用的吗?offset是全局的还是分区内的?
48. 有一个场景:MySQL里有一张20亿数据的表,不使用任何数据同步组件(比如canal、maxwell、flink cdc等),怎么把数据从MySQL迁移到Hive或者Doris里面?
49. 在读取MySQL数据做分批迁移的时候,怎么分片读呢?比方说表里面有一个时间字段,该怎么利用?
编程题:二叉搜索树转化为双端链表

二面
1.自我介绍
2.实习介绍
3.数据治理怎么做的

SQL题:
已知数仓表 t 的结构包含:
uid(int)
vid(string)
start_time(yyyy-mm-dd hh:ll:ss)
end_time(yyyy-mm-dd hh:ll:ss)
dt(分区字段)
hour(分区字段)

数据样例:
uid=100043435,
vid=f1ewmkflgkl2ds,
start_time=2025-12-24 18:06:18,
end_time=2025-12-24 18:17:25,
dt=2025-12-24,
hour=18。

求出一天内每5分钟的视频播放量top10
最终结果
start_time    end_time    top10
00:00            00:05        ....
00:05            00:10        ....
.....

4.java抽象类和接口的区别
5.什么情况用抽象类什么情况用接口
5.java 中lock和synchronized的区别
6.编程题:实现一个滑动窗口数据结构,支持实时评算窗口内的最大值、最小值和平均值。
    第二问:求最大值、最小值不用数据结构、排序、组内遍历,还有别的实现方式吗

一面问麻了
二面炸缸了
#数据人offer决赛圈怎么选# #26届校招投递进展# #数据开发面经#
全部评论
wdf八股盛宴
点赞 回复 分享
发布于 03-03 23:55 湖北
问的可真多啊,感觉有戏进去啊
点赞 回复 分享
发布于 02-05 23:29 北京
wdf一面问这么多的吗
点赞 回复 分享
发布于 01-28 15:56 浙江
一面问这么多八股
点赞 回复 分享
发布于 2025-12-29 09:02 北京

相关推荐

04-23 23:36
已编辑
海南大学 Java
目前楼主在一个地方国企实习。作为唯一的技术部实习生所以啥都干一点,前端代码、后端代码、监控运维部署,甚至是去机房调个简单的 linux 网络 IP 配置或者重装个系统的小事。最近在搞数据中台中数据服务层的源码排查和接口对接。无聊的时候压测了一下发现这个开源的框架里面里面有不少坑和优化空间,对运行时分析看到了很多有意思的情况。现在平时没事就改一改,和组长说了他也给我放权限开分支,这样之后简历上也好多写一点。技术栈主要是 java。虽然几位领导的私下沟通都有留用意向,但是楼主感觉地方还是太小了,上升空间也很有限,还是希望去大城市就业。最好是回长三角那里,越长大越想离家近了,而且难免会感觉有些孤军奋战。秋招的目标应该主要是基础平台建设开发 java 方向的中厂。之前学习使用 k8s 部署编排分布式集群,虽然做了一些有趣的小实验和存储设计,比如有状态的 hadoop 集群什么的,后续再做进一步的测试,因为这种就是数据一致性的一个很好的实验验证环境,会有很多新奇的特质。我最初是想做运维开发的,那些是我最初的热情所在,但后来觉得运维开发还是比较难走,而且吃经验,所以还是钻进了一个比较精细的模块,也就是 java。因为要实习到 6 月份,所以暑期实习就没有办法投递了,在想直接冲 8 月到 9 月的正式批,不确定这个时间节点够不够……因为已经坚定不打算考研了所以感觉有点鸭梨山大……又是一个思虑纷纷的晚上,也许直到尘埃落定之前仍然要经历这样的很多个夜晚,不过最近也感觉确实进步非常大,很多以为没用的八股在实际排查中也很有用,每天在能力边界和认知框架中不断做着一次次探底和拓宽,痛并快乐着。
我的求职进度条
点赞 评论 收藏
分享
📍面试公司:邦盛科技🕐面试时间:2026.4.15💻面试岗位:java开发工程师❓面试问题:首先是经典的自我介绍,然后面试官针对我的简历询问,包括项目包括实习。有观察过项目中的fullgc情况吗,fullgc如何解决,jmap可以用来干什么aop在项目中有什么应用,bean的声明周期在项目中有用到吗一个亿的冷热数据,如何做到冷热分离?线程池的参数如何设计,如果是秒杀系统的话最后面试官问我有没有什么想问的,我问了两个问题:1. 公司Java开发岗位的核心技术栈和日常工作内容;2. 公司对新员工的技术培训和晋升路径。面试官耐心解答,说核心技术栈是SpringBoot、SpringCloud、Redis、Kafka、Flink(贴合邦盛的实时数据处理业务),日常工作主要是接口开发、数据处理、风控模型落地,新员工有一对一导师带教,定期有技术分享会,晋升路径分技术和管理两条线,看个人发展意愿。🙌面试感想:八股问的比较少,很多设计场景题,能看出面试官水平很高,问的问题都很有针对性,不绕弯子,全程围绕“项目落地”和“场景解决能力”,没有考察偏题、怪题。面试官很专业,会根据我的回答进一步追问,引导我思考更优的方案,整个面试过程更像是技术交流,而不是单纯的“拷问”。自己的表现中规中矩,大部分问题都能结合项目实际回答,但在冷热数据分离和线程池参数设计的细节上,还有提升空间,比如没有考虑到冷数据存储的压缩优化,以及秒杀系统中线程池的动态调整方案。
查看6道真题和解析
点赞 评论 收藏
分享
评论
2
19
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务