Shopee 大数据开发工程师 一面凉经

2025-08-16
1 vs. 1
一、常规的自我介绍
二、拷打项目
1、哪个项目比较有成就感
2、在项目中遇到的难点是什么,怎么解决的
3、项目中使用python进行开发的过程中,用使用什么计算引擎吗
4、项目中有没有使用Hadoop、Hive和Spark等大数据组件
5、作为整体负责人,你怎么进行任务分配?
三、八股盛宴
1、pg数据库也是一个关系型数据库,它是mysql的区别是什么?
2、数据库的三范式是什么?
3、为什么要设计三范式?
4、数据库都有索引,索引的作用是什么
5、mysql常用的计算引擎是什么
6、mysql的MVCC的作用是什么
7、什么时候会做反范式的设计
8、Linux的基本操作命令
9、Hive和spark是什么
10、HDFS的核心组成是什么
11、HDFS怎么实现高可用
12、HDFS写数据的流程是什么
13、HDFS的命令了解吗
14、数据仓库的概念了解吗
15、spark的job、stage和task的概念了解吗
四、手撕
1、SQL:窗口函数
2、力扣:接雨水

挂了,甚至没有一封感谢信
#发面经攒人品#
全部评论
mark一下
点赞 回复 分享
发布于 09-09 13:41 北京

相关推荐

09-09 20:08
产品经理
📍 公司:虾皮(Shopee)💼 岗位:大数据开发工程师📅 面试时间线:7.30 一面8.4 二面8.8 收到感谢信(未通过)面试问题记录请介绍你实习中负责的数仓数据流向及核心业务场景。详细说明一个具体业务模块,包括所用技术栈与上下游用户。针对问题2中的业务,如何处理并发场景下的“不可重复读”问题?大数据技术栈掌握情况?重点提问 Spark 的使用经验。如何优化实际 Spark 任务?请举例(如数据倾斜、Shuffle 优化)。描述快速排序算法的基本思想(穿插在数据倾斜优化中考察基础)。是否遇到过数据写错的情况?若数仓数据写入 Kafka 错误,如何修复?➤ 进一步追问:HDFS 数据已错,但 Kafka → 业务表已生效,如何保证一致性与服务可用性?若需从某个 Kafka Topic 消费数据并入库数仓,你会如何设计流程?(开放性问题)🙌 面试感悟虽为实习经历深挖,但问题贴近真实生产场景,尤其关注高可用、数据一致性、容错与恢复机制;对数据链路的闭环理解要求较高,需清楚“从出错到修复”的全链路影响;建议提前准备:✅ 典型数据倾斜解决方案(如加盐、两阶段聚合)✅ Kafka 重放与幂等写入策略✅ 数仓分层中各层容灾与回溯能力设计📌 C端业务对数据质量与系统稳定性要求高,面试更倾向考察“出问题后怎么办”的应急思维。
查看9道真题和解析
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
5
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务