米塔碳大数据开发面试经验 第1弹!!!

米塔碳的大数据开发面试其实总共分为两轮,其中都涉及到一些专业问题,在此我将拆分梳理为两篇文章,以便大家能更加深入地了解该公司的提问喜好和相关招聘要求!(以上仅为本人个人经历和回答思路,供大家参考~)

面试重点问题盘点

1.项目经验和技术栈(ps:面试官蛮关注项目经历的!) 。例如:

  • 你在项目中的具体角色是什么?
  • 遇到的技术难点是什么?
  • 是否有印象深刻的技术问题?比如日志延迟问题的处理、建模思路等。

-回答:针对项目的技术难点,我主要描述了如何优化数据清洗流程,以及如何利用分布式计算工具解决性能瓶颈,同时可以用调侃的语气提一下具体的工作选择和踩过哪些坑

2.数仓建模及优化思路,具体包括:

  • 如何设计DWD建模? 面试官喜欢追问统计周期、粒度的选取依据。
  • 历史累计指标的计算如何优化? 例如,分桶解决数据倾斜或构建历史快照事实表。

-回答:针对建模问题,我解释了如何根据业务需求选择粒度,比如日粒度和小时粒度的取舍,并通过实际案例阐述如何设计事实表和维度表。

3.Flink 相关问题,例如:

  • oFlink 中常用算子有哪些? 包括 map、flatMap、keyBy、reduce 等。

-回答:我列举了算子的使用场景,并结合具体的实时统计场景说明如何用 keyBy 和 window 进行聚合。

  • Watermark 和 Checkpoint 的原理? 面试官喜欢挖掘你对容错机制的理解。

-回答:这块我讲了下 Watermark 的延迟机制,以及如何通过 Checkpoint 实现故障恢复,并补充了在项目中调整 Checkpoint 间隔的经验。

  • 并行度、TaskManager、Slot 之间的关系。

-回答:这里我举了个现实中的具体例子哈~ 通过一个简单的类比(餐厅的桌子和服务员),解释了三者的关系以及如何调优。

  • 背压问题:如何通过 Web UI 定位背压点,并优化算子链或增加并行度。

-回答:我主要讲了一下如何通过观察 Web UI 的延迟指标定位问题,并结合具体场景调整并行度和算子链。

  • 流读 Hudi 的最佳实践:选择 MOR 表类型,通过 PrecombineField 优化增量读取。

-回答:可以说一下通过设置合理的 PrecombineField 来减少重复数据,以及 MOR 表在增量读取中的优势。

还有一些问题和回答,下一弹再整理出来~脑子转不动了hh

#大数据开发##你还有多少年退休?##牛客创作赏金赛##你今年的保底offer是哪家##米塔碳#
全部评论
请问多少薪呀
点赞 回复 分享
发布于 02-25 13:46 上海

相关推荐

1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
04-08 20:18
已编辑
苏州大学 数据仓库
点赞 评论 收藏
分享
评论
5
13
分享

创作者周榜

更多
牛客网
牛客企业服务