米塔碳大数据开发岗位面试经验分享 第2弹!!!

基于上一期的问题我再进行一些补充

4.Kafka 高性能原理

  • 为什么 Kafka 速度快? 答案通常涉及顺序读写、零拷贝、页缓存等。

-回答: 用直观语言说明 Kafka 的顺序写特性,以及操作系统页缓存对性能的提升作用。

  • 削峰和解耦的具体实现?

-回答:用自己的话讲一下如何通过调整生产者的 batch.size 和 linger.ms 来削峰,以及如何通过消费者组实现解耦。

5.Hudi 与数据湖

  • Hudi 表的类型有哪些?MOR 和 COW 的特点是什么?

-回答:讲一下MOR和COW是什么/有什么区别。前者适合读取频繁的场景,而后者更适合写入密集的场景。

  • 是否遇到过小文件问题,如何解决? 比如,HAR 归档或动态分区合并文件。

-回答:我这主要是说Compaction 策略来合并小文件。

6.常见的大数据工具及同步流程

  • 数据同步工具:DataX、Maxwell、CDC 的使用场景。

-回答:优缺点+使用场景。这不用多说了哈~按照这种结构就好

  • 数据治理:小文件合并、无用表清理。

-回答:提到通过定期调度脚本清理小文件,以及使用 Hive 元数据清理工具保持仓库整洁。

总的来说米塔碳这次面试让我深刻意识到技术栈的重要性。像 Flink、Kafka、Hudi 这些工具是当下大数据开发的核心,熟悉它们的原理和实际应用可以让你脱颖而出。同时,数仓建模和数据治理是基础中的基础,任何想从事大数据开发的人都要扎实掌握!回答问题时也要结合实际经验,更有说服力。

ps:面试官很有趣哈~话很有梗但也非常专业,我有些缺失的点他最后都会给我讲明白,蛮好的!

#程序员##面试时最害怕被问到的问题##大数据##米塔碳#
全部评论

相关推荐

1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
评论
2
8
分享

创作者周榜

更多
牛客网
牛客企业服务