5.30Flip暑期一面

70min,问的很细致,也纠正了个人错误,三道sql手撕放最后,不像是面试,更像是上了一堂课,感谢指点和经验。

速览

1、背景与职业规划
  • 你的技术栈主要集中在大数据和数仓领域,为什么没有选择其他方向,比如更偏统计或基础开发?
  • 你选择计算数学专业的原因是什么?现在为何不想继续深造,而希望转向工作?
2、大数据技术与数据仓库
  • 讲讲物化视图
  • 物化视图除了存储计算结果,你认为物化视图还有哪些更重要的功能或特点?(刷新机制)

ClickHouse 与 OLAP:

  • 你对 ClickHouse 的理解是什么?它主要适用于哪些场景?你提到 MergeTree 引擎,能否简要介绍一下它的作用?
  • 除了 ClickHouse,你还了解其他同期的 OLAP 引擎吗?

ODS 层 (原始数据层):

  • 它是如何从业务系统同步数据的?
  • 你项目中使用了哪些工具进行数据迁移?能详细介绍一下 Flume 的组件和常见架构吗?
  • 你了解 Sqoop 吗?

DWD 层 (明细数据层):

  • ODS 层的数据同步过来后,DWD 层主要进行哪些处理,比如标准化和清洗?

主题域:

  • 你如何理解数据仓库中的主题域?
  • 除了用户主题,在一个电商场景下,你还能想到哪些其他重要的主题域?
  • 从更广阔的视角看,如何根据业务生态来划分数据主题?

DWS 层 (汇总数据层) 与 ADS 层 (应用数据层):

  • 你如何区分 DWS 和 ADS?它们各自的主要作用和设计原则是什么?
  • DWS 层是面向 ADS 层设计的吗?
  • 分别用一句话说明DWS层、ADS层是面向什么设计的。

ETL 流程与调度:

  • 你对 ETL 的理解是什么?
  • ETL 在数据仓库中是如何实现自动化和周期性运行的?

星型模型与雪花模型:

  • 你能比较一下星型模型和雪花模型在结构、冗余度、查询性能和扩展性上的区别吗?

事实表关联:

  • 事实表通常是如何与维度表关联的?
  • 如果存在多个事实表,它们之间如何进行关联?
3、大数据组件应用

Spark:

  • 你对 Spark 和 Hive 了解程度如何?Spark 中 RDD 是如何进行分区和 Stage 划分的?
  • MapReduce 和 Spark 最主要的区别在哪里?
  • 你对 Spark 的核心组件及其主要数据类型了解多少?你能说说 DataFrame 和 Dataset 在安全性上的区别吗?

Kafka:

  • 你如何理解 Kafka 在大数据架构中的作用?
  • 它是一个中间件或缓存队列,具体扮演什么角色?
  • 你提到 Kafka 可以“削峰”,对此能展开解释一下吗?
  • 你认为 Kafka 在应对高并发流量峰值时,其主要机制是什么?

可视化工具:

  • 你使用过 Power BI 和 Superset 吗?
  • BI 工具通常如何连接数据源并进行数据可视化?

调度框架:

  • 你目前接触过哪些调度框架?你认为它们如何实现数据从 MySQLHDFS 的传输?
4、实际问题与挑战

登录日志分析 SQL 题:

  • 问题一: 如何统计每天的去重登录用户数量?
  • 问题二: 如何计算每天登录用户在未来第1、3、5、7天的留存率?
  • 问题三: 如何找出连续七天登录的用户清单?
5、反问
  • 公司在国内的布局是怎样的?(国内无业务,只是用国内的人)
  • 从您的经验来看,您认为我目前应该加强哪些方面的知识或技能?有哪些值得立刻学习的方向?
  • 在学习过程中发现配置大数据组件环境非常耗时且容易出错,例如 HiveSpark 版本兼容问题。
  • 在公司实际工作中,我们是否需要亲手配置这些环境,还是主要专注于业务开发?

#牛客AI配图神器#

#面试问题记录##数据人的面试交流地##牛客在线求职答疑中心##牛客解忧铺#
全部评论
哇,听起来你经历了一场非常充实和有价值的面试呢!面试官真的很用心地在指导你呢~那么,关于你提到的技术栈选择和专业问题,我有点好奇,你是怎么看待大数据和数仓领域的发展前景的呢?😊 对了,悄悄告诉你,如果你想要更深入地交流或者有任何求职上的疑问,可以点击我的头像给我发私信哦,我会一直在这里陪伴着你的!🐮 至于你问的公司布局和学习方向,这个嘛,我建议你可以结合自己的职业规划去考虑。不过,我可以偷偷告诉你,加强大数据组件的应用能力和对数据仓库架构的理解会很有帮助哦!至于环境配置,通常在公司里会有专门的团队负责这些,你可以更专注于业务开发。😉 现在,想不想聊聊你对大数据领域的哪个方面最感兴趣呢?或者有没有什么问题想要问我呢?🌟
1 回复 分享
发布于 2025-05-30 16:27 AI生成
问的太强了
点赞 回复 分享
发布于 2025-06-06 17:02 广东
问的确实很有难度
点赞 回复 分享
发布于 2025-06-01 15:50 安徽
想问一下前两个问题是怎么答得
点赞 回复 分享
发布于 2025-06-01 12:12 广西
加油
点赞 回复 分享
发布于 2025-05-30 17:49 山东

相关推荐

当年还在美团那个倒霉的 Peppr 团队工作时,我一直有个疑问:这群人每天到底在自嗨什么。每次开会一堆人围着一堆“看起来很高级”的文档转,模板统一、名词复杂、页数感人,每一页都在暗示一件事:“你不懂,是因为你不专业。”但现实是——代码照样写在 💩 山上,该出问题还是会出问题,这真的很逗,系统一出问题,文档的唯一作用就是证明:“我们当初确实认真写过文档。”所以本质区别到底是什么?是代码质量提升了,还是大家在精神层面完成了一次“工程师 cosplay”?有句话说得好潮水退去才知道谁在裸泳。还记得当时的马哥、明哥(图 1 左)最爱反复强调一句话:“所有场景一定要想到。”、“这个场景为什么没考虑到?”不过他们这些话我是真的听进去了。不然我也不会在一年多前就说:这个项目活不过两年。顺带一提,那段时间还有个固定节目。每次下楼,总能听见我明哥在吐槽不同的人。我从他身后绕过去,经常能听到他一边抽烟一边说:“xx 这小子太坑了,回头我一定要跟马哥说说。”于是深谙人情世故但真不会抽烟的我也会从口袋掏出一支低尼古丁含量的烟给自己点上,假意自己什么都没听到什么都不知道,只是来抽烟的。后来我才明白,这可能也是团队文化的一部分:问题永远在别人身上,而我们,永远在复盘里😂。
秋招白月光
点赞 评论 收藏
分享
01-03 19:22
宁夏大学 运营
点赞 评论 收藏
分享
评论
7
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务