蔚来_数开实习_一面&二面

一面:
- 飞书,没开摄像头

## 项目

- 重点了解一下这个离线数仓项目,你可以展开说一下吗?
  - 背景,意义,人员组成,整个数据流动过程,我的职责
- 你这边主要做的工作内容可以展开讲讲一下吗?
  - 我这边主要的工作内容就是针对这个xx主题的两个指标进行拆解和计算。
- 它是怎么计算的,可以说明一下吗?
  - 我理解其实这两个指标应该都还是有一个**时间维度**
  - 你们时间维度又具体是怎么设计的?是天还是周还是月,各种还是各种都有。
- 那你这边再具体做了一些数据开发的工作,你可以说一下吗?就比如说你做了哪些表,以及是什么来支撑这个指标的计算的。
  - **DWS表的粒度到底是用户粒度还是用户登录行为粒度?**
- 就是你自己写Spark或者你自己研究Spark这里面,比如说你有没有遇到过一些比较难的问题,以及是怎么解决。
  - 数据倾斜问题
  - **那你就这个优化前后它的一个对比的指标是什么样。那它运行速度有变化吗?**

场景sql题:

- 假设我有一兆的一张表,那学生的成绩表,他有学生ID课程ID以及分数。然后我想计算每一门课程分数前三的学生,把这样的一个信息给拿出来。怎么做呢?
  - rank() over(partition by c_id order by score)

---
二面:
- 飞书,开摄像头

## 项目

- 介绍项目场景、全流程、个人职责
- 最终产生的业务价值是什么呢?
- 数据出来之后,会你的使用方是谁呢?就是会谁来用这份数据来做什么事
- 实时这边有接触吗?
  - flink的基本的原理有看过吗?就比如说为什么flink它它适合做什么样的事情,它能解决什么问题?
  - 他这里背后的整个技术链会有哪些呢?就是比如说实时数据处理里面
- Spark这个task stage和job他们是什么关系?
  - 我们可以调整它的task的个数吗?
- SparkSQL写得多吗
- HiveSQL和SparkSQL逻辑上有什么不一样的?
- 成长的规划,你大概是怎么设想的?技术上的
- 像那个其实因为现在你接触实时的比较少,那后面在业务上如果有有的有这个诉求对吧?然后你准备怎么弥补这些短板?
  - 比如说我们既有工作任务,又要学习你这个你觉得自己的抗压的能力够吗?
全部评论
佬,可以问一下base哪里嘛?
点赞 回复 分享
发布于 05-30 16:15 上海
我面经好多都是总结佬的
点赞 回复 分享
发布于 03-15 09:38 安徽
感觉问的挺温和的
点赞 回复 分享
发布于 03-14 20:17 天津

相关推荐

6.20一面自我介绍,项目拷打,数据倾斜的发现,以及如何做的,计算过哪些指标,场景题:计算2024-01-01至今商品的点击率,为了计算该指标,dwd层和dws层该如何构建sql题:将连续的时间展开user_id,s_date,e_date,输出user_id  date_time,求三日内留存率与三日留存率耗时40分钟6.23二面,自我介绍,项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,sql:连续登陆领金币问题,直播间峰值做完题又随便聊了聊,耗时40分钟6.26 加面三面,被面试官狠狠拷打,先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,两个小表之间join,产生数据倾斜你有什么好办法,然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。在问spark对比hadoop好在那里,一不小心答到了sparkAQE,在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,并且 combineByKey需要传入几个参数,然后spark 火焰图了解吗?count(distinct user_id) 用spark 怎么写,一道sql题,编程题看我没有刷过力扣直接没出,面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。耗时80分钟oc
查看19道真题和解析
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务