抖音大数据开发一面
来自同事的数开面经,速速发出来供大家参考
- 自我介绍
- 了解实习经历
- 针对实习项目,问数据层次怎么分层
- 数据分层的作用
- 针对具体实习项目,说明业务逻辑
- 说明实习项目的“订单量”这个指标从源头到产出的ETL过程
- 针对实习项目,复盘后最大的难点是什么
- 复盘之后有什么收获
- 你刚才说复盘收获是处理小文件,那么spark怎么处理小文件的?
- 处理小文件有哪些方法,举例子
- hive冷热分离的方法
- 你刚才提到了组里有做ec存储,你了解ec存储吗
- 暑期实习有什么感受,转正了吗 15分钟
- 了解spark的semi join吗,他是干嘛的
- 了解spark的AQE,这是什么
- 你刚才讲AQE提到了广播机制,这个在spark中很重要,讲讲广播过程呢
- 了解网络吗?讲讲三次握手和四次握手区别。
- 了解数据结构吗?讲讲O(nlog n)的不稳定排序算法。 两个编程题: Q1.求开方:给定num=5.79,error=1e-8,求x使得abs(x^2-num)<error
- 先讲讲思路吧,有什么思路:二分O(log n)
- 刚开始没做出来,面试官提示了下细节
- 后面二分法做出来了,面试官说那如果num小于1有什么变化呢
- 面试官问还有什么方法吗:牛顿下山法
- 公式写上去,但是面试官不关心公式,关心原理:会无限逼近
- 如果是三次方四次方,牛顿下山怎么用呢,公式会变的 Q2.1TB的int类型数据怎么在512MB的虚拟机中求中位数
- 已经70分钟了,没时间了,没要求写代码,只要讲思路:外部排序,归并思想
- 面试官问还有什么方法吗:没想到了,但是后面搜了下有分布式排序,mapreduce排序等,估计想让我回答spark相关的,但是真不知道。