一面(4-7):--大数据相关内容-- 拷打用SparkSQL迭代计算的合作项目(常规问题:如你负责哪一部分,做什么内容,难点是什么,价值点在哪里) Spark和MR区别 Spark宽窄依赖,DAG流程图 Spark和Hive对数据倾斜的处理 Hadoop指的是什么(狭义,广义上来答) 你还用过哪些大数据组件(sqoop,presto,zookeeper) sqoop用来做什么 presto和Spark的区别是什么 zookeeper干什么用(高可用,不过我只知道理论基础,这一块实操我不负责) 维度建模和范式建模的区别(面向分析和面向事务,一个为了分析可以接受冗余,另一个则尽量拆分表直到没有冗余) --之后就偏离大数据,侧重于基础知识的考察-- 数据库的索引(不会,g) 数据库设计一个图书管理系统,用范式建模理论,要有哪些表和字段(很久之前的课设,所以答得很一般) http和https(久远的知识,只答了一个后者比前者更安全) tcp三次握手(有点印象,草草讲了一下) tcp和udp区别(大二学的,忘完了,g) 数组和链表(简单讲了一下存储地址与增删改查的时间复杂度)--算法-- 二分查找(ez) --sql-- 1.统计每个用户每天每种支付方式的总金额(没有数据,只有字段,愣了一下之后解决了) user_id pay_method(有两种支付方式) date count 2.连续三天登录(sql中经典的难题,但做法死板,多做几遍就会了)--面试官解释-- 实习侧重综合能力,所以问了很多大数据之外的内容,这点和秋招有一定差别二面(4-9):--大数据相关内容-- 拷打数仓构建的学习项目 数据仓库为什么分层 数据仓库怎么分层(结合项目讲) 数据仓库分层后每一层的作用(结合项目讲) 缓慢渐变维怎么处理(SCD1,SCD2,SCD3) SCD2好处,弊端(保留历史数据的同时更新数据,数据冗余比较多(但面试官一直追问还有吗....榨不出来了啊)) 拉链表具体怎么做,end_date有什么用 hql怎么翻译成MR程序的(偷面经背了一下) MR流程详解(看过好多版本的MR流程,挑了一个背了) select ... from t1 join t2 group by ... 这个SQL执行,要运行几个MR(不会,跟面试官说是两个) 如果用了map join,上面的SQL运行几个MR(不会,跟面试官说是一个(因为mapjoin不用shuffle)) (这个问题后来研究应该都是跑两个MR,但是mapjoin实践检验太麻烦了,就没深究了)--其余知识-- 现在我们正在进行的视频通话,用到哪些网络传输协议(一面结束把tcp和udp区别背了一下,于是乎答了个udp) 大学期间还学了那些课(就怕说漏嘴了后考我陈年老课) 读过哪些大数据相关书籍(大数据之路,还有一些阿里开发的规范文档)--算法-- 大数相加(输入是很长的数字字符串) --sql-- 统计每天城市消费占比前十的用户和他们消费占区域总消费的多少(猪脑过载,逆天了) 用户表: user_id city_id date product_id count 区域表 city_id area_namehr面(4-14): --常规问题-- 为什么放弃深造 你对在北京工作的看法 职业规划 你给你前两轮面试打几分,为什么 你为面试字节做了什么准备 你对我们部门了解多少 没有工作经验,怎么适应公司业务 工作后你要怎么尽快适应环境oc(4-17)--------------------------------------面经到此为止,后面是一些求职感想----------------------------------------------------历程--求职本就是一个运气和实力交织的过程,这次面试凭借自身发挥和一定运气拿下offer了,但3-4月背后也有很多失败腾讯面五挂四(传奇耐挂王) 京东面二挂二 百度挂 美团挂 快手挂 字节hr面挂(挂了之后复活赛打赢了)阿里系(阿里云,携程,陶天,饿了么等)万兴,360 ... 笔试就挂了...往好的方向想,做最坏的打算。该干嘛干嘛就可以了,太注重失败就没心思学习了(而且很多kpi面没必要内耗)。希望每个人都可以得到心仪的工作,希望努力的人都有光明的未来