字节大数据开发暑期实习(已oc)
一面(4-7):
--大数据相关内容--
拷打用SparkSQL迭代计算的合作项目(常规问题:如你负责哪一部分,做什么内容,难点是什么,价值点在哪里)
Spark和MR区别
Spark宽窄依赖,DAG流程图
Spark和Hive对数据倾斜的处理
Hadoop指的是什么(狭义,广义上来答)
你还用过哪些大数据组件(sqoop,presto,zookeeper)
sqoop用来做什么
presto和Spark的区别是什么
zookeeper干什么用(高可用,不过我只知道理论基础,这一块实操我不负责)
维度建模和范式建模的区别(面向分析和面向事务,一个为了分析可以接受冗余,另一个则尽量拆分表直到没有冗余)
--之后就偏离大数据,侧重于基础知识的考察--
数据库的索引(不会,g)
数据库设计一个图书管理系统,用范式建模理论,要有哪些表和字段(很久之前的课设,所以答得很一般)
http和https(久远的知识,只答了一个后者比前者更安全)
tcp三次握手(有点印象,草草讲了一下)
tcp和udp区别(大二学的,忘完了,g)
数组和链表(简单讲了一下存储地址与增删改查的时间复杂度)
--算法--
二分查找(ez)
--sql--
1.统计每个用户每天每种支付方式的总金额(没有数据,只有字段,愣了一下之后解决了)
user_id pay_method(有两种支付方式) date count
2.连续三天登录(sql中经典的难题,但做法死板,多做几遍就会了)
--面试官解释--
实习侧重综合能力,所以问了很多大数据之外的内容,这点和秋招有一定差别
二面(4-9):
--大数据相关内容--
拷打数仓构建的学习项目
数据仓库为什么分层
数据仓库怎么分层(结合项目讲)
数据仓库分层后每一层的作用(结合项目讲)
缓慢渐变维怎么处理(SCD1,SCD2,SCD3)
SCD2好处,弊端(保留历史数据的同时更新数据,数据冗余比较多(但面试官一直追问还有吗....榨不出来了啊))
拉链表具体怎么做,end_date有什么用
hql怎么翻译成MR程序的(偷面经背了一下)
MR流程详解(看过好多版本的MR流程,挑了一个背了)
select ... from t1 join t2 group by ... 这个SQL执行,要运行几个MR(不会,跟面试官说是两个)
如果用了map join,上面的SQL运行几个MR(不会,跟面试官说是一个(因为mapjoin不用shuffle))
(这个问题后来研究应该都是跑两个MR,但是mapjoin实践检验太麻烦了,就没深究了)
--其余知识--
现在我们正在进行的视频通话,用到哪些网络传输协议(一面结束把tcp和udp区别背了一下,于是乎答了个udp)
大学期间还学了那些课(就怕说漏嘴了后考我陈年老课)
读过哪些大数据相关书籍(大数据之路,还有一些阿里开发的规范文档)
--算法--
大数相加(输入是很长的数字字符串)
--sql--
统计每天城市消费占比前十的用户和他们消费占区域总消费的多少(猪脑过载,逆天了)
用户表:
user_id city_id date product_id count
区域表
city_id area_name
hr面(4-14):
--常规问题--
为什么放弃深造
你对在北京工作的看法
职业规划
你给你前两轮面试打几分,为什么
你为面试字节做了什么准备
你对我们部门了解多少
没有工作经验,怎么适应公司业务
工作后你要怎么尽快适应环境
oc(4-17)
--------------------------------------面经到此为止,后面是一些求职感想--------------------------------------------------
--历程--
求职本就是一个运气和实力交织的过程,这次面试凭借自身发挥和一定运气拿下offer了,但3-4月背后也有很多失败
腾讯面五挂四(传奇耐挂王) 京东面二挂二 百度挂 美团挂 快手挂 字节hr面挂(挂了之后复活赛打赢了)
阿里系(阿里云,携程,陶天,饿了么等)万兴,360 ... 笔试就挂了...
往好的方向想,做最坏的打算。该干嘛干嘛就可以了,太注重失败就没心思学习了(而且很多kpi面没必要内耗)。
希望每个人都可以得到心仪的工作,希望努力的人都有光明的未来
--大数据相关内容--
拷打用SparkSQL迭代计算的合作项目(常规问题:如你负责哪一部分,做什么内容,难点是什么,价值点在哪里)
Spark和MR区别
Spark宽窄依赖,DAG流程图
Spark和Hive对数据倾斜的处理
Hadoop指的是什么(狭义,广义上来答)
你还用过哪些大数据组件(sqoop,presto,zookeeper)
sqoop用来做什么
presto和Spark的区别是什么
zookeeper干什么用(高可用,不过我只知道理论基础,这一块实操我不负责)
维度建模和范式建模的区别(面向分析和面向事务,一个为了分析可以接受冗余,另一个则尽量拆分表直到没有冗余)
--之后就偏离大数据,侧重于基础知识的考察--
数据库的索引(不会,g)
数据库设计一个图书管理系统,用范式建模理论,要有哪些表和字段(很久之前的课设,所以答得很一般)
http和https(久远的知识,只答了一个后者比前者更安全)
tcp三次握手(有点印象,草草讲了一下)
tcp和udp区别(大二学的,忘完了,g)
数组和链表(简单讲了一下存储地址与增删改查的时间复杂度)
--算法--
二分查找(ez)
--sql--
1.统计每个用户每天每种支付方式的总金额(没有数据,只有字段,愣了一下之后解决了)
user_id pay_method(有两种支付方式) date count
2.连续三天登录(sql中经典的难题,但做法死板,多做几遍就会了)
--面试官解释--
实习侧重综合能力,所以问了很多大数据之外的内容,这点和秋招有一定差别
二面(4-9):
--大数据相关内容--
拷打数仓构建的学习项目
数据仓库为什么分层
数据仓库怎么分层(结合项目讲)
数据仓库分层后每一层的作用(结合项目讲)
缓慢渐变维怎么处理(SCD1,SCD2,SCD3)
SCD2好处,弊端(保留历史数据的同时更新数据,数据冗余比较多(但面试官一直追问还有吗....榨不出来了啊))
拉链表具体怎么做,end_date有什么用
hql怎么翻译成MR程序的(偷面经背了一下)
MR流程详解(看过好多版本的MR流程,挑了一个背了)
select ... from t1 join t2 group by ... 这个SQL执行,要运行几个MR(不会,跟面试官说是两个)
如果用了map join,上面的SQL运行几个MR(不会,跟面试官说是一个(因为mapjoin不用shuffle))
(这个问题后来研究应该都是跑两个MR,但是mapjoin实践检验太麻烦了,就没深究了)
--其余知识--
现在我们正在进行的视频通话,用到哪些网络传输协议(一面结束把tcp和udp区别背了一下,于是乎答了个udp)
大学期间还学了那些课(就怕说漏嘴了后考我陈年老课)
读过哪些大数据相关书籍(大数据之路,还有一些阿里开发的规范文档)
--算法--
大数相加(输入是很长的数字字符串)
--sql--
统计每天城市消费占比前十的用户和他们消费占区域总消费的多少(猪脑过载,逆天了)
用户表:
user_id city_id date product_id count
区域表
city_id area_name
hr面(4-14):
--常规问题--
为什么放弃深造
你对在北京工作的看法
职业规划
你给你前两轮面试打几分,为什么
你为面试字节做了什么准备
你对我们部门了解多少
没有工作经验,怎么适应公司业务
工作后你要怎么尽快适应环境
oc(4-17)
--------------------------------------面经到此为止,后面是一些求职感想--------------------------------------------------
--历程--
求职本就是一个运气和实力交织的过程,这次面试凭借自身发挥和一定运气拿下offer了,但3-4月背后也有很多失败
腾讯面五挂四(传奇耐挂王) 京东面二挂二 百度挂 美团挂 快手挂 字节hr面挂(挂了之后复活赛打赢了)
阿里系(阿里云,携程,陶天,饿了么等)万兴,360 ... 笔试就挂了...
往好的方向想,做最坏的打算。该干嘛干嘛就可以了,太注重失败就没心思学习了(而且很多kpi面没必要内耗)。
希望每个人都可以得到心仪的工作,希望努力的人都有光明的未来
全部评论
最后一段话说的太好了
大佬好强
我3月中被这个部门二面挂了
佬,字节offer审批了多久,才给发的书面offer?
大佬 京东面试都问啥了呀
佬,面经背的哪里的呀,还是说自己整理的吗
佬,美团出SQL题是什么形式,口述吗,还是发图片什么的
太强了佬
相关推荐
04-15 15:31
东南大学 C++ 点赞 评论 收藏
分享