大数据/数据研发,数据仓库面经

---------------------------------------------------------------------------------
这篇文章总结了本人从秋招以来找工作遇到的面试,整理的面经,希望对大家有所帮助~~~
本人双非本科,统计学,到三月份左右才开始意识到要走大数据方向,具体说实话我也不清楚为什么自己要学大数据,可能这就是缘分吧,
然后学了3个多月(包括java,shell,linux,数据库,hadoop,hive,数据仓库)(kafka,zookeper,flume只用没学)
在学校也没做过实际的项目,只参加过数学建模比赛,还有一个实习经历(数仓的)
大大小小投了五六十家公司吧,大厂BAT没敢投,收到的笔试只有30家左右,到面试的就只有10几家了。
---------------------------------------------------------------------------------

-----------多益网络:大数据研发---------------
一面技术面8.18
自我介绍
1最有成就的项目,负责什么,遇到什么问题,怎么解决
2LINXU常用命令
3数据库索引的实现
4行列存储数据库的区别
5MR的工作流程
6HIVE内部表和外部表的区别,什么时候用什么表,数据倾斜怎么办
7TCP的三次握手
8HTTP和HTTPS的区别
9string、stringbuff、stringbuid的区别
10堆、栈,方法区
11锁的几种实现方式
12撕代码:括号匹配问题(开屏幕共享)
13神武玩家流失怎么分析?用什么算法
有没有拿到其他公司的OFFER
平时业余时间会做什么
工作意向城市

时隔半个多月才发现主观题没做,做完第二天就收到HR面试通知了
二面hr面9.02
1.自我介绍
2.职业规划
3.与编程相关的知识都是自学的吗?
4.参加过多少个数学建模比赛?
5.有多少获奖的?(问到这我才发现填简历的时候实习、项目、获奖都没填)
6.数学建模比赛是怎么分工的?
7.如何看到合作关系?
8.实习过吗?
9.期望工作城市?家里人的看法?
10.还有投递公司?
11.为什么选择游戏公司?
12.知道游戏公司的工作强度吗?
13.为什么选择多益?
14.目前有没有offer?
15.期望薪资?

反问:
1.面试结果(14天内)
2.需要提前实习吗?(2个月)
3.实习薪资?(待定)

hr面等了十几天然后挂掉了。。。
也不知道原因是什么联系了之前的几个hr都不理我,就挺离谱的,不愧是多益。
好在多益是提前批,当作面试练练手也是挺不错的,要去这个公司的话慎重考虑

------------------B站数据仓库:-----------------
一面技术面8.24
1.挑一个项目讲,负责的地方,遇到什么困难,怎么解决
2.怎么理解hadoop的高可用性
3.分区和分桶
4.四个by,order by,sort by,distribute by,cluster by什么区别
5.内部表和外部表的区别
6.python怎么查询字符串里的字符
7.针对B站讲一个例子,怎么分层,怎么建模
8.期望薪资,期望工作氛围?
9.对未来3-5 年的规划?
(太早面试还没准备好,很多东西都不会,害,面完就感谢了,现在想想问题都挺简单的)

------------浩鲸科技:大数据开发------------
一面8.26:
总体感觉面试很乱
1.首先自我介绍
hadoop:
2.搭hadoop的时候是用原生的吗?有没有了解CDH,还有另一个是啥我忘了。
3.HDFS的读写流程
4.hadoop启动时会有哪些进程?
(最简单问题直接把我问傻了,只记得DN,NN,NM,2NM,还有一个页面访问的)
数据仓库:
5.数学建模是怎么样的?参赛人数?获奖比例?
6.你的数仓搭建怎么学习的?为什么要学这个?老师推荐的吗?哪里学的?
7.然后让我讲数仓是搭建的,过程,然后我巴拉巴拉,主要讲数仓分层
8.oracle了解吗?不了解,只用过mysql和pgsql;having的用法
9.讲一下实习工作,然后我巴拉巴拉,然后他巴拉巴拉,然后我又巴拉巴拉(还是主要讲数仓分层)
HIVE:
10.问了hadoop数据倾斜,我说了解hive就让我说hive的数据倾斜
11.内部表和外部表的区别?
12.什么时候用内部表,什么时候用外部表?
(不知道,面试官跟我说了,贴源层用外部表,后面的用内部表)
13.数仓和数据库的区别?
Linux:
进程调度器有哪些?
wc命令用过吗?查看内存,CPU用过吗?cat用过吗?
(只用过cat)
反问:
面试结果几天?他说不知道
新人培训?说是文档,视频,还有项目培训,公司培训
(感觉这种外包公司都一样,进来给你安排一个导师然后就上手干了)
后面还有几轮面试?等Hr通知


二面8.30
二面就直接HR面,把我给整蒙了,还以为是技术面二面,没做过非技术面的自我介绍,上来乱说一通
Hr面就聊聊天
比如问我哪里人,意向工作城市等等
印象比较深的一个问题是除了浩鲸还投了那些公司
我说4399,为什么想去4399?因为喜欢游戏?那为什么不考虑三七、网易?投了没结果
那如果4399过了的话大概率是会去4399的吧?是
如果挂了应该就是因为这个问题了吧害,想想觉得我太诚实了


--------------4399:数据开发--------
一面:8.31
1.mysql主从复制(不会
2.pgsql中MVCC(不会
3.kafka?(不会
4.mysql引擎、索引、区别
5.数据库三范式
6.hadoop,有哪些引擎,NameNode干什么的
7.hive有哪些表?内部表与外部表的区别
8.java,重载和重写
9.序列化和反序列化?(不会
10.AIO和NIO(不会
12.零拷贝(不会
11.调度算法(不会
跟面B站一样,还没准备好就冲了555,浪费了好好的机会


-----------------------------------------------------------------------
8月跟9月的分界线,8月的面试基本都挂了。
然后很明显的感觉这些失败促使我进步,很明显的感觉到在8月跟9月的这个时间节点感觉到自己变厉害了,后面的面试也大部分会通过。
-----------------------------------------------------------------------


----------招银网络:数据研发------------
一面9.16:
1自我介绍
2问我在公司实习做什么?做多久
3手撕代码:
2.1一个数组[2,3,4,4,5],他有子数组(连续位置不重复)[2,3][2,3,4][4,5]等等
然后要找到不重复的子数组里面lenth最大的;

2.2继续撕一个冒泡排序,时间复杂度是多少?怎么算的
4arraylist和linkedlist的区别?
5数据库索引的类型?
6事务的定义是什么?(又是最简单的问题把我问倒了)
7事务有哪些性质?
8脏读是什么?如何解决脏读?
9分组关键字?分组后过滤关键字?
10where和having哪个在前?
反问:面试结果多久出?说是下周
结果当天晚上就收到邮件了

二面9.18:
1、自我介绍
2、在公司主要做的是什么?详细一点,数仓输入数据和数出数据
中间穿插了很多问题,主要就想看我是不是作假吧,不难,是自己做的事情就能回答出来
3、有遇到过半夜需要维护数仓的时候嘛?如果你遇到了怎么办?
4、对数仓的了解?
5、数仓建模怎么建的?
6、你觉得你和研究生比优势是什么?想了很久我回答年轻哈哈哈哈哈
7、上一个问题,引导我说可以将数仓和大数据,让我继续讲数仓和大数据的理解
8、笔试的数据库分数比较低是怎么回事?我回答锁和并发可能掌握得不好?
然后面试官看了一下数据库就2道题我错了1道,是锁的内容所以分数比较低

反问:
还有没有技术面?没有了
面试结果呢?过了
数据库分数比较低除了锁还有没有需要去提升加强的?让我主要去学习数据仓库就好了
然后本来直接约hr来继续面试但是过了一会回来说好像hr没空还是说要按流程来,等hr发邮件预约时间面试。

hr面9.22
纯聊天,四个方向
找工作看重什么
校友会会长经历(为什么想当宣传部)
实习经历(工作内容、表现怎么样)
学习经历(怎么学习的)
反问:后面的流程是什么?说是1到2周,说得不太明白,我不会是要挂在hr了吧呜呜呜
需不需要提前实习?不需要,但鼓励

9.22面完当天晚上就发资料审核了!速度太快了!

9.28晚上收到offer,要在11号之前确认,
本来看他薪资条件挺诱人的,去银行上班家里人也开心,
后来去脉脉看了一下,着实太劝退了。


----------58同城:大数据开发---------
一面9.15:
1、自我介绍
2、讲工作项目/实习项目,让我讲,没问问题
3、hive内部表和外部表的区别?
4、手写一个Hql,用row_number() + case when就可以
5、有两个文件,内容都是url串,一个100g(文件内没有重复字段),一个200g(文件内没有重复字段)
电脑内存只有2g,怎么从两个文件里面提取相同部分的url
反问:
面试结果多久出?当天晚上
当天晚上就收到二面通知

二面9.17:
1、自我介绍
2、公司项目?
HIVE:
3、问我熟悉那个大数据组件,我说hive
4、四个by的区别
5、给了一个sql题,我回答了用开窗
6、开窗函数里面rank、dense_rank、row_number的区别
7、自定义函数UDF、UDAF、UDTF的区别
8、hive优化做过吗?怎么做
9、hive的执行过程是什么?
10、count(distinct)会出现什么问题?(这题不会)
(还有一些记不起来,hive问了很多,把我所知道的几乎都掏空了)
JAVA:
11、编程语言用什么?回答是java
12、一个类同时实现了接口和抽象类,如果他们有相同的方法,那么通过super去调用是谁的方法?
13、考了static,静态变量和非静态变量的区别?
操作系统
14、学过操作系统吗?不怎么了解
15、进程和线程的区别?
16、线程之间的同步方式?
数据仓库:
17、建模是怎么建的?有哪些方式建模?
18、事实表的类型?

hr面9.26:
问了很基本的问题,期望地点,期望薪资,职业规划等等

10.14收到了意向书


-------工商银行(广州研发部):数据库工程师-----------
提前批一面:9.17
拉群,然后流水线面试
面试就俩问题
1.在公司实习的时候做什么?
2.为什么要转数据库开发?

本以为凉了
很离谱还收到通过的通知,但是还得做一次笔试(10.23)才能发offer
好像进编制的岗位都是要做这种比较难的笔试,更看重笔试而不是面试,好像国企央企都这样?


-----------海康威视:数据工程师----------
一面9.25
1自我介绍
2问了项目+实习
3了解过哪些大数据组件?
4hadoop伪分布怎么搭的?
5有做过数据分析吗?(以前做过,太久了就说没有,我也不太想做这一块)
6怎么看待数据工程师这个职位的?
7调研了解过吗?其他人怎么做的
8数据库,怎么删除表里面重复的数据(没有主键)?
9有没有了解过海康?
反问:
后续流程?
面试结果多久出?
公司数据处理的组件

过了两天收到线下hr面试,但是因为回家所以拒绝了


-------------tt语音:数据仓库-----------
tt语音(一站式面试)
一面:
1自我介绍
2数据库:给一些字段:学号,姓名,成绩,课程名称,学分。怎么设计表结构?
3讲一下hadoop的执行过程(每一步都要很详细,用wordcount举例子)
4讲一下hive的架构,顺便说下hive的执行过程?
5讲一下对数仓的了解,为什么要分层?
6有一张表:
用户id,状态时间
1 10:10:20
1 10:10:50
1 10:11:30
统计所有用户在线时间,以及用户数量(这道题一开始没听明白,不知道怎么计算在线时间,给出例子数据才知道,最大减最小)
7还有很多项目的问题就没记录了
总体面了40+分钟
反问:
数仓用的技术栈?主要是hadoop,hive,离线数仓
后续的流程?在外面等一会,然后就二面了

二面:
自我介绍
二面全程问项目,然后有问了我数仓的概念(最简单的又给忘了),然后我就讲了数仓的优点什么的
结束之后本来直接hr面了,但是中午了就让我先去吃饭
吃完饭等了十几分钟hr面

hr面:
hr面是一个帅小伙,人好好,一进来就跟我道歉说让我久等了
hr面也是一些常见的问题:
1自我介绍,要求我讲在学校的经历,还有在实习的过程中的收获
2从哪里了解到tt语音的?对tt语音的了解?
3找工作最看重什么?其次呢?
4未来的发展职业规划?
5你对数仓这个职位的了解?他的存在有什么意义?这个没答出来,让我回去好好思考一下
6原专业跟岗位不匹配,为什么要走这条路?有没有人带你?陪你呢?
7然后聊了一下兴趣爱好特长等等
8如果面试过了能不能实习,什么时候可以实习?我回答:发offer就能实习哈哈哈哈哈
9期望薪资?
反问:
晋升空间?
面试结果?

10.14收到电话口头offer


-----------唯品会:数据开发-------
一面9.29凉经(以为是凉经,结果后来突然收到了二面)
1自我介绍
项目:
2讲一下数仓项目遇到什么难题?后来怎么解决的?讲一下数学建模的流程?
3数仓分层讲一下?
4flume和kafka的原理你知道吗?
5zakaban的原理的?
6shell脚本怎么写的呢?
7sql放到shell脚本里,具体怎么实现调度的?
8电影分类用了哪些模型??讲一下协同过滤
9python熟悉吗?决策树在python的哪个包?随机森林呢?
spark熟悉吗?不熟悉,问到这里面试官已经不想面了,说我还有很多需要学习的地方
hive:
10说一下hive的行转列、列转行?
11我要取各个班级前十名?怎么写sql?(还有一个sql题也很简单的我忘记了)
12知道explore函数吗?具体应用场景举一个。
13Hive处理过数据倾斜吗?怎么处理的?
Hadoop
14Hadoop的架构说一下?
15知道NameNode是干嘛用的?
16下载文件需要经过NameNode吗?
17shuffle过程熟悉吗?讲一下
18你觉得有哪些地方可以优化的?

反问:
1广州这边主要业务是什么?技术栈呢?不是数据仓库,是数据应用;python+spark+flink
2面试结果?要等到节后才会出
3后续流程是什么?看HR安排
3个问题可以看出凉凉了没啥好继续问的了


唯品会数据开发二面10.18:
全程感觉不像在面试而是在聊天,,围绕着为什么我学统计学反而要做计算机方向的大数据开发
后来问了一个问题,linux下find的使用方法,有哪些参数?
20多分钟没有反问


------------------------------------------------------------
最后选择tt语音,tt语音给我的感觉太好了,公司环境非常好,充满青春活力,
面试官给我的感觉也很nice,感觉不是在面试,而是以师兄的身份来跟我聊天,让人感觉很舒服。
在这样的工作环境下工作真的太nice了!
还有本人也是很喜欢tt的企业文化,喜欢比赛,喜欢kpl,喜欢广州ttg哈哈哈
现在回头想想自己真的是非常幸运,虽然错过了B站,4399这样的公司,但是他们也让我进步最终与tt相遇
原来这一切都是已经安排好的呀~~
我爱tt语音,我爱趣丸!tt语音我来啦!~
#大数据开发##多益网络##面试题目##浩鲸云##4399游戏##哔哩哔哩##招银网络##58集团#
全部评论
恭喜 恭喜
点赞 回复
分享
发布于 2021-10-22 16:47
大佬,能交流一下吗,我跟你经历很像(双非本科、参加过数学建模、广州、有数仓实习经历、22校招)
点赞 回复
分享
发布于 2021-11-01 15:38
阿里巴巴
校招火热招聘中
官网直投
大佬看你帖子,想问一下数仓面试,不问计网,数据结构还有jvm,gc那些吗😂
点赞 回复
分享
发布于 2022-07-09 08:07
楼主学了三个多月就能找到实习吗,,俺也想学这个,想暑假找个实习做做
点赞 回复
分享
发布于 2023-02-23 23:10 上海

相关推荐

43 274 评论
分享
牛客网
牛客企业服务