百度大数据一面面经
0:自我介绍必不可少的
1:数仓的数据从哪里来的?多少数据?
2:数仓分层
3:DWD层如何保证和ODS层的一样的数据粒度,如何提供数据质量保证?
4:什么阶段进行数据清洗?
5:数据量很大的时候每层都进行数据清洗吗?如何解决
6:ETL过程中,数据出现问题了如何预警?
7:团队合作的时候如何保证数仓分层的规范?
8:Hive的调优(项目写到了这个)
9:什么是zookeeper?
10:zookeeper实现hdfs的高可用,你在项目中是怎么操做的?(项目写到了这个)
11:zookeeper如何保证数据的一致性?
到这里大概聊了五十分钟,口干舌燥,百度问的很专业
手撕代码:
第一题(请大佬赐教,不太会写,窗口函数理解的不好):
HQL:查找出公司每个部门中薪资最高的员工名
假设表名称为department,列名为:Id,name,salary
(先用SQL写出来了,但是要求是HQL,不太会写,面试官提示row_number窗口函数,没写出来,换了第二题)
第二题:Java:单链表,删除单链表的倒数第n个节点(比较简单)
欢迎大家评论区讨论,大家一起交流进步.....