数开-字节1面凉
1.自我介绍
2.项目经历
3.HDFS,yarn八股,考察细节和深入度
4.yarn提交流程-很细节(包括提交流程,资源调度三种模型)
5.了不了解实时框架
6.hive内部表,外部表
7.内连接,左外连接,右连接区别,答的很不好,最终字段的展现是由select决定的,不是由内外连接决定的,
内连接:返回两个表的交集,列数为两表列数目和,重复列添加_${number}区分,行数为两表匹配相关字段的行数(只会<=两表的最小行数)(join,inner join)
自然连接:在内连接的基础上,重复列只保留一个,行数不变
左外连接:以左表为重,返回左表的所有行,如果左表在右表没有匹配行,右表返回空,行数就是左表的行数,列数为两表列数目和,重复列添加_${number} 区分
右外连接:以右表为重,返回右表的所有行,如果右表在左表中没有匹配行,左表返回空,行数是右表的行数,列数为两列表数目之和,重复列添加_${number}区分
全连接:返回左表和右表中的所有行。当某行在另一表中没有匹配行,则另一表中的列返回空值。行数目为两表行数之和,列数为两表列数之和,重复列添加${number}区分
交叉连接:返回表中行数为两表行数乘积,列数为列数之和,重复列添加_${number}区分
数仓:
1.为什么数仓分层
2.数仓分哪几层?(没答好)
3.数仓建模两种模型,区别?
spark和Hadoop区别
Hadoop什么时候与磁盘交互