数仓面试求教

面试数仓岗位问题如下：
1.mapreduce中为何要hash partition分区
2.mapreduce中为何使用快拍和归并排序
3.两张表，译过来就是a为维表(不小)，b为事实表，两表关联，如何优化？问后说关联是出现数据倾斜。
数仓只知道mapreduce的原理流程，具体环节没有深究，大佬有能给解答的吗#面试那些事##数据仓库工程师##面试题目#

全部评论

推荐最新楼层

牛客541460654号

北京林业大学 C++

1. HashPartitioner 是默认的分区器，也可以用别的，比如TotalOrderPartitioner，也可以自定义开发。第一个问题，先回答为什么要分区就是数据shuffle过程中的一种打散策略。 Hash散列化是最容易想到的。 2. 在MR当中会用到多次排序过程特别是map输出到内存再溢写到磁盘时会产生大量的临时文件，这些小文件是不能直接交给Reducer处理的，而要进行一个合并的过程，这个过程是带着map-key进行操作的所以要用到归并排序。在环形缓冲的内存区使用快排，原因我还没想到。（https://blog.csdn.net/u010737756/article/details/114198358 ） 3. 先定义和回顾数据倾斜的概念，然后再思考join这个过程的实现（reduce把相同key分组做笛卡尔积）如果大表小表的差异巨大，表现为小表的数据量比较少但key却比较集中，导致分发到某一个或几个reduce上的数据比其他reduce多很多，易造成数据倾斜。常常会采用mapjoin 优化这类问题

5 回复分享

发布于 2022-05-04 16:18

大葱001

携程_大数据

1为了散列化分区（猜的） 2map端排序没有顺序所以是快排，之后分区合并后分区有顺序了所以归并 3小表在前大表在后

3 回复分享

发布于 2022-04-25 14:25

已注销

1.mapreduce中为何要hash partition分区默认是hash分区为了打散数据分布式处理分区方式可以自己定义实现分区器自定义实现； public class CustomPartitioner extends Partitioner<Text，Object>{ @Override public int getPartition(Text key，Object value，int numPartitions){ //控制分区代码逻辑返回int即可 return partition； } } 2.mapreduce中为何使用快拍和归并排序快排：因为内存中排序比较快数据在内存中是按照 entry1(k1v1),entry(k2v2),entry(k3v3) 这种方式排列的, kv组成一个entry 快排效率高归并：对多个有序的小文件进行排序，不能单靠内存排，得借助磁盘比如三个小文件分别是 1，4，6，8 1，5，8，8 0，3，7，11 同时打开所有小文件分别使用迭代器取出第一个数即1，1，0 此时0最小将0追加写入新文件并从三号文件通过迭代器拿出下一个数3 此事1最小将1追加写入新文件并从一号文件通过迭代器拿出下一个数4 直到所有文件都被迭代完总的排序也就完成了感觉会问你哪里用到排序了 1.map端的环形缓冲区用到快排 2.map端的小文件合并用到归并排序 3.reduce端将从map端拉取的文件进行归并排序 #数仓开发#

1 回复分享

发布于 2022-07-01 10:49

已注销

3. 事实表关联维表一般是大小表join 即事实表大维表小或者维表大事实表属于增量数据比较小楼主说的情况事实表很大维表也很大大数据处理其实不怕数据量大而怕分布不均匀数据倾斜是说事实表中数据有集中分布情况1：数据其实比较均匀但经过hash后某个分区数据就很多可以尝试下调整分区数可能有效虽然大多情况下没用情况2：事实表存在长尾效应头部严重集中比如淘宝的全体店铺的销售流水表关联店铺维表头部店铺的销量一定是非常大的对于这种的可以分开处理 select t1.*,t2.* from ( select * from fact_table where id in (1,2,3) -- 这三家店铺是头部单独处理 )t1 left join ( select * from dim_table where id in (1,2,3) -- 此时维表就很小了可以用mapjoin )t2 on t1.id = t2.id union all select t1.*,t2.* from ( select * from fact_table where id not in (1,2,3) )t1 left join ( select * from dim_table where id not in (1,2,3) )t2 on t1.id = t2.id; 情况3: 数据量相当大且不止是头部头身都很大只有少数数据比较少想象的场景是物联网中某个机具当天的心跳信息关联机具的基础信息几乎每个机具的心跳信息都有上千万条 1.维表能不能先过滤可能维表1kw条但关联用到的只有100w 转为大小表join select * from dim_table where id in (select id from fact_table group by id) 2.如果两个表都很大那不是数据倾斜而是数据堆积每个任务处理时间都很长这种的不要以天级别做join 而是小时级别每一个小时做一次到时候如果再数据倾斜再考虑上面的方法 #数仓开发#

点赞回复分享

发布于 2022-07-01 10:54

太年轻哈哈-

南京大学大数据开发工程师

2 一般来说小表join大表就把小表broadcast 出去，即mapjoin 。但是你这里说维表也挺大，可能需要走shuffle hash join. Join 过程中过滤好null 和空串的情况，如果还是会倾斜就需要具体分析. 倾斜不大就不用管了嘛，倾斜太大可以考虑对于这部分单独处理，使用加盐等策略

点赞回复分享

发布于 2022-06-18 01:58