顺丰数开一面
开局依旧自我介绍,然后问实习相关,主要是分层、技术栈还有难点之类的问题。
八股:
1.sql里面的聚合函数和窗口函数的区别?适用场景?
2.group by数据倾斜的问题,是怎么导致的?
3.除了聚合,还有别的数据倾斜场景吗?
4.广播的原理?为什么广播能避免数据倾斜?
5.使用过pypark,scala 之类的吗?
6.Doris 和click house 的共性?
回答解决olap场景下,大数据量分析
7.追问,为什么能解决这种问题?
8.为什么olap能做的这么快?
无手撕
#发面经攒人品#
八股:
1.sql里面的聚合函数和窗口函数的区别?适用场景?
2.group by数据倾斜的问题,是怎么导致的?
3.除了聚合,还有别的数据倾斜场景吗?
4.广播的原理?为什么广播能避免数据倾斜?
5.使用过pypark,scala 之类的吗?
6.Doris 和click house 的共性?
回答解决olap场景下,大数据量分析
7.追问,为什么能解决这种问题?
8.为什么olap能做的这么快?
无手撕
#发面经攒人品#
全部评论
相关推荐
点赞 评论 收藏
分享
Morpheus_:现在想想, 第一题可能是:
先切分分区,然后看有无数据倾斜,如果有加盐打散
然后开始预聚合(大概)
然后就考虑按什么聚合,什么业务需求
估计还要sort merge join,归并排序+溢写

点赞 评论 收藏
分享