快手数仓凉经

1. 介绍项目,
2. 询问项目中的难点
3. hbase 的读流程 : zk获取元数据,region,
4. hbase 的rowkey的设计: 加盐,反转,哈希
    1. 哈希 基于 RowKey 的完整或部分数据进行 Hash,而后将Hashing后的值完整替换或部分替换原RowKey的前缀部分,对scan不友好
    2. 反转都可以分散写的压力,但是对scan操作不友好,对get 不影响
    3. 加盐,加盐的原理是在原RowKey的前面添加固定长度的随机数,也就是给RowKey分配一个随机前缀使它和之间的RowKey的开头不同。 对写友好。 对查询不友好
5. 列族和列的关系 子集
6. Spark的宽依赖和窄依赖 
7. Stage 是怎么划分的 
8. MR的执行过程
9. Spark的执行过程
10. Hive 的计算过程 
11. Doris 的什么量级查询不了。 
sql题
1. 连续登陆三天的用户 
2. 将用户登录的天数合并为一行。 concat_ws(',',to_date(login_time) );

很菜,sql没写出来,对spark和mr的基础知识也不太熟
面试官还是很nice的
全部评论

相关推荐

哥_留个offer先:跟他说,你这个最好用c#,微软就用c#Java不适合这个项目
点赞 评论 收藏
分享
评论
7
17
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务