【小红书4面已OC】大数据开发-数据平台

已OC,评论区有意向群大家可以加入交流

一面:

挺走流程的,项目+八股+性格

二面:

项目+做题+性格,题目是一个实时指标,一个离线指标,居然要求在web上写flink,然我选择用SQL写离线,题目是统计一个直播间的最大在线人数,感觉挺好的,但是说方向偏业务,问了我的意向,我没表达出兴趣。

三面:

1.自我介绍

2.项目介绍

3.Hudi项目难点

1).FlinkJob怎么配置采集表的个数:个数太多会导致单个slot输入数据量太多,Hudi累计的数据存在state里(超过阈值会flush),累计太多做ck的时候需要的时间就越长,CK的GAP需要加长,会影响实时采集的时效性。所以对数据库的采集需要多个Job来保证时效性,同时要保证每个Job的表大小尽可能相等(Job里业务表的TPS需要大概相同)

2).Hudi的bucket数量,bucket对应一个分区下面的file group,他也是写并发的最大值,它数量过多会导致一个小文件问题,数量过小会导致File group里面的parquet+log过大,影响下游的查找优化。(社区说是用hashMap的方式,也看到RFC使用一致性hash来动态扩展Buket数量)

4.Ozone项目

5. B+树和LSM-T区别

5.各自使用的场景

6.OLTP和OLAP *

7.范式建模和维度建模 *

8.优缺点-各自优势 (这里可以扩展很多,列存储和行存储,指令的向量化优化,AP提前聚合宽边来构建指标,TP范式拆分来支持快速修改)

四面:HRBP

问对小红书的了解,优缺点

#小红书校招#
全部评论
hr面约了吗
1
送花
回复
分享
发布于 2022-09-30 10:38 广东
老哥啥时候笔试的,我一直卡在笔试已完成
1
送花
回复
分享
发布于 2022-10-06 16:24 北京
滴滴
校招火热招聘中
官网直投
群号 874459763
1
送花
回复
分享
发布于 2022-10-09 21:12 四川
希望我面的时候也是同样的问题啊
点赞
送花
回复
分享
发布于 2022-09-28 23:13 山西
感觉大佬的知识深度很棒,赞
点赞
送花
回复
分享
发布于 2022-10-06 11:29 广东
可以问下时间线吗
点赞
送花
回复
分享
发布于 2022-10-11 15:44 河南

相关推荐

头像
不愿透露姓名的神秘牛友
04-08 00:50
点赞 评论 收藏
转发
3 27 评论
分享
牛客网
牛客企业服务