大数据面试经验
#面试经验谈#
1 在介绍数仓模型时大概分下面介绍
数仓分层有哪些层,每一层的作用和构建原理,有哪些数据域和主题,对于域和主题是怎么划分的,数仓命名规范怎么定的,ads层主要是怎么设计的,数据怎么对外运用,数仓不能跨层依赖,dwd必须要有ods的所有字段,不能聚合操作,dws一般都是轻度聚合,比如用户和订单的聚合,ads通常不能直接来源dwd,只能从dim和dws来,dim层快照和非快照的区分
2 实时任务如何做到不延迟
我认为该这样答,首先确保source端消费能及时消费,要评估一下数据的QPS,然后中间计算阶段并行度要够,在规定时间需要计算完成,最后sink阶段需要及时落表,还有就是任务失败要从checkpoint拉起任务,并且消费kafka的偏移量要从最新的地方拉起,防止重复消费导致延迟,
1 在介绍数仓模型时大概分下面介绍
数仓分层有哪些层,每一层的作用和构建原理,有哪些数据域和主题,对于域和主题是怎么划分的,数仓命名规范怎么定的,ads层主要是怎么设计的,数据怎么对外运用,数仓不能跨层依赖,dwd必须要有ods的所有字段,不能聚合操作,dws一般都是轻度聚合,比如用户和订单的聚合,ads通常不能直接来源dwd,只能从dim和dws来,dim层快照和非快照的区分
2 实时任务如何做到不延迟
我认为该这样答,首先确保source端消费能及时消费,要评估一下数据的QPS,然后中间计算阶段并行度要够,在规定时间需要计算完成,最后sink阶段需要及时落表,还有就是任务失败要从checkpoint拉起任务,并且消费kafka的偏移量要从最新的地方拉起,防止重复消费导致延迟,
全部评论
相关推荐
点赞 评论 收藏
分享

点赞 评论 收藏
分享

点赞 评论 收藏
分享
06-26 13:51
算法工程师 人力小鱼姐:你不在当地,hr怕你只是试试水、招聘流程容易被拉长、人选容易反悔等等不可控因素
如果后续确实要到那边发展,最好简历里注明期望地点:XX(多久可到岗)
同时询问hr面试流程,有几轮,主动表明如果到了终面自己可以参加线下面试
简历集中投递,面试尽量集中安排到某1-2天,过去参加
点赞 评论 收藏
分享