一道大数据面试sql题目分享

今天在群里面看到一道面试sql题目,感觉挺有意思的,就过来分享一下。
原题目是这样的。

就是给你一行日期,有个起始日期和结束日期,让你生成多行数据。

日期A和日期B一开始就有的,
那么面试题目就变成了,如何将1行数据变成了B-A+1行,且每行是递增的日期。
如何实现每行递增的日期呢,我们可以使用row_number排序,生成1-n排名,在date_add一下即可。

熟悉hive的第一反应肯定就是炸裂函数explode,或者自定义udtf。如果在面试的时候去手撕一个自定义udtf,那还是挺恐怖的。
这里面我参考了别人分享的攻略。https://blog.csdn.net/weixin_43597208/article/details/123151294
利用space函数搭配split生成数组。再搭配explode即可将一行转换成多行。
那么我们就可以求出B - A ,调用split(space(B-A))再结合explode即可生成B-A+1行

下面给出我的代码,仅供参考,这里面我使用了更加方便的 posexplode 炸裂函数,posexplode 炸裂函数可以炸裂出来对应的索引号

#大数据##hive##面经##华为od#
全部评论
第一步,timestampdiif-day相减获得n 第二步,将数据复制n份 第三步,row_nuber在最末尾 第四步,start_time + row_number的值 这是我的思路,不知道能不能行
点赞 回复 分享
发布于 2022-07-09 16:55
复现了下 到split函数就拆不成数组了 虽然没完全复现 学习了space函数 posexplode函数
点赞 回复 分享
发布于 2022-07-01 11:38
这啥软件还能写SQL
点赞 回复 分享
发布于 2022-07-21 15:47
这是哪家的笔试题?
点赞 回复 分享
发布于 2022-06-29 17:45

相关推荐

一面(面试官很好!很有耐心!)1.spark中rdd叫弹性分布式数据集,这个弹性的含义2.小文件的危害以及怎么处理3.spark中宽依赖、窄依赖4.stage的划分5.kafka怎么保证数据不重复消费(没回答上,但说了怎么重复消费数据)6.checkpoint机制7.spark的三种join(boardcast join,sort merge join,shuffle hash join)7.四道sql(前两道很简单,第三道次日留存和七日留存,第四道连续登录问题)8.算法题:移动最少区间个数 使得剩余区间无重叠1. 输入:[1,2][2,3][4,6][1,3]2. 输出:13. 解释:移除[1,3]后,剩余区间无重叠(面试后在牛客网看见有人分享这道算法题)一面最后面试官还问我以后的计划,我说打算先实习明年春招边实习边找工作,她居然问我没想留着字节吗(我当然想!)中间有些问题没想起来,耗时1小时40分钟二面(面试官很好!问的都是和数仓相关的,结合我的实习问)1.之前工作都干了什么2.之前实习搭建数仓的结构3.了解事实表吗,了解维度表吗4.怎么和其他人对接的5.你属于风控部门,但主要是构建数仓开发,那有没有和其他数据开发人员交流过6.你只有一段实习吧,那实习前后有什么感悟吗7.为什么要选择数据开发(我说因为之前实习是干数仓的,他说不要因为之前干什么就觉得以后三十年干什么,实习还是丰富点,看看干什么)8.最后反问二面耗时50分钟,感觉面试官对我回答的第七个问题不满意,只是我明年要毕业了,得多来一份垂直的实习建议多复习spark、hive方面的八股文、概念问题,实习生主要负责离线数仓开发
点赞 评论 收藏
分享
评论
10
56
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务