一道大数据面试sql题目分享

今天在群里面看到一道面试sql题目,感觉挺有意思的,就过来分享一下。
原题目是这样的。

就是给你一行日期,有个起始日期和结束日期,让你生成多行数据。

日期A和日期B一开始就有的,
那么面试题目就变成了,如何将1行数据变成了B-A+1行,且每行是递增的日期。
如何实现每行递增的日期呢,我们可以使用row_number排序,生成1-n排名,在date_add一下即可。

熟悉hive的第一反应肯定就是炸裂函数explode,或者自定义udtf。如果在面试的时候去手撕一个自定义udtf,那还是挺恐怖的。
这里面我参考了别人分享的攻略。https://blog.csdn.net/weixin_43597208/article/details/123151294
利用space函数搭配split生成数组。再搭配explode即可将一行转换成多行。
那么我们就可以求出B - A ,调用split(space(B-A))再结合explode即可生成B-A+1行

下面给出我的代码,仅供参考,这里面我使用了更加方便的 posexplode 炸裂函数,posexplode 炸裂函数可以炸裂出来对应的索引号

#大数据##hive##面经##华为od#
全部评论
第一步,timestampdiif-day相减获得n 第二步,将数据复制n份 第三步,row_nuber在最末尾 第四步,start_time + row_number的值 这是我的思路,不知道能不能行
点赞 回复 分享
发布于 2022-07-09 16:55
复现了下 到split函数就拆不成数组了 虽然没完全复现 学习了space函数 posexplode函数
点赞 回复 分享
发布于 2022-07-01 11:38
这啥软件还能写SQL
点赞 回复 分享
发布于 2022-07-21 15:47
这是哪家的笔试题?
点赞 回复 分享
发布于 2022-06-29 17:45

相关推荐

04-08 20:18
已编辑
苏州大学 数据仓库
点赞 评论 收藏
分享
#腾讯云智研发2025实习生招聘# 4.1笔试4.10一面4.17二面(本来应该是4.15,但是那天网络不太行推迟了)腾讯云智 数开实习面试凉经(回答的实在依托,我自己都受不了自己😅)自我介绍说下你的项目项目为什么要分不同的主题域项目各个分层是为了什么,为什么要分层order by sort by cluster by distribute by这几个算子的区别有一个表有userid login_time,统计用户最长连续登录天数,说说思路,然后有没有考虑过全量表下的场景数据倾斜怎么处理(给场景)数据加盐怎么做小文件为什么产生,怎么解决map joinzookeeper在大数据组件中的作用zookeeper存hadoop的元数据吗使用过哪些部署hadoop集群的方式使用什么管理hadoop集群如果有一个报表,某个数值异常或者发现错误,如何进行排查,然后如果是数据源有问题,从几百个源表中如何快速定位到出问题的表突然某一天,某个工作流执行的时间比往常慢了,如何排查,如何解决熟悉哪些编程语言有没有通过Java编写过udf函数,udf函数需要实现哪些方法udaf函数和udtf函数介绍下区别(从输入和输出角度)处理过流数据吗流处理如何保证数据一致性,如何保证数据不丢失介绍下自己的优缺点怎么看待大模型你觉得你有哪些优势在刚刚的提问中没有展现出来,你可以展示下反问环节没有手撕环节只记得大概这么多了,没按顺序,凉透了 好多问题答不上来,太菜了😭,面试官很漂亮,人也真的很好二面更新了解了下学校课程,深挖项目,出了几个场景题,我回答得很一般,不过从问题中确实学到了很多,以前只会背的一些知识突然就理解了,面试真能带来进步啊。面试官依然很好,很友好,问题也很清楚,生怕你不知道在问什么,给你解释得清清楚楚不愧是大厂#数据人的面试交流地# #数据人offer决赛圈怎么选# #牛客创作赏金赛# #牛客AI配图神器#
查看72道真题和解析 数据人的面试交流地
点赞 评论 收藏
分享
评论
10
55
分享

创作者周榜

更多
牛客网
牛客企业服务