Hive 改表结构的两个坑|避坑指南

Hive 在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于 Hive 搭建的,在使用 Hive 时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!

坑一:改变字段类型后更新数据不成功

关于 hive 插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如 0.01 ,表中的字段也是 DECIMAL(5,2),按照常理插入的应该是 0.01,但是插入后查询是 0,为甚!



遇到问题,咱也不能退缩!就分析呀,看语句没问题啊!还是上网查查有没有坑友。查了一圈发现还是观望最靠谱!上 hive 官网查,呀~ 发现了原因!


https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-Decimals


根据官网描述,发现在插入分区表时会出现这种情况,此时需要对之前的分区处理下~:


那就测试一下 按照官网的说法:


先建表:


CREATE TABLE `tb_dw_test`(
复制代码


然后插入数据:


insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);
复制代码


然后查询:


hive> select * from tb_dw_test;
复制代码


发现结果跟想象中的一样~


然后修改表字段:


ALTER TABLE tb_dw_test REPLACE COLUMNS (a DECIMAL(5,2))
复制代码


然后再次插入数据:


insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);
复制代码


查询:


hive> select * from tb_dw_test;
复制代码


发现有问题啦!



那么按照官网处理:


Determine what precision/scale you would like to set for the decimal column in the table. For each decimal column in the table, update the column definition to the desired precision/scale using the ALTER TABLE command:


ALTER TABLE foo CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);
复制代码


If the table is a partitioned table, then find the list of partitions for the table:If the table is not a partitioned table, then you are done. If the table has partitions, then go on to step 3


SHOW PARTITIONS foo;
复制代码


This can be done with a single ALTER TABLE CHANGE COLUMN by using dynamic partitioning (available for ALTER TABLE CHANGE COLUMN in Hive 0.14 or later, with HIVE-8411):Each existing partition in the table must also have its DECIMAL column changed to add the desired precision/scale.


SET hive.exec.dynamic.partition = true;
复制代码


所以参照官网,这里对表作如下处理:


ALTER TABLE tb_dw_test PARTITION (statis_date) CHANGE COLUMN a a DECIMAL(5,2);
复制代码


再次插入数据:


insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);
复制代码


然后查询:


hive> select * from tb_dw_test;
复制代码


发现结果跟想象中的一样了。这个坑算是过去了~


坑二:增加字段后更新数据不成功


还是上面的例子那张表,再增加一个字段:


alter table tb_dw_test add COLUMNS (b varchar(5))
复制代码


然后查询


hive> select * from tb_dw_test;
复制代码


发现新增的字段默认的值是 NULL,现在我重新覆盖一下元数据,给增加的字段一个值:


insert overwrite table tb_dw_test partition(statis_date=20160501) values (2.01,0371);
复制代码


然后查询:


hive> select * from tb_dw_test;
复制代码



不是我们想象的结果,查看一下官方文档说明发现了问题的所在:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns




靠谱的官网用红色框框提示我们!那就这样处理:


alter table tb_dw_test replace COLUMNS (a  decimal(5,2),b varchar(5)) CASCADE;
复制代码


直接查询,发现数据显示的数据已经发生了变化了~


hive> select * from tb_dw_etst;
复制代码

避坑指南

官方文档!!官方文档!!官方文档!!


综上发现,我们是按照 Oracle 这样的标准在考虑 HiveSQL,但是通过阅读官方文档发现二者之间还是有很大不同的,底层原理差别还是有点大!通过这两次踩坑发现,仔细阅读官方文档的重要性!!!


所以,以后大家遇到大数据开源组件的报错问题,第一就是去找官方文档,然后就去找社区,总能发现惊喜!

#大数据开发##数据仓库工程师##大数据开发工程师##面试题目#
全部评论
学长好
点赞 回复 分享
发布于 2022-06-08 17:46
有用的话,大家点个赞
点赞 回复 分享
发布于 2022-05-22 17:25
学到了,太实用了,感谢大佬分享
点赞 回复 分享
发布于 2022-05-22 16:20

相关推荐

02-14 07:38
已编辑
门头沟学院 Java
2.4 一面2.6 二面2.9 三面(hr面)2.13 oc1.15号收到面试电话那会就开始准备,因为一开始没底所以选择推迟一段时间面试,之后开始准备八股,准备实习可能会问的东西,这期间hot100过了有六七遍,真的是做吐了快,八股也是背了忘,忘了背,面经也看了很多,虽然最后用上的只有几道题,可是谁知道会问什么呢自从大二上开始学java以来,一路走来真的太痛了,一开始做外卖,点评,学微服务,大二下五六月时,开始投简历,哎,投了一千份了无音讯,开始怀疑自己(虽然能力确实很一般),后来去到一家小小厂,但是并不能学到什么东西,而且很多东西都很不规范,没待多久便离开,大二暑假基本上摆烂很怀疑自己,大三上因为某些原因开始继续学,期间也受到一俩个中小厂的offer,不过学校不知道为啥又不允许中小厂实习只允许大厂加上待遇不太好所以也没去,感觉自己后端能力很一般,于是便打算转战测开,学习了一些比较简单的测试理论(没有很深入的学),然后十二月又开始继续投,java和测开都投,不过好像并没有几个面试,有点打击不过并没有放弃心里还是想争一口气,一月初因为学校事比较多加上考试便有几天没有继续投,10号放假后便继续,想着放假应该很多人辞职可能机会大一点,直到接到字节的面试,心里挺激动的,总算有大厂面试了,虽然很开心,但同时压力也很大,心里真的很想很想很想进,一面前几天晚上都睡不好觉,基本上都是二三点睡六七点醒了,好在幸运终于眷顾我一次了(可能是之前太痛了),一面三十几分钟结束,问的都不太难,而且面试官人挺好但是有些问题问的很刁钻问到了测试的一些思想并不是理论,我不太了解这方面,但是也会给我讲一讲他的理解,但是面完很伤心觉得自己要挂了。但是幸运的是一面过了(感谢面试官),两天后二面,问的同样不算难,手撕也比较简单,但也有一两个没答出来,面试官人很好并没有追问,因为是周五进行的二面,没有立即出结果,等到周一才通知到过了,很煎熬的两天,根本睡不好,好在下周一终于通知二面过了(感谢面试官),然后约第二天三面,听别的字节同学说hr面基本上是谈薪资了,但是我的并不是,hr还问了业务相关的问题,不过问的比较浅,hr还问我好像比较紧张,而且hr明确说了还要比较一下,我说我有几家的面试都拒了就在等字节的面试(当然紧张,紧张到爆了要),三面完后就开始等结果,这几天干啥都没什么劲,等的好煎熬,终于13号下午接到了电话通知oc了,正式邮件也同时发了,接到以后真的不敢信,很激动但更重要的是可以松一口气了,可以安心的休息一下了终于可以带着个好消息过年了,找实习也可以稍微告一段落了,虽然本人很菜,但是感谢字节收留,成为忠诚的节孝子了因为问的比较简单,面经就挑几个记得的写一下一面:1.实习项目的难点说一下2.针对抖音评论设计一下测试用例3.手撕:合并两个有序数组二面:1.为什么转测开2.线程进程区别,什么场景适合用哪个3.发送一个朋友圈,从发出到别人看到,从数据流转的角度说一下会经历哪些过程4.针对抖音刷到广告视频设计测试用例5.手撕:无重复字符的最长字串
查看8道真题和解析
点赞 评论 收藏
分享
评论
16
28
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务