数据社

2022-05-21 17:29 数据其它

关注

Hive 改表结构的两个坑|避坑指南

Hive 在大数据中可能是数据工程师使用的最多的组件，常见的数据仓库一般都是基于 Hive 搭建的，在使用 Hive 时候，遇到了两个奇怪的现象，今天给大家聊一下，以后遇到此类问题知道如何避坑！

坑一：改变字段类型后更新数据不成功

关于 hive 插入数据的一个小坑，今天插入一个表中数据，插入时写的是常数，比如 0.01 ，表中的字段也是 DECIMAL(5,2)，按照常理插入的应该是 0.01，但是插入后查询是 0，为甚！

遇到问题，咱也不能退缩！就分析呀，看语句没问题啊！还是上网查查有没有坑友。查了一圈发现还是观望最靠谱！上 hive 官网查，呀~ 发现了原因！

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-Decimals

根据官网描述，发现在插入分区表时会出现这种情况，此时需要对之前的分区处理下~：

那就测试一下按照官网的说法:

先建表：

CREATE TABLE `tb_dw_test`(

复制代码

然后插入数据：

insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);

复制代码

然后查询：

hive> select * from tb_dw_test;

复制代码

发现结果跟想象中的一样~

然后修改表字段：

ALTER TABLE tb_dw_test REPLACE COLUMNS (a DECIMAL(5,2))

复制代码

然后再次插入数据：

insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);

复制代码

查询：

hive> select * from tb_dw_test;

复制代码

发现有问题啦！

那么按照官网处理：

Determine what precision/scale you would like to set for the decimal column in the table. For each decimal column in the table, update the column definition to the desired precision/scale using the ALTER TABLE command:

ALTER TABLE foo CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);

复制代码

If the table is a partitioned table, then find the list of partitions for the table:If the table is not a partitioned table, then you are done. If the table has partitions, then go on to step 3

SHOW PARTITIONS foo;

复制代码

This can be done with a single ALTER TABLE CHANGE COLUMN by using dynamic partitioning (available for ALTER TABLE CHANGE COLUMN in Hive 0.14 or later, with HIVE-8411):Each existing partition in the table must also have its DECIMAL column changed to add the desired precision/scale.

SET hive.exec.dynamic.partition = true;

复制代码

所以参照官网，这里对表作如下处理：

ALTER TABLE tb_dw_test PARTITION (statis_date) CHANGE COLUMN a a DECIMAL(5,2);

复制代码

再次插入数据：

insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);

复制代码

然后查询：

hive> select * from tb_dw_test;

复制代码

发现结果跟想象中的一样了。这个坑算是过去了~

坑二：增加字段后更新数据不成功

还是上面的例子那张表，再增加一个字段：

alter table tb_dw_test add COLUMNS (b varchar(5))

复制代码

然后查询

hive> select * from tb_dw_test;

复制代码

发现新增的字段默认的值是 NULL，现在我重新覆盖一下元数据，给增加的字段一个值：

insert overwrite table tb_dw_test partition(statis_date=20160501) values (2.01,0371);

复制代码

然后查询：

hive> select * from tb_dw_test;

复制代码

不是我们想象的结果,查看一下官方文档说明发现了问题的所在：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns

‍

靠谱的官网用红色框框提示我们！那就这样处理：

alter table tb_dw_test replace COLUMNS (a  decimal(5,2),b varchar(5)) CASCADE;

复制代码

直接查询，发现数据显示的数据已经发生了变化了~

hive> select * from tb_dw_etst;

复制代码

避坑指南

官方文档！！官方文档！！官方文档！！

综上发现，我们是按照 Oracle 这样的标准在考虑 HiveSQL，但是通过阅读官方文档发现二者之间还是有很大不同的，底层原理差别还是有点大！通过这两次踩坑发现，仔细阅读官方文档的重要性！！！

所以，以后大家遇到大数据开源组件的报错问题，第一就是去找官方文档，然后就去找社区，总能发现惊喜！

#大数据开发##数据仓库工程师##大数据开发工程师##面试题目#

全部评论

推荐最新楼层

酥糖

机电工程师

学到了，太实用了，感谢大佬分享

点赞回复

发布于 2022-05-22 16:20

数据社

楼主

数据其它

有用的话，大家点个赞

点赞回复

发布于 2022-05-22 17:25

联想

校招火热招聘中

官网直投

牛客231283432号

Java

学长好

点赞回复

04-20 19:39

点赞评论收藏

04-19 12:46

面试官人好好，是我第一次听到面试官跟我说"您"的，泪目。常规八股：C++常量指针和指针常量void func() const是什么作用extern 关键字class和struct的区别struct可以加函数吗讲讲C++的多态场景题： 类A与类B类A有int a, 求sizeof(A)static ,求sizeof(A）B继承自A，sizeof(B) sizeof(A)static关键字作用A空了，sizeof(A)几个字节？B和A都有各自的print函数，B继承自A，print不是虚函数，用A类指针指B类对象，输出什么？如果print是虚函数呢？虚函数表指针怎么运作的...

点赞评论收藏

04-19 16:44

点赞评论收藏

自闭高

03-04 19:41

门头沟学院化工与制药类

逻辑题完全不会

我真该死，离面试最近的一次😢早知道用电脑搜了，30题我才15分

点赞评论收藏

匿名牛油

不愿透露姓名的神秘牛友

04-17 14:34

校招Offer选择：思特奇、浩鲸科技、信安世纪、数字浙江

思特奇 Java工程师 12.0k*13.0

点赞评论收藏

16 28 评论

招聘动态

联易融2024届营销管培生校园招聘

联想

24届应届+25届实习

小红书

24届春招&25届实习生招聘

24届春招硬件高薪职位集合

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

232597次浏览 5375人参与

# 转眼已经银四了，你收到offer了吗 #