Hive基础语法

一、数据库操作

create database database_name    //创建数据库
drop database database_name    //删除数据库
user database_name    //使用数据库
describe database database_name    //查看数据库详细信息

二、表操作
创建表

create [external] table table_name [(col_name data_type [comment col comment],...)]
[comment table_comment]
[partitioned by (col_name data_type,...)]
[clustered by (col_name,...) sorted by (col_name [ASC|DESC],...) into num_buckets buckets]
[row format row_format]
[field terminated by]
[stored as file_format]
[location hdfs_path]

external 指定创建外部表
clustered by 指定分桶
row format 指定列分割信息,ROW FORMAT DELIMITED 代表一行是一条记录
field terminated by 指定列分隔符
stored as 指定数据存储文件格式,文件数据是纯文本,使用 STORED AS TEXTFILE。如果数据需要压缩,使用STORED AS SEQUENCEFILE

三、导入数据
1、从本地导入数据【复制操作】
load data local inpath '/filename_path' [overwrite] into table table_name
2、从hdfs导入数据【移动操作】

load data inpath 'hdfs://filename_path' [overwrite] intp table table_name
hadoop fs -put filename_path /user/hive/warehouse/tb_order 

[ /user/hive/warehouse/该路径为hive数据库在hdfs上的存储路径具体参照配置]
3、从已有表导入数据

into [overwrite] table mytable [patition()] select * from from_table;

4、创建表的时候导入其他表的数据

create table [if not exists] table_name as select * from from_table;

四、导出数据

1、导出到本地文件系统

insert [overwrite] local directory 'path' select * from hive_table

2、导出到hdfs

insert [overwrite] directory "path" select * from hive_table

3、导出到另一张hive表

insert into to_table_name select * from from_table_name

五、外部表
已经在hdfs存在的文件,不需要挪动到hive的默认路径就可以创建外部表,外部表删除的时候不会删除hdfs上的文件只会删除表结构
创建外部表

create external table (id int,name string) 
row format delimited 
fields terminated by '\t' 
stored as textfile 
location '/path'

六、分区表
创建分区表可以优化数据统计

create table (id int,name string) 
partitioned by (time string) 
row format delimited 
fields terminated by '\t' 
stored as textfile 

上传本地数据到指定分区
load data local inpath 'path' [overwrite] into table table_name partition (time='20210330')

七、分桶表
#设置变量,设置分桶为true, 设置reduce数量是分桶的数量个数
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=4;

create table (id int,name string) 
partitioned by (time string) 
clustered by (id) sorted by (name) into 2 buckets 
row format delimited 
fields terminated by '\t' 
stored as textfile 

注意: OVERWRITE关键字;目标表(或者分区)中的内容会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中

八、表的修改

1、增加分区
alter table table_name add partiton(time='20210330'),..

2、删除分区
alter table table_name drop partiton(time='20210330'),..

3、表重命名
alter table table_name rename to new_table_name

4、增加列
alter table table_name add columns (version string,..)//新增字段在所有列后,在partiton列前

5、替换所有列
alter table table_name replace columns (id int,name string)//之前的列全被替换成了新的字段列

show partitons table_name //查看表分区

更新中。。。

全部评论

相关推荐

04-12 21:52
南开大学 Java
鼠鼠有点摆,去年边学着没敢投简历,没实习。从1月到现在总共面了五次,四次字节的日常(HR打电话约面试才敢去的),然后一次腾讯的暑期,都是一面挂,其他则是没给面。暑期的岗,4.2才开始海投,前面想着等字节第四次一面后再投,结果挂,而且感觉投晚了。字节投了11个,9个简历挂,剩下2个没动静。阿里全都简历挂,剩下的在"投递简历"。腾讯给了一次面。然后其他大中厂、手机厂什么的都是做完测评or笔试就没下文,打开几个看也是终止流程,感觉剩下的也应该是简历挂了。感觉是简历的原因?项目部分,几次面试,感觉面试官主要就拷问过秒杀这一个点。自己说的时候会尝试把sse那条说成亮点,但除了腾讯面试官问过一下这整个点在业务方面对用户有什么用之类的问题外,其他最多只是问一下sse八股...感觉也许不是很让面试官感兴趣。这个短链接也是无人问津,就被问过一回雪花算法的设计。也许我该拿点评改改,然后再在网上找一个什么项目,凑两个,而不是用自己现在这两个项目?或者是点评改改放前面,然后原本第一个项目,把秒杀抽掉,剩下的想办法从网上火的RAG项目里移植点亮点,或者直接就用网上的RAG项目?感觉我主要还是偏向后端开发,但是感觉如果除开点评,再拿一个项目,想不到有什么自己能掌控且跟点评不重的。然后鼠鼠之前主要的问题是担心面试让打开项目演示,然后就一直花时间在用AI整第一个项目,第二个项目都没时间整,第四次面试之前还因为太害怕被认为不熟悉项目,跟AI一起把简历的说辞做了大幅度弱化,然后暑期都是拿弱化后的简历投的,感觉是不是看上去太没有吸引力就直接给简历挂了。(图1是弱化后的,图2是弱化前的,但之前3月初投了几家好像也是简历挂。)而且因为3月花了很多时间整在跟AI整代码,导致八股和算法都没怎么看,算法之前有跟灵神题单刷一些,还算入门,但是八股只看了一些基本的,可能面试的时候只答得上来60-70%,而且表述有些混乱,都是想到哪说到哪;前面几回面试基本上都有大板块的基础八股没答出来,比如RedisZ Set数据结构,MQ延时消息、可靠性保证,JVM内存分配的过程、GC roots,JUC锁,设计模式。现在有点不知道该怎么办。求大佬们给点简历修改建议或者面试准备建议,不胜感激!
何时能不做牛马:简历每个点之间的间距可以缩一下。几乎没遇到过要演示项目的情况,即使万一遇上了你也可以说部署在其他电脑上本地没代码。nku不应该简历挂吧?抓紧背背八股练练表达,不要放弃,五六月份找到也不晚(不然还得提前入职
应届生简历当中,HR最关...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务