BOSS 中科软 08.04
1、Hive是什么?
基于数据仓库基础构架,提供一系列工具,进行数据ETL,是一种可以存储、查询、分析在Hadoop中的大规模数据机制,它允许熟悉MR开发者开发 自定义mapper 和reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的工作。
2、Hive架构
- 用户接口:CLI,CLient,WUI
- 元数据存储
- 解释器,编译器,优化器,执行器
- 基于HDFS存储,利用 MR 进行计算
3、Hive 的数据存储
用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据
包含的数据模型:
Table、External Table、Partition、Bucket
Hive UDF
基本的函数