2019-04-22 14:23 已编辑华为_2012实验室_Java工程师

关注

macOS下 Hive 2.x 的安装与配置

1 简介

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

Apache Hive起初由[Facebook]开发，目前也有其他公司使用和开发Apache Hive，例如[Netflix]等。亚马逊公司也开发了一个定制版本的Apache Hive，亚马逊网络服务包中的Amazon Elastic MapReduce包含了该定制版本。

2 环境

操作系统
Hadoop版本
hadoop-2.6.0-cdh5.7.0
MySQL版本

mysql-connector-java版本：5.1.38

Hive版本

2.3.4

3 安装Hive

3.1 先确保已经正确安装并运行了hadoop

3.2 下载Hive安装包

官网下载

将安装包移动至：
../hadoop-2.6.0-cdh5.7.0/ 目录下，此目录是本地安装Hadoop的目录

移动至此处后，解压缩

tar -xzvf apache-hive-2.3.4-bin.tar.gz

并将解压后的文件名改为hive，方便配置。

例如本机Hive的安装路径为

3.3 配置系统环境变量

3.3.1 修改~/.bash_profile

// 或者修改/etc/profile文件

vim ~/.bash_profile

添加内容

export HIVE_HOME=/Volumes/doc/hadoop-2.6.0-cdh5.7.0/hive
export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/conf

退出保存后，在终端输入，使环境变量立即生效

source ~/.bash_profile

4 修改Hive配置

4.1 新建文件hive-site.xml

在 ../hive/conf下
添加hive-site.xml内容

4.2 hive-env.sh

复制hive-env.sh.template为hive-env.sh
修改hive-env.sh内容

5 MySQL 权限配置

5.1 给用户赋予权限

以使得该用户可以远程登录数据库：
如果上面查询到有信息,但host为localhost或其他值，就需要根据实际需求来更新表信息
```
grant all privileges on 库名.表名 to '用户名'@'IP地址' identified by '密码' with grant option;
flush privileges;
```
库名:要远程访问的数据库名称,所有的数据库使用“”
表名:要远程访问的数据库下的表的名称，所有的表使用“”
用户名:要赋给远程访问权限的用户名称
IP地址:可以远程访问的电脑的IP地址，所有的地址使用“%”
密码:要赋给远程访问权限的用户对应使用的密码

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' WITH GRANT OPTION;

使改变立即生效：

FLUSH PRIVILEGES;

6 向/usr/hadoop/hadoop-2.6.2/hive/lib中添加mySql连接库：

6.1 官网下载连接驱动包

6.2 将下好的包解压缩

解压后,将此文件夹下mysql-connector-java-8.0.15.jar

复制到../hive/lib下

注意：需要给/tmp文件夹设置写权限，同时确保 hadoop不在安全模式下，可以执行此命令使hadoop退出安全模式：hadoop dfsadmin -safemode leave

7 启动Hive

在命令行运行 hive 命令时必须保证HDFS 已经启动。可以使用 start-dfs.sh 脚本来启动 HDFS。

7.1 如果是第一次启动Hive，则需要先执行如下初始化命令

schematool -dbType mysql -initSchema

7.2 启动Hive

完成基本的环境配置!

#Java#

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

07-25 17:26

终于有大厂实习offer了

点赞评论收藏

07-22 12:23

广州软件学院运营

现在到底还有没有正常的工作...

码农索隆：竞争压力小，就你一个不用卷

点赞评论收藏

06-13 17:33

门头沟学院 Java

27小厂面经

顺序不记了，大致顺序是这样的，有的相同知识点写分开了1.基本数据类型2.基本数据类型和包装类型的区别3.==和equals区别4.ArrayList与LinkedList区别5.hashmap底层原理，put操作时会发生什么6.说出几种树型数据结构7.B树和B+树区别8.jvm加载类机制9.线程池核心参数10.创建线程池的几种方式11.callable与runnable区别12.线程池怎么回收线程13.redis三剑客14.布隆过滤器原理，不要背八股，说说真正使用时遇到了问题没有（我说没有，不知道该怎么回答了）15.堆的内存结构16.自己在写项目时有没有遇见过oom，如何处理，不要背八股，根据真实经验，我说不会17.redis死锁怎么办，watchdog机制如何发现是否锁过期18.如何避免redis红锁19.一个表性别与年龄如何加索引20.自己的项目的QPS怎么测的，有没有真正遇到大数量表21.说一说泛型22.springboot自动装配原理23.springmvc与springboot区别24.aop使用过嘛？动态代理与静态代理区别25.spring循环依赖怎么解决26.你说用过es，es如何分片，怎么存的数据，1000万条数据怎么写入库中27.你说用limit，那么在数据量大之后，如何优化28.rabbitmq如何批次发送，批量读取，答了延迟队列和线程池，都不对29.计网知不知道smtp协议，不知道写了对不对，完全听懵了30.springcloud知道嘛？只是了解反问1.做什么的？短信服务，信息量能到千万级2.对我的建议，基础不错，但是不要只背八股，多去实际开发中理解。面试官人不错，虽然没露脸，但是中间会引导我回答问题，不会的也只是说对我要求没那么高。面完问我在济宁生活有没有困难，最快什么时候到，让人事给我聊薪资了。下午人事打电话，问我27届的会不会跑路，还在想办法如何使我不跑路，不想扣我薪资等。之后我再联系吧，还挺想去的😭，我真不跑路哥😢附一张河科大幽默大专图，科大就是大专罢了

查看30道真题和解析

点赞评论收藏

07-18 15:12

华南理工大学 Java

太崩溃了，985准大三Java还是找不到实习

一大堆打招呼已读不回，面试也几乎没有，到底是为什么。。简历学着润色了很多次，实习从四月份找到现在一边背八股一边刷力扣，挫败感真的太强了家里人也一直上压力，很多学校没我好的高中同学也找到了😭😭快不行了真的想跳了

白火同学：先说结论，准大三不是特别好找实习，boss沟通300+没有实习是很正常的情况。一是暑期实习时间太短了，二是在这么多准大四都找不到实习，从实习时间和掌握技术层面，企业会优先看他们。再说简历，其实985本+准大三到这水平的简历也很优秀了，要说的话，项目经历可以再优化一下，可以基本围绕采取STAR原则，分为项目概述、技术架构、技术亮点、实现结果，再发给AI润色一下。最后说操作，准大三的话，如果想找实习那就多投，不过现在也7月中旬了，时间上已经略晚了。如果7月底实在找不到，也可以多刷点算法，多学点技术，这实习也不至于一定得有，当然有更好。

点赞评论收藏