大数据系列hive——安装
目录
一、简介
hive是数据仓库技术,针对主题的数据进行分析,为企业提供决策支持。它和数据库不同,不会产生任何数据,也不消费任何数据。它的特点是面向主题的,集成的,非易失的,时变的。
hive的元数据存储在关系型数据库上,可以是mysql,默认为derby。它所处理的数据存储在hadoop的hdfs上。它提供一种类似于sql的语言,可以通过该语言直接写hadoop的mapReduce。它自身类似于数据库,也有表,视图,索引(位图索引)的概念。
二、安装
hive需要相应版本的hadoop和jdk。这里介绍的hive版本为2.3.3,需要hadoop2.x.y,jdk7+
安装非常方便,下载后解压即可。
三、配置
-
环境变量配置
HIVE_HOME=hive安装路径
PATH=$HIVE_HOME/bin
-
hdfs初始化
hdfs dfs -mkdir /tmp
hdfs dfs -chmod g+w /tmp
hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -chmod g+w /user/hive/warehouse
-
xml配置
从$HIVE_HOME/conf中拷贝hive-default.xml.template文件,重命名为hive-site.xml
修改hive-site.xml文件
将hive.metastore.schema.verification的值修改为false,否则调用show databases时报错如下
将所有${system.io.tmpdir}修改为自己创建的文件夹,否则启动时报错如下
将所有${system.user.name}修改为自己的用户名,否则调用show databases时报错如下
-
初始化数据库
./schematool -initSchema -dbType derby
不初始化数据库的话,调用show databases时报错如下
如果初始化时报错如下
调用如下命令mv metastore_db metastore_db.tmp
配置完以上信息后,应该就没什么问题了,调用show databases显示默认数据库如下