大数据:基于Hadoop的数据仓库Hive的基本理论简介(附通俗说明

数据仓库Hive

Hive是基于hadoop的一个数据仓库

用于:存储数据集合,在进行数据分析(既然分析了,那就肯定有结果,结果肯定有实际用途:为公司运营规划做支撑)

【存储、分析】

说详细了就是:将结构化的数据文件(如id time address area的网页访客) 映射为一张数据表,提供HQL的查询语句,转化为MapReducehadoop上执行

 

为什么用Hive

1.操作接口是类似SQL语法的HQL

2.不用写MapReduce(查询逻辑复杂,开发难度大 成本高)

3.拓展功能方便,也是分布式的

4.有自定义的函数可以使用(延展性)

 

特点:

可拓展、延展性、容错性(因为是分布式的)、简单(HQL)、离线处理(日志)、处理大数据集

 

架构图:

 大数据:基于Hadoop的数据仓库Hive的基本理论简介(附通俗说明

 

请求——Hive + MySQL——MapReduce——HDFS

 

 

HiveHadoop的关系 

Hive利用HDFS存储,利用MapReduce查询——→所以上面说Hive用于存储数据集和分析数据,都不是在自身上完成的,都是借助hadoop里的两大核心元素完成的

 

和传统数据库的区别:

 大数据:基于Hadoop的数据仓库Hive的基本理论简介(附通俗说明

前面没有什么的,就是最后注意索引的区别,想想oracle的索引怎么玩的

 

安装:

安装元数据库mysql。。。用navicat连接mysql。。。Hive的安装配置:

配置HIVE_HOME环境变量...配置元数据信息...

Hive应用。。。先启动Hadoop集群(HDFSYARN

创建库、创建表.......



——————————————————————————————————————

评论区互动话题:

对于理论知识,这样通俗的理解是好是坏?