大数据实训03---Hive数据仓库

数据库:

主要存放实时产生的数据,和业务应用相关,OLTF(面向事务处理)

数据库是为捕获数据而设计

数据仓库:

依照分析需求、分析维度和设计指标来进行设计。

数据仓库存放的是历史数据,OLAP(面向分析处理)

数据仓库为分析数据而设计

Hive

 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一 张数据库表,并提供类SQL查询功能。 

其实HIVE就是一个SQL解析引擎,它将SQL语句转译成M/R JOB然后 在Hadoop执行,来达到快速开发的目的。它的表其实就是一个Hadoop的目录/文件(HIVE默认表存放路径一般都是在你工作目录的hive目录里面),按表名做文件夹分开。

数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表

可以看成是从SQL到Map-Reduce的映射器 

Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库 (MySql、Oracle)在大数据处理上的瓶颈 

hive官网

Hive体系结构

大数据实训03---Hive数据仓库

Hive运行机制

大数据实训03---Hive数据仓库

持续更新...