大数据:基于Hadoop的数据仓库Hive的基本理论简介(附通俗说明
数据仓库Hive
Hive:是基于hadoop的一个数据仓库
用于:存储数据集合,在进行数据分析(既然分析了,那就肯定有结果,结果肯定有实际用途:为公司运营规划做支撑)
【存储、分析】
说详细了就是:将结构化的数据文件(如id time address area的网页访客) 映射为一张数据表,提供HQL的查询语句,转化为MapReduce在hadoop上执行
为什么用Hive:
1.操作接口是类似SQL语法的HQL
2.不用写MapReduce(查询逻辑复杂,开发难度大 成本高)
3.拓展功能方便,也是分布式的
4.有自定义的函数可以使用(延展性)
特点:
可拓展、延展性、容错性(因为是分布式的)、简单(HQL)、离线处理(日志)、处理大数据集
架构图:
请求——Hive + MySQL——MapReduce——HDFS
Hive和Hadoop的关系
Hive利用HDFS存储,利用MapReduce查询——→所以上面说Hive用于存储数据集和分析数据,都不是在自身上完成的,都是借助hadoop里的两大核心元素完成的
和传统数据库的区别:
前面没有什么的,就是最后注意索引的区别,想想oracle的索引怎么玩的
安装:
安装元数据库—mysql。。。用navicat连接mysql。。。Hive的安装配置:
配置HIVE_HOME环境变量...配置元数据信息...
Hive应用。。。先启动Hadoop集群(HDFS和YARN)
创建库、创建表.......
——————————————————————————————————————
评论区互动话题:
对于理论知识,这样通俗的理解是好是坏?