HIVE基础知识（一）--HIVE架构

1 什么时Hive?

由Facebook开源用于解决海量结构化日志的数据统计；
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能；
构建在Hadoop之上的数据仓库；
1. 可以将数据通过sql语句来处理，支持提取，转换，加载以及数据分析等大数据作业。
2. 可以将结构化日志数据转化为文件存储在HDFS或者Hase等数据存储系统上。
3. 底层用mapreduce对数据进行计算，也可以自己通过mapreduce，spark编写程序来拓展hive的功能来实现更多自定义的数据处理。；

本质是：将HQL转化成MapReduce程序

优点及使用场景：

Hive 不是

HIVE基础知识（一）--HIVE架构

CLI(hive shell)、JDBC/ODBC(java访问hive)，WEBUI(浏览器访问hive)

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的derby数据库中，推荐使用采用MySQL存储Metastore；

使用HDFS进行存储，使用MapReduce进行计算；

包含：解析器、编译器、优化器、执行器；

解析器：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误(比如select中被判定为聚合的字段在group by中是否有出现)；
编译器：将AST编译生成逻辑执行计划；
优化器：对逻辑执行计划进行优化；
执行器：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/TEZ/Spark；