大数据之 --- Cloudera Manager平台的理解

现有公司使用的是Cloudera Manager平台。结点Cluster 1(CDH 5.7.0,Parcel)主要包含Hbase、HDFS、Hive、Hue、Kafka、Oozie、Sqoop 1 Client以及YARN(MR 2 Included 和Zookeeper)

Hive主要是通过HQL语句做查询,做复杂的查询,产生批处理语句,做离线查询,给YARN做运算。旧版的Hive只能做查询,不能增删改。新版本的Hive(3.x.x)是支持批量的增删改的

Hbase是做实时的查询,可能增删改。

Hive和Hbase都是查询和处理存储在HDFS上的数据。两者的使用场景不同,Hbase是实时查询,Hive是离线查询。Hbase本身就一个分布式的数据库NoSql数据库。Hive是Hadoop中的一个组件;作为一个数据仓库,将HDFS中结构化的数据映射为数据库中的表,这样的话,就省去了程序员为MapReduce编写程序的繁琐过程,提高了工作效率

Oozie是做调度

Sqoop是做抽取数据,即将关系型的数据库抽取到Hadoop中等非关系型数据库中,同理也可以将非关系型数据库中的抽到关系型数据库中。

大数据之 --- Cloudera Manager平台的理解