Hadoop生态体系简单介绍

 

Hadoop生态体系简单介绍

一、数据来源层

1、结构化数据(数据库)

2、半结构化数据(日志文件)

3、非结构化数据(视频,PPT等)

二、数据传输层

1、Flume收集日志

2、Sqoop数据传递

3、Kafka消息队列

三、数据存储层

1、HDFS分布式文件存储

2、HBase非关系数据库

四、资源管理层

Yarn资源管理

五、数据计算层

1、MapReduce离线计算

(1)Hive数据查询

(2)Mahout数据挖掘

2、Spark Core内存计算

(1)Mahout数据挖掘

(2)Spark Mlib数据挖掘

(3)Spark R数据分析

(3)Spark Sql 数据查询

(3)Spark Streaming实时计算

3、Storm实时计算

六、任务调度层

1、Oozie任务调度

2、azkaban任务调度