大数据处理架构Hadoop

Hadoop项目结构

大数据处理架构Hadoop
Hive 数据仓库:把SQL语句转换成MapReduce作业
Pig流数据处理:一个基于Hadoop的大规模数据分析平台提供类似SQL的查询语言pig Latin
Oozie作业流调度系统:Hadoop上的工作流管理系统
Zookeeper分布式协调服务:提供分布式协调一致性服务
HBase列族数据库:Hadoop上的非关系型的分布式数据库(随机读写)
Flume 日志收集分析框架:一个高可用的,高可靠的分布式的海量日志采集、聚合和传输的系统
Sqoop 数据导入导出:用于Hadoop与传统数据库之间进行数据传递(关系型数据库到HDFS、HBase、Hive互导)
YARN框架:资源管理和调度器
MapReduce:专门做离线计算和批处理
Tze:把很多的MapReduce作业进行分析优化构建成有向无环图
Spark:逻辑与MapReduce是一样的,也是用Reduce函数去做数据处理(区别:Spark基于内存处理,MapReduce基于磁盘处理的,比MapReduce高一个数量级)
Ambari 部署工具:Hadoop快速部署工具支持Apache Hadoop集群的供应、管理和监控

本文笔记来自中国大学MOOC 厦门大学林子雨老师的《大数据原理与应用》