大数据处理架构Hadoop

Hadoop项目结构

大数据处理架构Hadoop
Hive 数据仓库：把SQL语句转换成MapReduce作业
Pig流数据处理：一个基于Hadoop的大规模数据分析平台提供类似SQL的查询语言pig Latin
Oozie作业流调度系统：Hadoop上的工作流管理系统
Zookeeper分布式协调服务：提供分布式协调一致性服务
HBase列族数据库：Hadoop上的非关系型的分布式数据库（随机读写）
Flume 日志收集分析框架：一个高可用的，高可靠的分布式的海量日志采集、聚合和传输的系统
Sqoop 数据导入导出：用于Hadoop与传统数据库之间进行数据传递（关系型数据库到HDFS、HBase、Hive互导）
YARN框架：资源管理和调度器
MapReduce：专门做离线计算和批处理
Tze：把很多的MapReduce作业进行分析优化构建成有向无环图
Spark：逻辑与MapReduce是一样的，也是用Reduce函数去做数据处理（区别：Spark基于内存处理，MapReduce基于磁盘处理的，比MapReduce高一个数量级）
Ambari 部署工具：Hadoop快速部署工具支持Apache Hadoop集群的供应、管理和监控

本文笔记来自中国大学MOOC 厦门大学林子雨老师的《大数据原理与应用》

大数据处理架构Hadoop

Hadoop项目结构

相关推荐