hadoop 生态圈

hadoop 生态圈

    • HDFS解决底层的存储问题
    • Yarn解决资源调度与任务管理
      • 资源调度:有了计算任务请求后,决定分配到哪些机器上去执行
      • 任务管理:任务在执行的过程中,进行过程监控、状态反馈、再调度等工作。
    • MapReduce,解决分布式编程门槛高问题,基于其框架对分布式计算的抽象map和reduce,可以轻松写分布式计算程序。
    • Hive解决数据仓库构建问题,与mysql等数据库类同,只是其是基于hadoop平台的存储与计算。
    • Streaming:解决非Java开发人员使用Hadoop平台的语言问题,使各种语言如c++/python/shell等均可无障硬使用hadoop平台。
    • Hbase:是一个基于列式存储的分布式数据库,解决在某些场景下,需要hadoop平台数据及时响应的问题。
    • Zookeeper: 分布式协同服务,主要应用单点故障场景中的master选举、namenode命名一致性等场景中。
    • Ambari 集群统一管理平台,即Apache Ambari。它是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等