Zookeeper概述

什么是Zookeeper

Zookeeper是一个底层的分布式协调服务工具！

它是hadoop生态体系中很多分布式系统（HDFS、YARN(HA)、HBASE(ZK)、KAFKA.........）的基础组件

基本的功能

为客户提供写数据功能存储关键状态数据数据量小

为客户提供读数据功能

为用户提供数据变化时的监控功能 1) 节点的子节点个数 2) 节点的数据变化

Zookeeper的功能其实很简单：就是提供协调服务！

协调服务具体来说有三方面：

帮使用者存储一些状态信息

帮使用者读取一些信息

帮使用者监视一些信息的变化，并将变化作为事件通知给使用者

Zookeeper的高可靠性

是一个分布式的系统,多个节点 并且节点中记录的数据是完全一致(一致性) , 当某个zk的节点宕机之后不会影响工作 .

Zookeeper的节点不存在单点故障！Zookeeper的主节点是可以动态选举出来的！

Zookeeper的数据存储模型

znode类似于Linux的目录结构(TREE) , 维护了节点的层级关系 ,

真正的数据存储是以key:value的形式存储的 , 存储的是字节数据!

zookeeper中对数据的存储采用key-value的形式

Zookeeper的特点

1）Zookeeper是分布式的，具有高可用高容错性

2）Zookeeper可以写数据状态数据数据大小很小很小

3）Zookeeper可以读数据

4）Zookeeper可以进行状态监听和事件通知

基于Zookeeper的下的hadoop HDFS-HA 高可用模式

之前我们讲过HDFS 集群中单节点故障的问题，一个主节点一旦发生宕机，整个HDFS 集群将不可使用，这是很严重的事故。影响HDFS集群不可使用主要包括以下两种情况：

1）NameNode机器宕机，整个集群将不可使用，重启后才可使用

2）NameNode机器软件或者硬件升级，导致集群短时间内不可使用

Hadoop给出了HDFS的高可用HA方案

HDFS通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，比如处理来自客户端的RPC请求，而Standby NameNode则不对外提供服务，仅同步Active NameNode的状态，以便能够在它失败时快速进行切换。

Zookeeper之HDFS-HA高可用及Zookeeper的配置和安装