Hadoop Yarn HA 概念

Hadoop Yarn HA

Yarn作为资源管理系统，是上层计算框架（如MapReduce,Spark）的基础。
在Hadoop 2.4.0版本之前，Yarn存在单点故障（即ResourceManager存在单点故障），一旦发生故障，恢复时间较长，且会导致正在运行的Application丢失，影响范围较大。
从Hadoop 2.4.0版本开始，Yarn实现了ResourceManager
HA，在发生故障时自动failover，大大提高了服务的可靠性。
ResourceManager（简写为RM）作为Yarn系统中的主控节点，负责整个系统的资源管理和调度，内部维护了各个应用程序的ApplictionMaster信息、NodeManager（简写为NM）信息、资源使用等。
由于资源使用情况和NodeManager信息都可以通过NodeManager的心跳机制重新构建出来，因此只需要对ApplicationMaster相关的信息进行持久化存储即可。
在一个典型的HA集群中，两*立的机器被配置成ResourceManger。
在任意时间，有且只允许一个活动的ResourceManger,另外一个备用。

Hadoop Yarn HA 概念