通过 JN 集群共享 NN 节点状态,通过 ZKFC 选举active NN,自动监控 NN 节点状态,自动切换
转载来源
1 | 作者:lipeng_bigdata |
原理
HDFS 中 NameNode 等的 HA 是基于 ZooKeeper 实现的
它应用了ZooKeeper集群的如下功能或特性
- 只要半数以上节点还存活,就继续能对外提供服务
- ZooKeeper通过Paxos算法提供了leader选举功能,其它follower learn leader
- ZooKeeper提供了watcher机制,只要ZooKeeper上znode增减,或内容发生变化,或其子znode有增减,客户端都可以通过注册的watcher获得通知
- ZooKeeper提供了持久化节点和临时节点,尤其是临时节点EPHEMERAL,其在ZooKeeper客户端连接断掉后,会自动删除
正是基于ZooKeeper的上述特性,HDFS的NameNode实现了HA,
NameNode的状态大致可分为Active和Standby两种,
NameNode竞争在ZooKeeper指定路径上注册临时节点,
将自己的host、port、nameserviceId、namenodeId等数据写入节点,
哪个NameNode争先写入成功,哪个就成为Active NameNode。
然后,会有后台工作线程周期性检查NameNode状态,
并在一定条件下(比如Active NameNode节点发生故障等)发生竞选,
由NameNode再去竞争,实现故障转移和状态切换。
上述就是HDFS NameNode HA实现的大体思路。
而HDFS NameNode HA的架构和实现细节是怎么样的?下面我来介绍下。
实现
首先上一张Hadoop HDFS NameNode HA的设计图,如下:
简单描述下这张图
首先,NameNode(NN)、DataNode(DN)均是HDFS中的组件或节点,NN有两个,分为Active和Standby状态,DN有多个,DN周期性向Active和Standby做数据块汇报
其次,处于中间位置的,实现HDFS NameNode HA最关键的组件是FailoverController,它是运行在NameNode节点上的守护进程,将Active NN节点的信息通过竞争的方式注册到ZooKeeper上,并实现以下三个基本功能
1) 有一个后台线程,周期性的检查NameNode的健康状况,即粗的红色拐弯箭头的Monitor Health,触发状态选举等
2) 定期保持与ZooKeeper的心跳,完成Leader选举(即Active节点选举)和检查Active NN ZNode节点状态等工作,即最上面与ZooKeeper交互的蓝色箭头
3) 向NameNode发送一些命令,完成状态切换
所以,NN HA 的主体思路就是
1、NN竞争在ZooKeeper上注册,即create一个临时节点,写入NN的host、port、nameserviceId、namenodeI等信息,那个写入成功,那个就是Active状态;
2、注册成功后,通过create后的watcher机制,FailoverController会发送命令给各个NN,让其确定各自状态和职责;
3、Monitor Health会周期性连接NN,检查NN状态,并由可能触发重新选举,即重复1-2;
4、FailoverController会与ZooKeeper保持心跳,注册的临时节点消失后,也会触发重新选举。
那么,HDFS 是如何实现 NameNode HA 的呢?对应上图,Hadoop 中实现了以下模型
上图的三个关键组件即是:
1、DFSZKFailoverController(继承自抽象类ZKFailoverController):ZKFC,故障转移控制器,守护进程,负责总体故障转移和命令发布;
2、ActiveStandbyElector:Active、Standby选举器,实现选举功能;
3、HealthMonitor:健康监视器,实现NN状态的定时监控。
上述组件各自是如何实现的,可以参阅下方链接