Hadoop 安全模式 Safe mode
概念
什么是 HDFS 安全模式?
安全模式是 HDFS 所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,
而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,
DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,
HDFS自动离开安全模式。如果HDFS出于安全模式下,则文件block不能进行任何的副本复制操作,
因此达到最小的副本数量要求是基于datanode启动时的状态来判定的,启动时不会再做任何复制
在安全模式期间,Hadoop主要做这些事情
NameNode 从磁盘读取 FsImage 和 EditLog 的信息,将 EditLog 中的所有事务应用到 FsImage 的内存中,并将这新版本的数据刷新到磁盘上的新 FsImage中
接收集群中的 DataNode 块报告
配置
系统什么时候才离开安全模式,需要满足哪些条件?当收到来自datanode的状态报告后,namenode根据配置,确定
1)可用的block占总数的比例
2)可用的数据节点数量符合要求之后,离开安全模式。
如果有必要,也可以通过命令强制离开安全模式
与安全模式相关的主要配置在 hdfs-site.xml 文件中
dfs.namenode.replication.min: 最小副本级别,成功执行写操作所需要创建的最小副本数目,默认为1.
dfs.namenode.safemode.threshold-pct: 指定达到最小副本数的数据块的百分比,当实际比例超过该配置后,才能离开安全模式(但是还需要其他条件也满足)。默认为0.999f,也就是说符合最小副本数要求的block占比超过99.9%时,并且其他条件也满足才能离开安全模式。如果为小于等于0,则不会等待任何副本达到要求即可离开。如果大于1,则永远处于安全模式。
dfs.namenode.safemode.min.datanodes: 离开安全模式的最小可用(alive)datanode数量要求,默认为0.也就是即使所有datanode都不可用,仍然可以离开安全模式。
dfs.namenode.safemode.extension: 当集群都达到要求之后,如果在该参数配置的时间段之后依然能满足要求,此时 NameNode 会自动退出 Safemode 状态。单位为毫秒,默认为30000,即30秒.也就是当满足条件并且能够维持30秒之后,离开安全模式。 这个配置主要是对集群的稳定程度做进一步的确认。避免达到要求后马上又不符合安全标准。
总结一下,要离开安全模式,需要满足以下条件:
1)达到副本数量要求的block比例满足要求
2)可用的datanode节点数满足配置的数量要求
3) 1、2 两个条件满足后维持的时间达到配置的要求
命令
Hadoop 提供脚本用于对安全模式进行操作,主要命令为hadoop dfsadmin -safemode <command>
command 的可用取值如下
command | 功能 |
---|---|
get | 查看当前状态 |
enter | 进入安全模式 |
leave | 离开安全模式 |
wait | 一直等待直到安全模式结束 |
forceExit | 强制退出安全模式 |
需要知道,当Resource is low时,只有Active NameNode才会进入到安全模式(HDFS-2914)
事故
如果 NN 长时间处于安全模式,那么多半是因为 HDFS 的数据损坏的太多
参考链接