0%

NameNode RPC 延迟

NameNode RPC 延迟分析


前言

CDH 有个 NameNode RPC 延迟测试,用于检查NameNode响应请求所花费的平均时间的移动平均值不超过某个值。

此运行状况测试失败,可能表明 NameNode 配置错误,NameNode 写入其数据目录之一时遇到问题,或者可能表明容量规划问题。

分析

检查 NameNode RpcQueueTime_avg_time 是否异常,如果耗费时间较长,这表明大部分RPC延迟都花在了请求排队上,请尝试增加 NameNode NameNode Handler Count,即dfs.namenode.handler.count

如果 NameNode RpcProcessingTime_avg_time 指示大部分 RPC 延迟是由于请求处理引起的,请检查以确保存储 HDFS 元数据的每个目录运行正常,比如权限异常、磁盘问题

在 CDH NameNode 图表面板上可以看到这两个监控项曲线

当然更多时候是人员不规范使用 HDFS 造成的,这种更多需要借助 hdfs-audit 分析 rpc 画像,找到幕后真凶,请参考之前写的采集 hdfs-audit 分析 rpc 画像

监控设置

可以使用 NameNode RPC 延迟阈值 和 NameNode RPC 延迟监视窗口 来配置此监控


参考链接