节点健康状态展示了当前节点的运行状态是否正常,它是由多个健康检查项结果汇总而成的。本文将介绍如何查看节点的健康状态和相关的健康检查项。
前提条件
已创建集群,详情请参见创建集群。
使用限制
仅适用于DataLake、Dataflow、OLAP、DataServing和Custom类型的集群。
查看最新节点健康状态
进入节点管理页面。
在顶部菜单栏处,根据实际情况选择地域和资源组。
在集群管理页面,单击目标集群所在行的节点管理。
在节点管理页面,您可以查看节点组内节点健康情况。
绿色数字:节点组内良好节点的数量。
黄色数字:节点组内存在隐患节点的数量。
红色数字:节点组内异常节点的数量。
灰色数字:节点组内未知和无状态节点的数量。
您还可以在节点管理页面,单击目标节点组的图标。在下方的健康状态列,即可查看每个节点的健康状态。
节点健康状态主要有五种类型,分别是良好、存在隐患、异常、未知和无状态。不同状态类型对应不同图标展示。
图标
健康状态
说明
良好
节点运行正常。
存在隐患
节点运行正常,但节点健康检查项检测出隐患问题,需关注处理。
异常
节点不可用,节点健康检查项检测出严重问题,请及时处理。
无状态
节点在安装流程或手动停止后不进行健康检查,无需关注。
未知
无法获取节点健康检查项结果。如排查业务无问题,无需关注。
查看节点的健康检查
在节点管理页面,单击目标节点组的图标。
单击健康状态列旁的查看检查项。
在弹出的面板中,可以查看最新健康检查结果和节点健康检查历史。
节点健康检查项说明如下表所示。
检测项名称
检测项含义
检测项阈值
检测项单位
节点存活状态
检测当前节点存活状态是否正常。
无阈值
-
文件描述符使用率
检测当前节点文件描述符使用率(u)。
存在隐患:95<=u<99
异常:99<=u
%
磁盘故障事件
检测是否发生底层磁盘故障。
无阈值
-
系统环境检测
检测系统重要文件、Java、Python等是否可用。
无阈值
-
组件服务依赖环境检测
检测集群组件依赖的包文件、存储目录等是否可用。
无阈值
-
网络发送丢包率
检测网络发送的丢包率(u)。
存在隐患:1.0<=u<2.5
异常:2.5<=u
%
网络接收错误率
检测网络接收的错误率(u)。
存在隐患:0.1<=u<0.5
异常:0.5<=u
%
磁盘读写延迟
检测磁盘平均读写延迟(u)。
存在隐患:400<=u<800
异常:800<=u
毫秒
网络接收丢包率
检测网络接收的丢包率(u)。
存在隐患:1.0<=u<2.5
异常:2.5<=u
%
网络发送错误率
检测网络发送的错误率(u)。
存在隐患:0.1<=u<0.5
异常:0.5<=u
%
系统故障事件
检测是否发生底层系统故障。
无阈值
-
CPU使用率
检测当前节点CPU使用率(u)。
存在隐患:95<=u<99
异常:99<=u
%
磁盘Inode使用率
检测磁盘Inode使用率(u)。
存在隐患:90<=u<99
异常:99<=u
%
内存使用率
检测当前节点内存使用率(u)。
存在隐患:95<=u<99
异常:99<=u
%
磁盘空间使用率
检测磁盘空间使用率(u)。
存在隐患:90<=u<99
异常:99<=u
%