全部产品
Search
文档中心

开源大数据平台E-MapReduce:查看节点健康状态

更新时间:Oct 29, 2024

节点健康状态展示了当前节点的运行状态是否正常,它是由多个健康检查项结果汇总而成的。本文将介绍如何查看节点的健康状态和相关的健康检查项。

前提条件

已创建集群,详情请参见创建集群

使用限制

仅适用于DataLake、Dataflow、OLAP、DataServing和Custom类型的集群。

查看最新节点健康状态

  1. 进入节点管理页面。

    1. 登录E-MapReduce控制台

    2. 在顶部菜单栏处,根据实际情况选择地域和资源组

    3. 集群管理页面,单击目标集群所在行的节点管理

  2. 节点管理页面,您可以查看节点组内节点健康情况。

    • 绿色数字:节点组内良好节点的数量。

    • 黄色数字:节点组内存在隐患节点的数量。

    • 红色数字:节点组内异常节点的数量。

    • 灰色数字:节点组内未知和无状态节点的数量。

    您还可以在节点管理页面,单击目标节点组的image.png图标。在下方的健康状态列,即可查看每个节点的健康状态。

    节点健康状态主要有五种类型,分别是良好、存在隐患、异常、未知和无状态。不同状态类型对应不同图标展示。

    图标

    健康状态

    说明

    image.png

    良好

    节点运行正常。

    image.png

    存在隐患

    节点运行正常,但节点健康检查项检测出隐患问题,需关注处理。

    image.png

    异常

    节点不可用,节点健康检查项检测出严重问题,请及时处理。

    image.png

    无状态

    节点在安装流程或手动停止后不进行健康检查,无需关注。

    image.png

    未知

    无法获取节点健康检查项结果。如排查业务无问题,无需关注。

查看节点的健康检查

  1. 节点管理页面,单击目标节点组的image.png图标。

  2. 单击健康状态列旁的查看检查项

  3. 在弹出的面板中,可以查看最新健康检查结果和节点健康检查历史。

    节点健康检查项说明如下表所示。

    检测项名称

    检测项含义

    检测项阈值

    检测项单位

    节点存活状态

    检测当前节点存活状态是否正常。

    无阈值

    -

    文件描述符使用率

    检测当前节点文件描述符使用率(u)。

    • 存在隐患:95<=u<99

    • 异常:99<=u

    %

    磁盘故障事件

    检测是否发生底层磁盘故障。

    无阈值

    -

    系统环境检测

    检测系统重要文件、Java、Python等是否可用。

    无阈值

    -

    组件服务依赖环境检测

    检测集群组件依赖的包文件、存储目录等是否可用。

    无阈值

    -

    网络发送丢包率

    检测网络发送的丢包率(u)。

    • 存在隐患:1.0<=u<2.5

    • 异常:2.5<=u

    %

    网络接收错误率

    检测网络接收的错误率(u)。

    • 存在隐患:0.1<=u<0.5

    • 异常:0.5<=u

    %

    磁盘读写延迟

    检测磁盘平均读写延迟(u)。

    • 存在隐患:400<=u<800

    • 异常:800<=u

    毫秒

    网络接收丢包率

    检测网络接收的丢包率(u)。

    • 存在隐患:1.0<=u<2.5

    • 异常:2.5<=u

    %

    网络发送错误率

    检测网络发送的错误率(u)。

    • 存在隐患:0.1<=u<0.5

    • 异常:0.5<=u

    %

    系统故障事件

    检测是否发生底层系统故障。

    无阈值

    -

    CPU使用率

    检测当前节点CPU使用率(u)。

    • 存在隐患:95<=u<99

    • 异常:99<=u

    %

    磁盘Inode使用率

    检测磁盘Inode使用率(u)。

    • 存在隐患:90<=u<99

    • 异常:99<=u

    %

    内存使用率

    检测当前节点内存使用率(u)。

    • 存在隐患:95<=u<99

    • 异常:99<=u

    %

    磁盘空间使用率

    检测磁盘空间使用率(u)。

    • 存在隐患:90<=u<99

    • 异常:99<=u

    %