本文介绍Hive巡检项及其服务关键指标说明。

异常等级说明

  • P0级异常:非常严重,表示服务已经不可用,必须马上排除问题。
  • P1级异常:较严重,表示服务当前可用,但可能性能较低或者压力较大,也必须马上排除问题。

HiveServer相关巡检项

HiveServer可用性巡检项(inspection_hive_server_availability)

  • 如果检查失败并报:hive server availability permission check is failed

    说明HiveServer巡检用户无权限执行巡检语句,巡检用户权限可能被误删除。

  • 如果检查失败并报:Hive server availability is failed

    说明HiveServer存在问题,需要检查HiveServer进程及日志情况,排除问题。

HiveServer高可用巡检项(inspection_hive_server_ha)

  • 如果多台HiveServer均存活(Hive server HA status is OK),则状态正常。
  • 如果其中有HiveServer存在问题(One or more Hive server failed),则为P1异常,需要立即检查HiveServer进程及日志情况,排除问题。
  • 如果所有HiveServer全部问题(All Hive server are failed),则为P0异常,需要立即检查HiveServer进程及日志情况,排除问题。

HiveServer端口存在性巡检项(inspection_hive_server_port)

检查HiveServer的10000端口在机器上是否存在,如果不存在则说明进程异常,需要立即检查HiveServer进程及日志情况,排除问题。

HiveServerGC巡检项(inspection_hive_server_gc)

检查JVM的memory.heap.usage指标。
  • 如果使用率大于等于95%,则报P0异常,必须马上考虑增加内存,否则服务可能重启导致作业失败。
  • 如果使用率大于等于90%,则报P1异常,需要马上考虑增加内存,否则服务可能重启导致作业失败。
  • 如果使用率小于90%,则内存调整目前不是特别紧急,可继续观察或根据需要调整。

HiveServer重启次数巡检项(inspection_hive_server_restart)

  • 在五分钟内出现多次重启,则报P0异常,必须马上检查HiveServer进程及日志情况,排除问题。
  • 在五分钟内出现1次重启,则报P1异常,请马上检查HiveServer进程及日志情况,排除问题。
  • 其他情况正常。

HiveMetaStore相关巡检项说明

HiveMetaStore高可用巡检项(inspection_hive_metastore_ha)

  • 如果多台HiveMetaStore均存活(Hive metastore HA status is OK),则状态正常。
  • 如果其中有HiveMetaStore存在问题(One or more metastore failed),则为P1异常,需要马上检查HiveMetaStore进程及日志情况,排除问题。
  • 如果所有HiveMetaStore全部问题(All Hive metastore are failed),则为P0级异常,需要马上检查HiveMetaStore进程及日志情况,排除问题。

HiveMetaStore端口存在性巡检项(inspection_hive_metastore_port)

检查HiveMetaStore的9083端口在机器上是否存在,如果不存在则说明进程异常,需要马上检查HiveMetaStore进程及日志情况,排除问题。

HiveMetaStoreGC巡检项(inspection_hive_metastore_gc)

检查JVM的memory.heap.usage指标。
  • 如果使用率大于等于95%,则报P0异常,需要马上考虑增加内存,紧急。
  • 如果使用率大于等于90%,则报P1异常,需要马上考虑增加内存。
  • 如果使用率小于90%,则内存调整目前不是特别紧急,可继续观察或根据需要调整。

HiveMetaStore重启巡检项(inspection_hive_metastore_restart)

  • 在五分钟内出现多次重启,则报P0异常,必须马上检查HiveMetaStore进程及日志情况,排除问题。
  • 在五分钟内出现1次重启,则报P1异常,请马上检查HiveMetaStore进程及日志情况,排除问题。
  • 其他情况正常。

HiveServer服务关键指标

可在集群监控页面查看Hive-HiveServer2的指标监控项。

  • Session相关指标。

    OpenSessions和ActiveSessions:可查看当前打开或者活跃Sessions,判断Task在异常时间段是否过多,可根据需要调整内存应对。

  • JVM相关指标。

    JVM MemHeapMax和GC相关指标:查看在异常时间内JVM各项指标表现,判断是否需要调整内存应对。

  • Task相关指标。

    PENDING tasks、ActiveRunTasksCalls及相关的TasksCount指标:如果Pending的Tasks过多,典型表现为客户端部分任务进度一直不动,需要检查进程内存及集群YARN对应的资源队列调度资源是否充足,或者是否有大作业占用过多的资源。

HiveMetastore服务关键指标

可在集群监控页面查看Hive-HiveMetaStore的指标监控项。

  • JVM相关指标。

    JVM MemHeapMax和GC相关指标:查看在异常时间内JVM各项指标表现,判断是否需要调整内存应对。

  • 元数据操作相关指标。

    GetTable、CreateTable Time等相关元数据操作的时间消耗,如果时间存在放大趋势或者存在异常,需要检查Metastore内存或后端数据库性能是否已经到瓶颈,根据内存GC情况或后端数据库执行Query时间长短判断进行HiveMetaStore的内存调整或升级后端数据库的规格。