Hive巡检项及服务关键指标说明 - 开源大数据平台E-MapReduce

本文介绍Hive巡检项及其服务关键指标说明。

异常等级说明

如果检查失败并报：hive server availability permission check is failed。
说明HiveServer巡检用户无权限执行巡检语句，巡检用户权限可能被误删除。
如果检查失败并报：Hive server availability is failed。
说明HiveServer存在问题，需要检查HiveServer进程及日志情况，排除问题。

如果多台HiveServer均存活（Hive server HA status is OK），则状态正常。
如果其中有HiveServer存在问题（One or more Hive server failed），则为P1异常，需要立即检查HiveServer进程及日志情况，排除问题。
如果所有HiveServer全部问题（All Hive server are failed），则为P0异常，需要立即检查HiveServer进程及日志情况，排除问题。

检查HiveServer的10000端口在机器上是否存在，如果不存在则说明进程异常，需要立即检查HiveServer进程及日志情况，排除问题。

检查JVM的memory.heap.usage指标。

如果多台HiveMetaStore均存活（Hive metastore HA status is OK），则状态正常。
如果其中有HiveMetaStore存在问题（One or more metastore failed），则为P1异常，需要马上检查HiveMetaStore进程及日志情况，排除问题。
如果所有HiveMetaStore全部问题（All Hive metastore are failed），则为P0级异常，需要马上检查HiveMetaStore进程及日志情况，排除问题。

检查HiveMetaStore的9083端口在机器上是否存在，如果不存在则说明进程异常，需要马上检查HiveMetaStore进程及日志情况，排除问题。

检查JVM的memory.heap.usage指标。

可在集群监控页面查看Hive-HiveServer2的指标监控项。

Session相关指标。
OpenSessions和ActiveSessions：可查看当前打开或者活跃Sessions，判断Task在异常时间段是否过多，可根据需要调整内存应对。
JVM相关指标。
JVM MemHeapMax和GC相关指标：查看在异常时间内JVM各项指标表现，判断是否需要调整内存应对。
Task相关指标。
PENDING tasks、ActiveRunTasksCalls及相关的TasksCount指标：如果Pending的Tasks过多，典型表现为客户端部分任务进度一直不动，需要检查进程内存及集群YARN对应的资源队列调度资源是否充足，或者是否有大作业占用过多的资源。

可在集群监控页面查看Hive-HiveMetaStore的指标监控项。

JVM相关指标。
JVM MemHeapMax和GC相关指标：查看在异常时间内JVM各项指标表现，判断是否需要调整内存应对。
元数据操作相关指标。
GetTable、CreateTable Time等相关元数据操作的时间消耗，如果时间存在放大趋势或者存在异常，需要检查Metastore内存或后端数据库性能是否已经到瓶颈，根据内存GC情况或后端数据库执行Query时间长短判断进行HiveMetaStore的内存调整或升级后端数据库的规格。