通过云原生数据仓库 AnalyticDB MySQL 版控制台,可以查看集群过去一个月内指定时间段的集群性能(CPU使用率、磁盘IO使用率等)与资源的监控指标,以便您掌握集群的性能和运行状况,排查并解决问题。
注意事项
仅支持查看过去一个月内的监控信息,每次查看的指定时间段最长为2天。
操作步骤
登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表。在集群列表上方,选择产品系列,然后单击目标集群ID。
进入监控信息页面。
数仓版集群:在左侧导航栏,单击监控报警。
湖仓版集群:在左侧导航栏,单击 。
在监控页签下,您可以单击标准视图和自定义视图查看对应监控信息。
标准视图默认展示常用的监控指标,单击更多指标,可查看所有监控指标。
若您仅想关注部分指标,可以在标准视图的更多指标中,选中关注的指标,取消选中不关注的指标,单击另存为,将这些指标添加到自定义视图。
湖仓版和数仓版监控项说明
健康状态监控项说明
仅3.1.6及以上版本的集群支持查看健康状态信息。
查看湖仓版集群的内核版本,请执行
SELECT adb_version();
。如需升级内核版本,请联系技术支持。查看和升级数仓版集群的内核版本,请参见查看和升级版本。
当任一健康状态为风险或不可用时,请联系技术支持。
监控项 | 监控指标 |
集群接入节点状态 | AnalyticDB for MySQL接入层由多个实例接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。 实例接入节点状态包含:
|
计算节点组健康状态 | 计算节点组即AnalyticDB for MySQL的计算引擎,具备分布式MPP和DAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,计算节点实现了弹性调度,可根据业务需求做到分钟级甚至秒级扩展,实现了资源的有效利用。 计算节点组健康状态包含:
|
存储节点组健康状态 | 存储节点组即AnalyticDB for MySQL的存储引擎,基于Raft协议实现的分布式实时强一致高可用存储引擎,通过数据分片和Multi-Raft实现并行存储,利用分层存储实现冷热分离降低成本,通过行列存储和智能索引达到极高性能。 存储节点组健康状态包含:
|
集群资源监控项说明
监控项 | 单位 | 监控指标 | |
节点监控 | CPU使用率 | % |
说明 数仓版预留模式C32规格变配为弹性模式后,CPU平均使用率会增大,详情请参见常见问题。 |
Build任务数 | 数值 |
| |
计算内存使用率 | % |
| |
节点不可用数监控 | 数值 |
| |
表读取结果数据量 | MB |
| |
接入节点CPU使用率 | % |
| |
磁盘IO吞吐 | MB |
| |
磁盘IOPS | 数值 |
| |
磁盘IO使用率 | % |
| |
磁盘IO等待时间 | 毫秒(ms) |
| |
数据量监控 | 磁盘使用率 | % |
|
磁盘使用量 | GB |
| |
负载监控 | 集群连接数 | 数值 | 成功建立连接的数量。 |
查询失败率 | % | 查询的失败率。
| |
查询QPS | 数值 |
| |
查询响应时间 | 毫秒(ms) |
| |
查询等待时间 | 毫秒(ms) |
| |
写入TPS | 数值 | 监控集群的写入TPS。 | |
写入响应时间 | 毫秒(ms) |
| |
写入吞吐量 | MB | 监控集群的平均写入吞吐量。 | |
更新TPS | 数值 | 监控集群的更新TPS。 | |
更新响应时间 | 毫秒(ms) |
| |
删除TPS | 数值 | 监控集群的删除TPS。 | |
删除响应时间 | 毫秒(ms) |
| |
LOAD_TPS | 数值 | 监控集群的LOAD_TPS。 |
资源组监控项说明
湖仓版
监控项 | 单位 | 监控指标 |
CPU使用率 | % | 监控资源组的CPU平均使用率。 |
查询QPS | 数值 | 监控资源组的查询QPS。 |
查询响应时间 | 毫秒(ms) | 监控资源组下查询的平均响应时间。 |
查询等待时间 | 毫秒(ms) | 监控资源组下查询的平均等待总耗时。 |
(Xihe)运行中SQL数量 | 数值 | 监控资源组下正在运行的SQL数量。 |
排队的SQL数量 | 数值 | 监控资源组下排队的SQL数量。 |
数仓版
仅同时满足如下条件的数仓版集群才支持查看资源组监控信息:
集群系列需为弹性模式。
集群规格需为32核或以上。
监控项 | 单位 | 监控指标 |
CPU使用率 | % | 监控资源组的CPU平均使用率。 |
查询响应时间 | 毫秒(ms) | 监控资源组下查询的平均响应时间。 |
查询QPS | 数值 | 监控资源组的查询QPS。 |
查询等待时间 | 毫秒(ms) | 监控资源组下查询的平均等待总耗时。 |
实际弹出数 | 数值 | 监控资源组分时弹性计划中实际生效的节点数(即执行扩容计划时实际增加的节点数)。 |
计划弹出数 | 数值 | 监控资源组分时弹性计划中需要增加的节点数。 如何新增资源组弹性计划,请参见创建资源弹性计划。 |
总节点数 | 数值 | 监控资源组拥有的总节点数,总节点数=基础节点数+实际生效的分时弹性节点数。 |
基础节点数 | 数值 | 监控资源组中的基础节点数。 |
常见问题
Q:为什么预留模式跨规格变配为弹性模式后,CPU平均使用率会增大?
A:预留模式C32规格变配为弹性模式,单个节点会降低到8核,Build任务默认占用3核,此时会导致CPU平均使用率增大。CPU平均使用率增大但未影响业务时,您无需关注;若已影响业务的正常运行,请进行升配操作或提交工单联系技术支持。关于Build任务的详细信息,请参见BUILD。
Q:为什么普通索引和主键索引监控指标偏大?
A:原因如下:
创建索引、主键索引的列数量偏多。
索引列中某些值长度较长,单个列的长度较长(例如:长字符串等)。
某些索引列的值个数(The Number of Distinct Values)偏多,且值都不相同,导致索引压缩率低。例如:某索引列为A,值为A1、A2、A3、A4,所有值都不相同,数据很难被压缩,导致索引压缩率低。
主键中某些值长度较长或多个列构成了复合主键。
Q:为什么在监控页面发现有较长时间的RT(响应时间)产生,但在诊断与优化页面查询不到对应的耗时SQL?
A:查询的返回结果数据量大,导致结果集缓存耗时长,而诊断与优化页面的总耗时=排队耗时+执行计划耗时+执行耗时,不包括结果集缓存耗时。建议您在SQL审计页面查看对应的耗时SQL。
相关文档及API
相关文档
相关API
API | 说明 |
查看目标湖仓版集群的健康状态。 | |
查看目标湖仓版集群的性能数据。 | |
查看目标湖仓版集群的资源组监控信息。 | |
查看目标数仓版集群的查询和写入监控信息。 | |
查看目标数仓版集群的资源组监控信息。 |