全部产品
Search
文档中心

云原生大数据计算服务 MaxCompute:监控报警

更新时间:Aug 02, 2024

在使用MaxCompute过程中,您可能需要通过监测MaxCompute包年包月资源、按量计费作业消费,了解资源的运行状况,以便及时升级资源或规划作业。您也可以通过设置报警规则,当资源状况符合报警规则时,云监控自动发送报警通知,便于您及时获悉资源的运行状况。

监控报警方案

MaxCompute支持通过如下方式实现监控报警功能:

  • 通过阿里云监控服务配置监控指标,对包年包月资源、实时作业消费进行监控:

    • 通过监控大盘,实时观察监控图表,了解各监控指标的实时变化。详情请参见监控大盘配置

    • 自定义报警规则并添加报警联系人,当指标项达到或超过您设置的阈值时,云监控服务会自动向您设置的联系人发送报警通知。报警通知方式支持电话、短信、邮件和钉钉机器人。详情请参见报警规则配置

  • 通过MaxCompute客户端,对单SQL消费进行监控。更多SQL消费监控信息,请参见单SQL消费限制

监控指标

MaxCompute产品支持的监控指标类型及对应监控项如下。

监控指标类型

监控指标分类

监控项

描述

MaxCompute-包年包月计算Quota

level1

1级配额CPU使用率

一级Quota的CPU使用量占总量(预留CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。

1级配额CPU使用量

一级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。

1级配额MEM使用率

一级Quota的内存使用量占内存总量(预留+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。

1级配额MEM使用量

一级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。

level2

2级配额CPU使用率

二级Quota CPU使用量占总量(预留Min CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。

2级配额CPU使用量

二级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。

2级配额MEM使用率

二级Quota的内存使用量占内存总量(预留Min+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。

2级配额MEM使用量

二级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。

2级配额作业等待数

二级Quota作业等待数。(单位:count,每分钟采集一次数据)。

MaxCompute-按量付费(并入MaxCompute-通用

不涉及

按量付费日作业消费

以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大日消费金额(USD),达到或超过这个阈值会触发报警。

按量付费月作业消费

以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大月消费金额(USD),达到或超过这个阈值会触发报警。

MaxCompute-通用

Tunnel

Tunnel下载流量_项目级别

以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。

Tunnel上传流量_项目级别

以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。

Tunnel日累计下载数据量_项目级别

以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。

Tunnel日累计上传数据量_项目级别

以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。

Tunnel当前并发数(Slot)_项目级别

以项目为单位,选定的项目当前使用的并发数(Slot),达到或超过这个阈值会触发报警。

Tunnel当前并发数(Slot)_租户级别

以租户为单位,选定的租户当前使用的并发数(Slot),达到或超过这个阈值会触发报警。

作业

作业运行时长

以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

重要

运行时长小于1分钟的作业无法监控到。

作业运行时长_SQL类型

以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

重要

运行时长小于1分钟的作业无法监控到。

Storage

标准存储大小_项目级别

项目的标准存储大小。(单位:GB,每小时采集一次数据)。

低频存储大小_项目级别

项目的低频存储大小。(单位:GB,每小时采集一次数据)。

低频存储最近30天访问量百分比_项目级别

值为:(当前项目最近30天累计访问低频存储量 + 当前项目最近30天累计切换低频存储量) / 当前项目最新低频存储量

长期存储大小_项目级别

项目的长期存储大小。(单位:GB,每小时采集一次数据)。

长期存储最近180天访问量百分比_项目级别

值为:(当前项目最近180天累计访问长期存储量 + 当前项目最近180天累计切换长期存储量) / 当前项目最新长期存储量

您可以对监控项配置监控大盘或报警规则,操作详情请参见监控大盘配置报警规则配置

监控大盘配置

  1. 登录云监控控制台

  2. 在左侧导航栏,选择可视化(Dashboard) > 自定义大盘

  3. 自定义大盘页面,单击创建大盘并添加图表。

  4. 添加图表面板,选择图表类型和监控项。

    选项

    参数

    描述

    选择图表类型

    折线图

    大盘提供了折线图、面积图、TopN表格、热力图和饼图5种类型,您可以根据需要自行选择。

    面积图

    TopN表格

    热力图

    饼图

    选择监控项

    产品名称

    MaxCompute产品的监控指标类型,详情请参见监控指标

    监控项

    监控项下拉列表中选择监控项。MaxCompute产品的监控项详情请参见监控指标

    资源

    资源下拉列表中选择需要监控的区域和项目(可多选)。

  5. 配置完成后,单击确定,即可在自定义大盘页面查看监控项的图表。

    说明

    关于添加监控图表的操作,请参见管理自定义监控大盘中的监控图表

报警规则配置

您可以对监控指标中的各监控项设置报警规则。

以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:

  1. 登录云监控控制台

  2. 在左侧导航栏,单击报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建报警规则。配置报警联系人详情请参见创建报警联系人或报警联系人组

    以前面提供的场景为例,您需要配置的关键参数如下:

    参数

    描述

    产品

    在下拉列表选择MaxCompute-包年包月quota组资源

    资源范围

    在下拉列表选择实例

    关联资源

    • 地域:在左上角下拉列表选择MaxCompute项目所在区域。

    • 配额组:在配额组列表选择待监控的配额组名称。配额组详情请参见计算资源-Quota管理(新版)

    添加规则

    • 规则名称:设置报警规则的名称。

    • 指标类型:选择单指标

    • 监控指标:在下拉列表选择预付费配额组CPU使用量

      说明

      您还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。

  5. 单击确认,完成报警规则配置。

相关文档

对按量计费的计算任务的消费进行限制并告警,请参见消费控制