在使用MaxCompute过程中,您可能需要通过监测MaxCompute包年包月资源、按量计费作业消费,了解资源的运行状况,以便及时升级资源或规划作业。您也可以通过设置报警规则,当资源状况符合报警规则时,云监控自动发送报警通知,便于您及时获悉资源的运行状况。
监控报警方案
监控指标
MaxCompute产品支持的监控指标类型及对应监控项如下。
监控指标类型 | 监控指标分类 | 监控项 | 描述 |
MaxCompute-包年包月计算Quota | level1 | 1级配额CPU使用率 | 一级Quota的CPU使用量占总量(预留CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。 |
1级配额CPU使用量 | 一级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。 | ||
1级配额MEM使用率 | 一级Quota的内存使用量占内存总量(预留+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。 | ||
1级配额MEM使用量 | 一级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。 | ||
level2 | 2级配额CPU使用率 | 二级Quota CPU使用量占总量(预留Min CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。 | |
2级配额CPU使用量 | 二级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。 | ||
2级配额MEM使用率 | 二级Quota的内存使用量占内存总量(预留Min+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。 | ||
2级配额MEM使用量 | 二级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。 | ||
2级配额作业等待数 | 二级Quota作业等待数。(单位:count,每分钟采集一次数据)。 | ||
MaxCompute-按量付费(并入MaxCompute-通用) | 不涉及 | 按量付费日作业消费 | 以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大日消费金额(USD),达到或超过这个阈值会触发报警。 |
按量付费月作业消费 | 以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大月消费金额(USD),达到或超过这个阈值会触发报警。 | ||
MaxCompute-通用 | Tunnel | Tunnel下载流量_项目级别 | 以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。 |
Tunnel上传流量_项目级别 | 以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。 | ||
Tunnel日累计下载数据量_项目级别 | 以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。 | ||
Tunnel日累计上传数据量_项目级别 | 以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。 | ||
Tunnel当前并发数(Slot)_项目级别 | 以项目为单位,选定的项目当前使用的并发数(Slot),达到或超过这个阈值会触发报警。 | ||
Tunnel当前并发数(Slot)_租户级别 | 以租户为单位,选定的租户当前使用的并发数(Slot),达到或超过这个阈值会触发报警。 | ||
作业 | 作业运行时长 | 以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 重要 运行时长小于1分钟的作业无法监控到。 | |
作业运行时长_SQL类型 | 以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 重要 运行时长小于1分钟的作业无法监控到。 | ||
Storage | 标准存储大小_项目级别 | 项目的标准存储大小。(单位:GB,每小时采集一次数据)。 | |
低频存储大小_项目级别 | 项目的低频存储大小。(单位:GB,每小时采集一次数据)。 | ||
低频存储最近30天访问量百分比_项目级别 | 值为: | ||
长期存储大小_项目级别 | 项目的长期存储大小。(单位:GB,每小时采集一次数据)。 | ||
长期存储最近180天访问量百分比_项目级别 | 值为: |
监控大盘配置
登录云监控控制台。
在左侧导航栏,选择
。在自定义大盘页面,单击创建大盘并添加图表。
在添加图表面板,选择图表类型和监控项。
选项
参数
描述
选择图表类型
折线图
大盘提供了折线图、面积图、TopN表格、热力图和饼图5种类型,您可以根据需要自行选择。
面积图
TopN表格
热力图
饼图
选择监控项
产品名称
MaxCompute产品的监控指标类型,详情请参见监控指标。
监控项
在监控项下拉列表中选择监控项。MaxCompute产品的监控项详情请参见监控指标。
资源
在资源下拉列表中选择需要监控的区域和项目(可多选)。
配置完成后,单击确定,即可在自定义大盘页面查看监控项的图表。
说明关于添加监控图表的操作,请参见管理自定义监控大盘中的监控图表。
报警规则配置
您可以对监控指标中的各监控项设置报警规则。
以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:
登录云监控控制台。
在左侧导航栏,单击
。在报警规则页面,单击创建报警规则。
在创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建报警规则。配置报警联系人详情请参见创建报警联系人或报警联系人组。
以前面提供的场景为例,您需要配置的关键参数如下:
参数
描述
产品
在下拉列表选择MaxCompute-包年包月quota组资源。
资源范围
在下拉列表选择实例。
关联资源
地域:在左上角下拉列表选择MaxCompute项目所在区域。
配额组:在配额组列表选择待监控的配额组名称。配额组详情请参见计算资源-Quota管理(新版)。
添加规则
规则名称:设置报警规则的名称。
指标类型:选择单指标。
监控指标:在下拉列表选择预付费配额组CPU使用量。
说明您还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。
单击确认,完成报警规则配置。
相关文档
对按量计费的计算任务的消费进行限制并告警,请参见消费控制。