ARMS Prometheus告警支持在钉钉群的告警卡片中增加指标走势图的展示。通过展示指标走势图可以获取更多关于该告警的信息,从而有助于排查和定位问题。本文主要介绍如何配置Prometheus告警才能在通知卡片中增加指标走势图。
前提条件
使用限制
仅支持在钉钉群的告警卡片中增加指标走势图的展示。
配置指标走势图
- 登录ARMS控制台。
在左侧导航栏,选择 。
在Prometheus告警规则页面:
如果需要在已有告警中配置指标走势图,在需要增加指标走势图的告警规则右侧,单击编辑。
如果需要在新建告警中配置指标走势图,单击页面右上角的创建Prometheus告警规则。
在编辑或创建页面,执行以下操作:
在告警通知区域选择普通模式,然后选择通知人为钉群的通知策略。
展开高级设置,在注释区域,单击创建注释,增加以下两个注释。
键
值
示例
_aliyun_display_promql
用于展示指标走势图的查询PromQL语句,通常情况下是告警PromQL去掉阈值判断之后的语句。 例如:
cpu_usage > 80
需要改为cpu_usage
。_aliyun_display_promql:cpu_usage
_aliyun_display_name
指标走势图中指标的名称。
_aliyun_display_name:容器CPU使用率
根据需要修改其他参数,其他参数的说明,请参见Prometheus告警规则。
单击保存。然后单击完成。
查看指标走势图
配置完成后,当有告警触发时,在客户端钉钉群的告警卡片中查看指标走势图。
告警卡片中的其他信息,请参见在告警通知群中处理告警。
常见问题
为什么不使用告警的PromQL来获取指标走势图,还需要人为配置?
用于告警的PromQL和用户展示图表的PromQL不完全相同(包含阈值判断,与、或逻辑等),在指标展示的PromQL中需要删除这部分内容。
为什么配置了_aliyun_display_promql仍然无法展示图片?
_aliyun_display_promql与报警PromQL查询出的内容需要满足标签完全一致才能渲染图表。通常一个PromQL可以查出多条时间序列,告警需要根据标签筛选出其中一条时间序列来渲染走势图。例如
cpu_usage > 80
查出来的指标中包含了pod_name、container 2个标签,那么对于的_aliyun_display_promql查询结果也需要包含这两个标签。