ACK One的舰队监控基于可观测监控Prometheus版的监控指标,提供了舰队自身的监控大盘,您可以根据自身需求自定义告警规则,实时监控相关指标。本文介绍如何配置ACK One ArgoCD告警。
前提条件
配置ACK One ArgoCD告警
登录ACK One控制台,在左侧导航栏选择 。
在舰队监控页面右上角,单击报警设置,进入Prometheus告警规则页面。
单击创建Prometheus告警规则,完成下列配置后单击完成。更多详细信息,请参见Prometheus告警规则模板。
配置信息
说明
示例
告警名称
自定义告警的名称。
ACK One ArgoCD Pod内存告警。
检测类型
可选静态阈值、自定义PromQL。
选择静态阈值。
Prometheus实例
填入您的ACK One舰队名称。
text-XXXX。
告警分组
您环境所需监控的Kubernetes分组。
Kubernetes负载。
告警指标
请根据实际需求选择。重点关注容器内存使用率和容器CPU使用率。
容器内存使用率。
告警条件
基于告警指标预置内容设置告警事件产生条件。
当容器CPU使用率
大于
80%时,满足告警条件。筛选条件
根据告警指标,设置当前配置的告警规则所适用的范围,即所有符合筛选条件的资源满足此条告警规则时,均会产生告警事件。
可选筛选条件包括:
遍历:告警规则适用于当前Prometheus实例下的所有资源。筛选条件默认为遍历。
等于:选择该条件后,需继续输入具体资源名称。所创建的告警规则将仅适用于对应资源。不支持同时填写多个资源。
不等于:选择该条件后,需继续输入具体资源名称。所创建的告警规则将适用于除该资源之外的其他资源。不支持同时填写多个资源。
正则匹配:选择该条件后,按需输入正则表达式匹配相应的资源名称。所创建的告警规则将适用于符合该正则表达式的所有资源。
正则不匹配:选择该条件后,按需输入正则表达式匹配相应的资源名称。所创建的告警规则将过滤符合该正则表达式的所有资源。
命名空间等于argocd,Pod:遍历,容器:遍历。
持续时间
当告警条件满足时,直接产生告警事件:任何一个数据点满足阈值,就会产生告警事件。
当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。
当告警条件满足持续1分钟时,才产生告警事件。
告警等级
自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。
P1。
告警内容
用户收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。
命名空间:{{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器:{{$labels.container}} CPU使用率{{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, 当前值{{ printf "%.2f" $value }}%
告警通知
可选极简模式或普通模式。
选择极简模式。
通知对象
请根据实际需求选择告警通知对象。
钉钉告警。
通知时段
请根据实际需求填写告警通知时间段。
23:00至01:00。
重复策略
请根据实际需求填写每隔几分钟,进行告警重复通知。
告警每隔10分钟重复通知。
配置完成后,触发告警条件,可在告警通知对象侧查看告警信息。
说明可通过Prometheus控制台查看告警发送历史,具体信息,请参见查看告警发送历史。