容器服务报警管理

更新时间:2025-03-24 09:37

通过开启容器服务报警管理功能,您可以统一管理容器的报警,包括容器服务异常事件报警、集群相关基础资源的关键指标报警、集群核心组件及集群中应用的指标报警等。您还可以通过CRD方式修改集群中默认创建的报警规则,及时感知集群中异常变化。

索引

前提条件

  • 仅支持ACK托管集群ACK专有集群

    ACK Serverless集群需要在对应的监控实例中开启报警,请参见创建Prometheus告警规则
  • 已开通SLS日志服务云产品,需要登录日志服务控制台,根据页面提示开通日志服务。

  • 已开通Prometheus监控服务,详情请参见开通方式

计费说明

报警功能是通过日志服务SLS、阿里云Prometheus和云监控发送 ,其中各监控服务发送的短信、邮件等通知可能产生额外资费。相关计费如下。在开启报警功能之前,您可以根据默认报警规则模板确认每个报警项的来源,并开通所需的服务。

发送报警源

配置要求

计费详情

发送报警源

配置要求

计费详情

日志服务

开启事件监控;启用报警管理功能时,事件监控会默认开启。

按使用功能计费模式计费项

阿里云Prometheus

为集群配置使用阿里云Prometheus监控

免费

云监控

为集群开启容器服务Kubernetes版集群的云监控功能

按量计费

开启报警管理功能

开启报警管理功能后,您可以为集群内指定的资源设置指标报警,并在异常情况发生时自动接收告警通知。这将帮助您更高效地管理和维护集群,确保服务的稳定运行。相关资源报警详情请参见默认报警规则模板

ACK托管集群
ACK专有集群

您可以选择在已有集群中开启报警配置,或在创建新集群时启用报警配置。

已有集群中开启
创建集群时开启

当您已有集群,可以根据以下步骤开启。

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > 报警配置

  3. 报警配置页面,单击开始安装,控制台会自动检查条件,进行安装、升级组件。

  4. 安装升级完成后,进入报警配置页面配置报警信息。

    页签

    说明

    报警规则管理

    打开启动状态开启对应报警规则集,单击编辑通知对象可设置关联的通知对象。

    报警历史

    目前可查看最近1天内发送的最新100条历史记录。单击报警规则列下的链接,可以跳转到对应监控系统中查看详细规则配置;单击排查现场,可以快速定位到异常发生的资源页面(异常事件、指标异常的资源)。

    联系人管理

    对联系人进行管理,可创建、编辑或删除联系人。

    联系方式可以通过短信、邮箱和机器人类型进行设置,需先在云监控控制台报警服务 > 报警联系人验证,以便接收报警信息。还支持同步联系人,如果验证信息过期,可在云监控中删除对应联系人,并刷新联系人页面。通知对象为机器人类型设置请参见钉钉机器人企业微信机器人飞书机器人

    联系人分组管理

    对联系人分组您进行管理,可创建、编辑或删除联系人分组。当无联系人分组时,控制台会从您的阿里云账号注册信息中同步创建一个默认联系人分组。

在创建集群的组件配置页面,勾选报警配置右侧使用默认报警模板配置报警,并选择报警通知联系人分组。具体操作,请参见创建ACK托管集群

image

创建集群时开启报警配置后,系统将会开启默认报警规则,并默认发送报警通知到默认的联系人分组,您也可以自定义修改报警联系人或报警联系组

ACK专有集群需要先为Worker RAM角色授权,再开启默认报警规则。

为Worker RAM角色授权

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择集群信息

  3. 集群信息页面,在集群资源区域,复制Worker RAM角色右侧的名称,并单击链接进入RAM访问控制控制台为该Worker RAM角色授权。

    1. 创建如下自定义权限策略。请参见通过脚本编辑模式创建自定义权限策略

      {
                  "Action": [
                      "log:*",
                      "arms:*",
                      "cms:*",
                      "cs:UpdateContactGroup"
                  ],
                  "Resource": [
                      "*"
                  ],
                  "Effect": "Allow"
      }
    2. 角色页面,搜索定位该Worker RAM角色,为其授予以上创建的自定义权限策略。具体操作,请参见方式一:在RAM角色页面为RAM角色授权

  4. 通过日志查看报警功能访问权限是否已配置。

    1. 在目标集群管理页左侧导航栏,选择工作负载 > 无状态

    2. 选择命名空间为kube-system,单击无状态应用列表中alicloud-monitor-controller的名称链接。

    3. 单击日志页签,可看到授权成功的Pod日志。

开启默认报警配置规则

  1. 在目标集群页左侧导航栏,选择运维管理 > 报警配置

  2. 报警配置页面,配置如下报警信息。

    页签

    说明

    报警规则管理

    打开启动状态开启对应报警规则集,单击编辑通知对象可设置关联的通知对象。

    报警历史

    目前可查看最近1天内发送的最新100条历史记录。单击报警规则列下的链接,可以跳转到对应监控系统中查看详细规则配置;单击排查现场,可以快速定位到异常发生的资源页面(异常事件、指标异常的资源)。

    联系人管理

    对联系人进行管理,可创建、编辑或删除联系人。

    联系方式可以通过短信、邮箱和机器人类型进行设置,需先在云监控控制台报警服务 > 报警联系人验证,以便接收报警信息。还支持同步联系人,如果验证信息过期,可在云监控中删除对应联系人,并刷新联系人页面。通知对象为机器人类型设置请参见钉钉机器人企业微信机器人飞书机器人

    联系人分组管理

    对联系人分组您进行管理,可创建、编辑或删除联系人分组。当无联系人分组时,控制台会从您的阿里云账号注册信息中同步创建一个默认联系人分组。

通过CRD配置报警规则

报警配置功能开启后,默认会在kube-system命名空间下创建一个名为AckAlertRule类型的CRD资源配置,包含默认报警规则模板。您可以通过修改此CRD资源来修改默认报警规则,以配置符合要求的容器服务报警规则。

配置步骤

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > 报警配置

  3. 报警规则管理页签,单击右上角编辑报警配置,然后单击目标规则列右侧操作列下的YAML,即可查看当前集群中的AckAlertRule资源配置。

  4. 参考默认报警规则模板说明,修改示例YAML文件。

    报警规则配置的YAML文件示例如下:

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # 以下是一个集群事件报警规则配置样例。
        - name: pod-exceptions                             # 报警规则分组名,对应报警模板中的Group_Name字段。
          rules:
            - name: pod-oom                                # 报警规则名。
              type: event                                  # 报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。
              expression: sls.app.ack.pod.oom              # 报警规则表达式,当规则类型为event时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。
              enable: enable                               # 报警规则开启状态,枚举值为enable、disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # 以下是一个集群基础资源报警规则配置样例。
        - name: res-exceptions                              # 报警规则分组名,对应报警模板中的Group_Name字段。
          rules:
            - name: node_cpu_util_high                      # 报警规则名。
              type: metric-cms                              # 报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。
              expression: cms.host.cpu.utilization          # 报警规则表达式,当规则类型为metric-cms时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。
              contactGroups:                                # 报警规则映射的联系人分组配置,由ACK控制台生成,同一个账号下联系人相同,可在多集群中复用。
              enable: enable                                # 报警规则开启状态,枚举值为enable、disable。
              thresholds:                                   # 报警规则阈值,详情见文档如何更改报警规则阈值部分。            
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '1'

配置示例:通过CRD修改集群基础资源报警规则的阈值

由默认报警规则模板集可知集群资源异常报警规则集的Rule_Type为metric-cms,同步自云监控的基础资源报警规则。本示例通过在集群节点-CPU使用率规则的报警规则集对应的CRD中,增加thresholds参数,配置基础监控报警规则的阈值、重试判断次数以及静默期配置。

apiVersion: alert.alibabacloud.com/v1beta1
kind: AckAlertRule
metadata:
  name: default
spec:
  groups:
    # 以下是一个集群基础资源报警规则配置样例。
    - name: res-exceptions                                        # 报警规则分组名,对应报警模板中的Group_Name字段。
      rules:
        - name: node_cpu_util_high                                # 报警规则名。
          type: metric-cms                                        # 报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。
          expression: cms.host.cpu.utilization                    # 报警规则表达式,当规则类型为metric-cms时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。
          contactGroups:                                          # 报警规则映射的联系人分组配置,由ACK控制台生成,同一个账号下联系人相同,可在多集群中复用。
          enable: enable                                          # 报警规则开启状态,枚举值为enable、disable。
          thresholds:                                             # 报警规则阈值,更多信息,请参见如何通过CRD配置报警规则。
            - key: CMS_ESCALATIONS_CRITICAL_Threshold
              unit: percent
              value: '1'  
            - key: CMS_ESCALATIONS_CRITICAL_Times
              value: '3'  
            - key: CMS_RULE_SILENCE_SEC
              value: '900'  

参数名

是否必选

说明

默认值

参数名

是否必选

说明

默认值

CMS_ESCALATIONS_CRITICAL_Threshold

必选

报警配置阈值。未配置时规则将同步失败并关闭。

  • unit:表示单位,可配置为percentcountqps

  • value:阈值。

根据默认报警模板配置而定。

CMS_ESCALATIONS_CRITICAL_Times

可选

云监控规则重试判断次数。未配置时取默认值。

3

CMS_RULE_SILENCE_SEC

可选

云监控持续发送异常触发规则时,初次上报报警后静默期时长(单位:秒),防止过于频繁报警。未配置时取默认值。

900

默认报警规则模板

以下为默认创建的报警规则模板。

Error事件集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Error事件

集群中所有Error Level异常事件触发该报警。

日志服务

event

error-event

sls.app.ack.error

Warn事件集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Warn事件

集群中关键Warn Level异常事件触发该报警,排除部分可忽略事件。

日志服务

event

warn-event

sls.app.ack.warn

集群核心组件异常报警规则集(ACK托管集群

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

集群API Server可用性异常

API Server出现可用性问题时触发报警,可能导致集群管理功能受限。

阿里云Prometheus

metric-prometheus

apiserver-unhealthy

prom.apiserver.notHealthy.down

集群etcd可用性异常

etcd出现不可用将影响整个集群的状态。

阿里云Prometheus

metric-prometheus

etcd-unhealthy

prom.etcd.notHealthy.down

集群kube-scheduler可用性异常

负责Pod调度,调度器不可用可能导致新Pod无法正常启动。

阿里云Prometheus

metric-prometheus

scheduler-unhealthy

prom.scheduler.notHealthy.down

集群KCM可用性异常

管理控制循环,异常会影响集群状态自动修复和资源调整机制。

阿里云Prometheus

metric-prometheus

kcm-unhealthy

prom.kcm.notHealthy.down

集群cloud-controller-manager可用性异常

管理外部云服务组件的生命周期,异常可能影响服务的动态调整功能。

阿里云Prometheus

metric-prometheus

ccm-unhealthy

prom.ccm.notHealthy.down

集群CoreDNS可用性异常-请求跌零

CoreDNS是集群的DNS服务,异常将影响服务发现和域名解析。

阿里云Prometheus

metric-prometheus

coredns-unhealthy-requestdown

prom.coredns.notHealthy.requestdown

集群CoreDNS可用性异常-panic异常

当CoreDNS出现panic错误时触发,需立即分析日志进行诊断。

阿里云Prometheus

metric-prometheus

coredns-unhealthy-panic

prom.coredns.notHealthy.panic

集群Ingress错误请求率高

Ingress控制器处理的HTTP请求错误率较高,可能影响服务的可访问性。

阿里云Prometheus

metric-prometheus

ingress-err-request

prom.ingress.request.errorRateHigh

集群Ingress Controller证书即将过期

SSL证书到期会导致HTTPS请求失败,需提前更新证书。

阿里云Prometheus

metric-prometheus

ingress-ssl-expire

prom.ingress.ssl.expire

Pod Pending同时累计数>1000

若集群中有过多Pod持续处于Pending状态,可能是资源不足或调度策略不合理。

阿里云Prometheus

metric-prometheus

pod-pending-accumulate

prom.pod.pending.accumulate

集群API Server Mutating Admission Webhook RT高

变更型Admission Webhook响应过慢会影响资源创建和变更效率。

阿里云Prometheus

metric-prometheus

apiserver-admit-rt-high

prom.apiserver.mutating.webhook.rt.high

集群API Server Validating Admission Webhook RT高

验证型Admission Webhook响应过慢可能导致配置变更不及时。

阿里云Prometheus

metric-prometheus

apiserver-validate-rt-high

prom.apiserver.validation.webhook.rt.high

集群ControlPlane组件发生OOM

集群核心组件内存溢出,需要针对异常进行详细排查,避免服务瘫痪。

日志服务

event

ack-controlplane-oom

sls.app.ack.controlplane.pod.oom

集群节点池运维事件报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

节点自愈失败

当节点自愈过程出现失败,需立即了解原因并修复,确保高可用。

日志服务

event

node-repair_failed

sls.app.ack.rc.node_repair_failed

节点CVE修复失败

若重要的CVE修复失败,集群安全可能受影响,需紧急评估并修复。

日志服务

event

nodepool-cve-fix-failed

sls.app.ack.rc.node_vulnerability_fix_failed

节点池CVE修复成功

成功应用CVE修复后可降低已知漏洞的安全风险。

日志服务

event

nodepool-cve-fix-succ

sls.app.ack.rc.node_vulnerability_fix_succeed

节点池CVE自动修复已忽略

自动修复被忽略,可能由于兼容性或特定配置引起,需确认安全策略是否合理。

日志服务

event

nodepool-cve-fix-skip

sls.app.ack.rc.node_vulnerability_fix_skipped

节点池kubelet参数配置失败

kubelet配置未能成功更新,可能影响节点性能及资源调度。

日志服务

event

nodepool-kubelet-cfg-failed

sls.app.ack.rc.node_kubelet_config_failed

节点池kubelet参数配置成功

成功应用新的kubelet配置,需确认配置生效并符合预期。

日志服务

event

nodepool-kubelet-config-succ

sls.app.ack.rc.node_kubelet_config_succeed

节点池kubelet升级失败

可能影响集群稳定性和功能性,需确认升级过程和配置。

日志服务

event

nodepool-k-c-upgrade-failed

sls.app.ack.rc.node_kubelet_config_upgrade_failed

节点池kubelet升级成功

确认升级成功后,确保kubelet版本符合集群和应用需求。

日志服务

event

nodepool-k-c-upgrade-succ

sls.app.ack.rc.kubelet_upgrade_succeed

节点池runtime升级成功

节点池中容器运行时升级成功。

日志服务

event

nodepool-runtime-upgrade-succ

sls.app.ack.rc.runtime_upgrade_succeed

节点池runtime升级失败

节点池中容器运行时升级失败。

日志服务

event

nodepool-runtime-upgrade-fail

sls.app.ack.rc.runtime_upgrade_failed

节点池OS镜像升级成功

节点池中的操作系统镜像升级成功。

日志服务

event

nodepool-os-upgrade-succ

sls.app.ack.rc.os_image_upgrade_succeed

节点池OS镜像升级失败

节点池中的操作系统镜像升级失败。

日志服务

event

nodepool-os-upgrade-failed

sls.app.ack.rc.os_image_upgrade_failed

灵骏节点池配置变更成功

灵骏节点池的配置变更成功。

日志服务

event

nodepool-lingjun-config-succ

sls.app.ack.rc.lingjun_configuration_apply_succeed

灵骏节点池配置变更失败

灵骏节点池的配置变更失败。

日志服务

event

nodepool-lingjun-cfg-failed

sls.app.ack.rc.lingjun_configuration_apply_failed

集群节点异常报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

集群节点docker进程异常

集群中节点Dockerd或Containerd运行时异常。

日志服务

event

docker-hang

sls.app.ack.docker.hang

集群驱逐事件

集群中发生驱逐事件。

日志服务

event

eviction-event

sls.app.ack.eviction

集群GPU的XID错误事件

集群中GPU XID异常事件。

日志服务

event

gpu-xid-error

sls.app.ack.gpu.xid_error

集群节点下线

集群中节点下线。

日志服务

event

node-down

sls.app.ack.node.down

集群节点重启

集群中节点重启。

日志服务

event

node-restart

sls.app.ack.node.restart

集群节点时间服务异常

集群中节点时间同步系统服务异常。

日志服务

event

node-ntp-down

sls.app.ack.ntp.down

集群节点PLEG异常

集群中节点PLEG异常。

日志服务

event

node-pleg-error

sls.app.ack.node.pleg_error

集群节点进程异常

集群中节点进程数异常。

日志服务

event

ps-hang

sls.app.ack.ps.hang

集群节点文件句柄过多

节点上的文件句柄数量过多。

日志服务

event

node-fd-pressure

sls.app.ack.node.fd_pressure

集群节点进程数过多

集群节点进程数过多。

日志服务

event

node-pid-pressure

sls.app.ack.node.pid_pressure

删除节点失败

集群删除节点失败事件。请提交工单联系容器服务团队。

日志服务

event

node-del-err

sls.app.ack.ccm.del_node_failed

添加节点失败

集群添加节点失败事件。请提交工单联系容器服务团队。

日志服务

event

node-add-err

sls.app.ack.ccm.add_node_failed

托管节点池命令执行失败

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-run-cmd-err

sls.app.ack.nlc.run_command_fail

托管节点池未提供任务的具体命令

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-empty-cmd

sls.app.ack.nlc.empty_task_cmd

托管节点池出现未实现的任务模式

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-url-m-unimp

sls.app.ack.nlc.url_mode_unimpl

托管节点池发生未知的修复操作

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-opt-no-found

sls.app.ack.nlc.op_not_found

托管节点池销毁节点发生错误

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-des-node-err

sls.app.ack.nlc.destroy_node_fail

托管节点池节点排水失败

集群托管节点池排水异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-drain-node-err

sls.app.ack.nlc.drain_node_fail

托管节点池重启ECS未达到终态

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-restart-ecs-wait

sls.app.ack.nlc.restart_ecs_wait_fail

托管节点池重启ECS失败

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-restart-ecs-err

sls.app.ack.nlc.restart_ecs_fail

托管节点池重置ECS失败

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-reset-ecs-err

sls.app.ack.nlc.reset_ecs_fail

托管节点池自愈任务失败

集群托管节点池异常事件。请提交工单联系容器服务团队。

日志服务

event

nlc-sel-repair-err

sls.app.ack.nlc.repair_fail

集群资源异常报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

集群节点-CPU使用率≥85%

集群中节点实例CPU使用率超过水位。默认值85%。

剩余资源不足15%时,可能会超过容器引擎层CPU资源预留。更多信息,请参见节点资源预留策略。这可能引起高频CPU Throttle,最终严重影响进程响应速度。请及时优化CPU使用情况或调整阈值。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

node_cpu_util_high

cms.host.cpu.utilization

集群节点-内存使用率≥85%

集群中节点实例内存使用率超过水位。默认值85%。

剩余资源不足15%时,若仍然使用,水位将超过容器引擎层内存资源预留。更多信息,请参见节点资源预留策略。此场景下,Kubelet将发生强制驱逐行为。请及时优化内存使用情况或调整阈值。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

node_mem_util_high

cms.host.memory.utilization

集群节点-磁盘使用率≥85%

集群中节点实例磁盘使用率超过水位。默认值85%。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

node_disk_util_high

cms.host.disk.utilization

集群节点-公网流出带宽使用率≥85%

集群中节点实例公网流出带宽使用率超过水位。默认值85%。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

node_public_net_util_high

cms.host.public.network.utilization

集群节点-inode使用率≥85%

集群中节点实例inode使用率超过水位。默认值85%。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

node_fs_inode_util_high

cms.host.fs.inode.utilization

集群资源-负载均衡最大连接数使用率≥85%

集群中负载均衡实例最大连接数超过水位。默认值85%。

说明

负载均衡实例,即API-Server、Ingress所关联的负载均衡实例。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

slb_qps_util_high

cms.slb.qps.utilization

集群资源-负载均衡网络流出带宽使用率≥85%

集群中负载均衡实例网络流出带宽使用率超过水位。默认值85%。

说明

负载均衡实例,即API-Server、Ingress所关联的负载均衡实例。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

slb_traff_tx_util_high

cms.slb.traffic.tx.utilization

集群资源-负载均衡最大连接数使用率≥85%

集群中负载均衡实例最大连接数使用率超过水位。默认值85%。

说明

负载均衡实例,即API-Server、Ingress所关联的负载均衡实例。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

slb_max_con_util_high

cms.slb.max.connection.utilization

集群资源-负载均衡监听每秒丢失连接数持续≥1

集群中负载均衡实例每秒丢失连接数持续超过水位。默认值1次。

说明

负载均衡实例,即API-Server、Ingress所关联的负载均衡实例。

关于如何调整阈值,请参见配置报警规则示例

云监控

metric-cms

slb_drop_con_high

cms.slb.drop.connection

集群节点磁盘空间不足

集群中节点磁盘空间不足异常事件。

日志服务

event

node-disk-pressure

sls.app.ack.node.disk_pressure

集群节点调度资源不足

集群中无调度资源异常事件。

日志服务

event

node-res-insufficient

sls.app.ack.resource.insufficient

集群节点IP资源不足

集群中IP资源不足异常事件。

日志服务

event

node-ip-pressure

sls.app.ack.ip.not_enough

磁盘容量超过水位阈值

集群磁盘使用量超过水位值异常。请检查您的集群磁盘水位情况。

日志服务

event

disk_space_press

sls.app.ack.csi.no_enough_disk_space

ACK管控运维通知报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ACK集群任务通知

记录和告知管理层相关计划和变更情况。

日志服务

event

ack-system-event-info

sls.app.ack.system_events.task.info

ACK集群任务失败通知

集群操作失败时需注意并及时调查原因。

日志服务

event

ack-system-event-error

sls.app.ack.system_events.task.error

集群弹性伸缩报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

自动扩缩容-扩容节点

自动扩容节点以应对增加的负载请求。

日志服务

event

autoscaler-scaleup

sls.app.ack.autoscaler.scaleup_group

自动扩缩容-缩容节点

当负载下降时,节点自动缩容以节省资源。

日志服务

event

autoscaler-scaledown

sls.app.ack.autoscaler.scaledown

自动扩缩容-扩容超时

扩容过程超时可能指示资源不足或策略不当。

日志服务

event

autoscaler-scaleup-timeout

sls.app.ack.autoscaler.scaleup_timeout

自动扩缩容-缩容空节点

不活跃节点被识别并清理以优化资源使用。

日志服务

event

autoscaler-scaledown-empty

sls.app.ack.autoscaler.scaledown_empty

自动扩缩容-扩容节点失败

扩容失败需立即分析原因并调整资源策略。

日志服务

event

autoscaler-up-group-failed

sls.app.ack.autoscaler.scaleup_group_failed

自动扩缩容-集群不健康

扩缩容影响下集群不健康状态需迅速处理。

日志服务

event

autoscaler-cluster-unhealthy

sls.app.ack.autoscaler.cluster_unhealthy

自动扩缩容-删除长时间未启动节点

清理无效节点以回收资源。

日志服务

event

autoscaler-del-started

sls.app.ack.autoscaler.delete_started_timeout

自动扩缩容-删除未注册节点

处理冗余节点以优化集群资源。

日志服务

event

autoscaler-del-unregistered

sls.app.ack.autoscaler.delete_unregistered

自动扩缩容-缩容失败

缩容失败可能导致资源浪费和负载不均。

日志服务

event

autoscaler-scale-down-failed

sls.app.ack.autoscaler.scaledown_failed

自动扩缩容-删除的节点未完成排水

当自动扩缩容操作删除某个节点时,节点上运行的Pod未能成功驱逐或迁移。

日志服务

event

autoscaler-instance-expired

sls.app.ack.autoscaler.instance_expired

集群应用工作负载报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Job运行失败

当Job任务在执行过程中失败时触发该报警。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

job-failed

prom.job.failed

Deployment可用副本状态异常

当Deployment的可用副本数量不足时触发该报警,可能导致服务不可用或部分不可用。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

deployment-rep-err

prom.deployment.replicaError

Daemonset副本状态异常

当DaemonSet的某些副本状态异常(如未能启动或崩溃)时触发该报警,影响到节点的预期行为或服务。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

daemonset-status-err

prom.daemonset.scheduledError

Daemonset副本调度异常

当DaemonSet未能正确调度一些或所有的节点时触发该报警,可能由于资源限制或调度策略不当。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

daemonset-misscheduled

prom.daemonset.misscheduled

集群容器副本异常报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

集群容器副本OOM

集群容器副本Pod或其中进程出现OOM(Out of Memory)。请提交工单联系容器服务团队。

日志服务

event

pod-oom

sls.app.ack.pod.oom

集群容器副本启动失败

集群容器副本Pod启动失败事件(Pod Start Failed)。请提交工单联系容器服务团队。

日志服务

event

pod-failed

sls.app.ack.pod.failed

Pod状态异常

当Pod的状态不健康(例如Pending、Failed、Unknown等)时触发该报警。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

pod-status-err

prom.pod.status.notHealthy

Pod启动失败

当Pod频繁启动失败,进入CrashLoopBackOff状态或其他启动失败情况时触发该报警。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

pod-crashloop

prom.pod.status.crashLooping

集群存储异常事件报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

云盘容量少于20Gi限制

集群网盘固定限制,无法挂载小于20 GiB的磁盘。请检查所挂载云盘容量大小。

日志服务

event

csi_invalid_size

sls.app.ack.csi.invalid_disk_size

容器数据卷暂不支持包年包月类型云盘

集群网盘固定限制,无法挂载包年包月类型的云盘。请检查所挂载云盘的售卖方式。

日志服务

event

csi_not_portable

sls.app.ack.csi.disk_not_portable

挂载点正在被进程占用,卸载挂载点失败

资源尚未完全释放或者有未终止的活跃进程在访问该挂载点。请提交工单联系容器服务团队。

日志服务

event

csi_device_busy

sls.app.ack.csi.deivce_busy

无可用云盘

集群存储挂载时无可用云盘异常。请提交工单联系容器服务团队。

日志服务

event

csi_no_ava_disk

sls.app.ack.csi.no_ava_disk

云盘IOHang

集群出现IOHang异常。请提交工单联系容器服务团队。

日志服务

event

csi_disk_iohang

sls.app.ack.csi.disk_iohang

磁盘绑定的PVC发生slowIO

集群磁盘绑定的PVC发生slowIO异常。请提交工单联系容器服务团队。

日志服务

event

csi_latency_high

sls.app.ack.csi.latency_too_high

PersistentVolume状态异常

集群PV发生异常。请提交工单联系容器服务团队。

阿里云Prometheus

metric-prometheus

pv-failed

prom.pv.failed

集群网络异常事件报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

VPC下存在多路由表

可能导致网络配置复杂化或路由冲突,需要及时优化网络结构。请提交工单联系容器服务团队。

日志服务

event

ccm-vpc-multi-route-err

sls.app.ack.ccm.describe_route_tables_failed

无可用LoadBalancer

集群无法创建LoadBalancer事件。请提交工单联系容器服务团队。

日志服务

event

slb-no-ava

sls.app.ack.ccm.no_ava_slb

同步LoadBalancer失败

集群创建LoadBalancer同步失败事件。请提交工单联系容器服务团队。

日志服务

event

slb-sync-err

sls.app.ack.ccm.sync_slb_failed

删除LoadBalancer失败

集群删除LoadBalancer失败事件。请提交工单联系容器服务团队。

日志服务

event

slb-del-err

sls.app.ack.ccm.del_slb_failed

创建路由失败

集群创建VPC网络路由失败事件。请提交工单联系容器服务团队。

日志服务

event

route-create-err

sls.app.ack.ccm.create_route_failed

同步路由失败

集群同步VPC网络路由失败事件。请提交工单联系容器服务团队。

日志服务

event

route-sync-err

sls.app.ack.ccm.sync_route_failed

Terway资源无效

集群Terway网络资源无效异常事件。请提交工单联系容器服务团队。

日志服务

event

terway-invalid-res

sls.app.ack.terway.invalid_resource

Terway分配IP失败

集群Terway网络资源分配IP失败异常事件。请提交工单联系容器服务团队。

日志服务

event

terway-alloc-ip-err

sls.app.ack.terway.alloc_ip_fail

解析Ingress带宽配置失败

集群Ingress网络解析配置异常事件。请提交工单联系容器服务团队。

日志服务

event

terway-parse-err

sls.app.ack.terway.parse_fail

Terway分配网络资源失败

集群Terway网络资源分配失败异常事件。请提交工单联系容器服务团队。

日志服务

event

terway-alloc-res-err

sls.app.ack.terway.allocate_failure

Terway回收网络资源失败

集群Terway网络资源回收失败异常事件。请提交工单联系容器服务团队。

日志服务

event

terway-dispose-err

sls.app.ack.terway.dispose_failure

Terway虚拟模式变更

集群Terway网络虚拟模式变更事件。请提交工单联系容器服务团队。

日志服务

event

terway-virt-mod-err

sls.app.ack.terway.virtual_mode_change

Terway触发Pod IP配置检查

集群Terway网络触发Pod IP配置检查事件。

日志服务

event

terway-ip-check

sls.app.ack.terway.config_check

Ingress重载配置失败

集群Ingress网络配置重载异常事件。请检查Ingress配置是否正确。请提交工单联系容器服务团队。

日志服务

event

ingress-reload-err

sls.app.ack.ingress.err_reload_nginx

集群重要审计操作报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

发生集群登录容器/执行命令操作

可能是维护或异常活动,审计操作可用于追踪及安全检测。

日志服务

event

audit-at-command

sls.app.k8s.audit.at.command

发生集群节点可调度状态变化

影响服务效率及资源负载,需即时跟进调整意图及验证效果。

日志服务

event

audit-cordon-switch

sls.app.k8s.audit.at.cordon.uncordon

发生集群删除资源操作

资源删除可能是计划性或异常行为,建议审计以防范风险。

日志服务

event

audit-resource-delete

sls.app.k8s.audit.at.delete

发生集群节点发生排水/驱逐行为

反映出节点负载压力或策略执行,需确认其必要及影响。

日志服务

event

audit-drain-eviction

sls.app.k8s.audit.at.drain.eviction

发生集群公网登录行为

公网登录可能存在安全隐患,需确认登录和访问权限配置。

日志服务

event

audit-internet-login

sls.app.k8s.audit.at.internet.login

发生集群节点label更新

标签更新用于区分和管理节点资源,正确性影响运维效率。

日志服务

event

audit-node-label-update

sls.app.k8s.audit.at.label

发生集群节点taint更新

节点污点配置变化,影响调度策略和容忍度机制,需正确执行和审核配置。

日志服务

event

audit-node-taint-update

sls.app.k8s.audit.at.taint

发生集群资源修改操作

资源配置的实时修改可能指示出应用策略的调整,需验证其是否符合业务目标。

日志服务

event

audit-resource-update

sls.app.k8s.audit.at.update

集群安全异常事件

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

安全巡检发现高危风险配置

集群安全巡检发现高危风险配置事件。请提交工单联系容器服务团队。

日志服务

event

si-c-a-risk

sls.app.ack.si.config_audit_high_risk

集群巡检异常事件报警规则集

报警项

规则说明

报警来源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

集群巡检发现异常

自动巡检机制捕捉到潜在异常,需分析具体问题与日常维护策略。请提交工单联系容器服务团队。

日志服务

event

cis-sched-failed

sls.app.ack.cis.schedule_task_failed

常见问题

报警规则同步失败且报错信息为The Project does not exist : k8s-log-xxx

  • 问题现象:

    报警中心中报警规则同步状态,提示The Project does not exist : k8s-log-xxx

  • 问题原因:

    未创建SLS事件中心资源。

  • 解决方案:

    1. 日志服务管理控制台确认是否达到Quota上限。资源详情请参见基础资源

      1. 如果已达Quota上限,删除多余的Project,或提交工单申请扩大Project资源Quota限制。关于如何删除Project,请参见管理Project

      2. 如果未达上限,请进行以下操作步骤。

    2. 重新安装ack-node-problem-detector组件。

      重新安装组件,会重新创建默认的名为k8s-log-xxxxxx的Project。

      1. 卸载ack-node-problem-detector组件。

        1. 容器服务管理控制台目标集群管理页左侧导航栏中,选择运维管理 > 组件管理

        2. 单击日志与监控页签,在ack-node-problem-detector组件的卡片中单击卸载。然后在弹框中单击确定

      2. 待卸载完成后,安装ack-node-problem-detector组件。

        1. 在左侧导航栏,选择运维管理 > 报警配置

        2. 报警配置页面,单击开始安装,控制台会自动创建Project,安装组件、升级组件。

    3. 然后在报警配置页面,将对应的报警规则集右侧的启动状态关闭,等待其报警规则状态规则已关闭后,再启动重试。

报警规则同步状态失败出现类似报错信息this rule have no xxx contact groups reference

  • 问题现象:

    报警规则同步状态失败出现类似报错信息this rule have no xxx contact groups reference

  • 问题原因:

    报警规则无订阅的联系人组。

  • 解决方案:

    1. 已创建联系人,并将联系人加入联系人分组中。

    2. 在对应报警规则集右侧单击编辑通知对象,为该组报警规则配置订阅的联系人分组。

  • 本页导读 (1)
  • 索引
  • 前提条件
  • 计费说明
  • 开启报警管理功能
  • 通过CRD配置报警规则
  • 配置步骤
  • 配置示例:通过CRD修改集群基础资源报警规则的阈值
  • 默认报警规则模板
  • 常见问题
  • 报警规则同步失败且报错信息为The Project does not exist : k8s-log-xxx
  • 报警规则同步状态失败出现类似报错信息this rule have no xxx contact groups reference
文档反馈