全部產品
Search
文件中心

Container Service for Kubernetes:Container Service警示管理

更新時間:Sep 09, 2025

通過開啟Container Service警示管理功能,可以統一管理容器的警示,包括Container Service例外狀況事件警示、叢集相關基礎資源的關鍵計量警示、叢集核心組件及叢集中應用的指標警示等。還可以通過CRD方式修改叢集中預設建立的警示規則,及時感知叢集中異常變化。

計費說明

警示功能的資料來源是通過Log ServiceSLS、可觀測監控 Prometheus 版和CloudMonitor,觸發警示後發送的簡訊、電話等通知會產生額外費用。在開啟警示功能之前,可根據預設警示規則模板確認每個警示項的來源,並開通所需的服務。

發送警示源

配置要求

計費詳情

Log ServiceSLS

開啟事件監控;啟用警示管理功能時,事件監控會預設開啟。

按使用功能計費模式計費項目

可觀測監控 Prometheus 版

為叢集配置使用阿里雲Prometheus監控

免費

CloudMonitor

為叢集開啟Container ServiceKubernetes版叢集的CloudMonitor功能

隨用隨付

開啟警示管理功能

開啟警示管理功能後,可以為叢集內指定的資源設定指標警示,並在異常情況發生時自動接收警示通知,以便更高效地管理和維護叢集,確保服務的穩定運行。相關資源警示詳情請參見預設警示規則模板

ACK託管叢集

選擇已有叢集開啟警示配置,或建立新叢集時啟用警示配置。

已有叢集中開啟

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇營運管理 > 警示配置

  3. 警示配置頁面,按照頁面指引進行組件的安裝或升級。

  4. 安裝升級完成後,進入警示配置頁面配置警示資訊。

    頁簽

    說明

    警示規則管理

    • 啟動狀態:用於開啟或關閉目標警示規則集。

    • 編輯通知對象:設定警示通知的連絡人分組。

    設定前,需先建立連絡人和分組,並將連絡人加入分組。通知對象僅支援連絡人分組,如需通知單人,可將該連絡人單獨建組後選擇該分組。

    警示歷史

    目前可查看最近1天內發送的最新100條記錄。

    • 單擊警示規則列下的連結,可以跳轉到對應監控系統中查看詳細規則配置。

    • 單擊排查現場,可以快速定位到異常發生的資源頁面(例外狀況事件、指標異常的資源)。

    • 單擊智能分析,可通過計算 AI 助手協助分析問題並提供處理指導。

    連絡人管理

    對連絡人進行管理,可建立、編輯或刪除連絡人。

    連絡方式:

    • 電話/簡訊:設定連絡人的手機號碼後,可以通過電話和簡訊的方式接收警示通知。

      僅驗證過的手機號碼可以在通知策略中使用電話的通知方式,驗證手機號的操作,請參見驗證手機號
    • 郵箱:設定連絡人的郵箱地址後,可以通過郵箱接收警示通知。

    • 機器人:DingTalk機器人企業微信機器人飛書機器人

      DingTalk機器人需要追加安全關鍵字: 警示、指派。
    郵箱和機器人設定前,可以先在CloudMonitor控制台警示服務 > 警示連絡人驗證,以便接收警示資訊。

    連絡人分組管理

    對連絡人分組進行管理,可建立、編輯或刪除連絡人分組。編輯通知對象僅支援選擇連絡人分組。

    當無連絡人分組時,控制台會在阿里雲帳號註冊資訊中同步建立一個預設連絡人分組。

建立叢集時開啟

在建立叢集的組件配置頁面,勾選警示配置右側使用預設警示模板配置警示,並選擇警示通知連絡人分組。具體操作,請參見建立ACK託管叢集

image

建立叢集時開啟警示配置後,系統將會開啟預設警示規則,並預設發送警示通知到預設的連絡人分組,也可自訂修改警示連絡人或警示聯絡組

ACK專有叢集

ACK專有叢集需要先為Worker RAM角色授權,再開啟預設警示規則。

為Worker RAM角色授權

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇叢集資訊

  3. 叢集資訊頁面,在叢集資源地區,複製Worker RAM角色右側的名稱,並單擊連結進入RAM存取控制控制台為該Worker RAM角色授權。

    1. 建立如下自訂權限原則。請參見通過指令碼編輯模式建立自訂權限原則

      {
                  "Action": [
                      "log:*",
                      "arms:*",
                      "cms:*",
                      "cs:UpdateContactGroup"
                  ],
                  "Resource": [
                      "*"
                  ],
                  "Effect": "Allow"
      }
    2. 角色頁面,搜尋定位該Worker RAM角色,為其授予以上建立的自訂權限原則。具體操作,請參見方式一:在RAM角色頁面為RAM角色授權

  4. 說明:為簡化操作,本文檔授予了較寬泛的許可權。在生產環境中,建議您遵循最小許可權原則,僅授予必要的許可權。
    1. 角色頁面,搜尋定位該Worker RAM角色,為其授予以上建立的自訂權限原則。具體操作,請參見方式一:在RAM角色頁面為RAM角色授權

  5. 通過日誌查看警示功能存取權限是否已配置。

    1. 在目的地組群管理頁左側導覽列,選擇工作負載 > 無狀態

    2. 選擇命名空間為kube-system,單擊無狀態應用列表中alicloud-monitor-controller的名稱連結。

    3. 單擊日誌頁簽,可看到授權成功的Pod日誌。

開啟預設警示配置規則

  1. 在目的地組群頁左側導覽列,選擇營運管理 > 警示配置

  2. 警示配置頁面,配置如下警示資訊。

    頁簽

    說明

    警示規則管理

    • 啟動狀態:用於開啟或關閉目標警示規則集。

    • 編輯通知對象:設定警示通知的連絡人分組。

    設定前,需先建立連絡人和分組,並將連絡人加入分組。通知對象僅支援連絡人分組,如需通知單人,可將該連絡人單獨建組後選擇該分組。

    警示歷史

    目前可查看最近1天內發送的最新100條記錄。

    • 單擊警示規則列下的連結,可以跳轉到對應監控系統中查看詳細規則配置。

    • 單擊排查現場,可以快速定位到異常發生的資源頁面(例外狀況事件、指標異常的資源)。

    • 單擊智能分析,可通過計算 AI 助手協助分析問題並提供處理指導。

    連絡人管理

    對連絡人進行管理,可建立、編輯或刪除連絡人。

    連絡方式:

    • 電話/簡訊:設定連絡人的手機號碼後,可以通過電話和簡訊的方式接收警示通知。

      僅驗證過的手機號碼可以在通知策略中使用電話的通知方式,驗證手機號的操作,請參見驗證手機號
    • 郵箱:設定連絡人的郵箱地址後,可以通過郵箱接收警示通知。

    • 機器人:DingTalk機器人企業微信機器人飛書機器人

      DingTalk機器人需要追加安全關鍵字: 警示、指派。
    郵箱和機器人設定前,可以先在CloudMonitor控制台警示服務 > 警示連絡人驗證,以便接收警示資訊。

    連絡人分組管理

    對連絡人分組進行管理,可建立、編輯或刪除連絡人分組。編輯通知對象僅支援選擇連絡人分組。

    當無連絡人分組時,控制台會在阿里雲帳號註冊資訊中同步建立一個預設連絡人分組。

配置警示規則

警示配置功能開啟後,預設會在kube-system命名空間下建立一個名為AckAlertRule類型的CRD資源配置,包含預設警示規則模板。可通過修改此CRD資源來修改預設警示規則,以配置符合要求的Container Service警示規則。

控制台

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇營運管理 > 警示配置

  3. 警示規則管理頁簽,單擊右上方編輯警示配置,然後單擊目標規則列右側操作列下的YAML,即可查看當前叢集中的AckAlertRule資源配置。

  4. 可參考預設警示規則模板說明,根據實際需求修改 YAML 檔案內容。

    警示規則配置 YAML 樣本如下:

    警示規則配置YAML

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # 以下是一個叢集事件警示規則配置範例。
        - name: pod-exceptions                             # 警示規則分組名,對應警示模板中的Group_Name欄位。
          rules:
            - name: pod-oom                                # 警示規則名。
              type: event                                  # 警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
              expression: sls.app.ack.pod.oom              # 警示規則運算式,當規則類型為event時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
              enable: enable                               # 警示規則開啟狀態,枚舉值為enable、disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # 以下是一個叢集基礎資源警示規則配置範例。
        - name: res-exceptions                              # 警示規則分組名,對應警示模板中的Group_Name欄位。
          rules:
            - name: node_cpu_util_high                      # 警示規則名。
              type: metric-cms                              # 警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標)、metric-prometheus(Prometheus指標)。
              expression: cms.host.cpu.utilization          # 警示規則運算式,當規則類型為metric-cms時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
              contactGroups:                                # 警示規則映射的連絡人分組配置,由ACK控制台產生,同一個帳號下連絡人相同,可在多叢集中複用。
              enable: enable                                # 警示規則開啟狀態,枚舉值為enable、disable。
              thresholds:                                   # 警示規則閾值。          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # CPU 使用率閾值,85%(預設)    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # 連續 3 次超過閾值觸發警示
                - key: CMS_RULE_SILENCE_SEC                 # 初次上報警示後靜默期時間長度 
                  value: '900'    

    rules.thresholds(參數見下表)可自訂警示閾值。例如上述樣本配置:當叢集節點 CPU 使用率超過 85%,連續 3 次達到閾值,且距離上一次警示已超過 900 秒時,將觸發警示通知。

    參數名

    是否必選

    說明

    預設值

    CMS_ESCALATIONS_CRITICAL_Threshold

    必選

    警示配置閾值。未配置時規則將同步失敗並關閉。

    • unit:表示單位,可配置為percentcountqps

    • value:閾值。

    根據預設警示模板配置而定。

    CMS_ESCALATIONS_CRITICAL_Times

    可選

    CloudMonitor規則重試判斷次數。未配置時取預設值。

    3

    CMS_RULE_SILENCE_SEC

    可選

    CloudMonitor持續發送異常觸發規則時,初次上報警示後靜默期時間長度(單位:秒),防止過於頻繁警示。未配置時取預設值。

    900

kubectl

  1. 使用以下命令編輯警示規則的 YAML 檔案。

    kubectl edit ackalertrules default -n kube-system
  2. 可參考預設警示規則模板說明,根據實際需求修改 YAML 檔案內容,編輯完成後儲存並退出即可。

    警示規則配置YAML

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # 以下是一個叢集事件警示規則配置範例。
        - name: pod-exceptions                             # 警示規則分組名,對應警示模板中的Group_Name欄位。
          rules:
            - name: pod-oom                                # 警示規則名。
              type: event                                  # 警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
              expression: sls.app.ack.pod.oom              # 警示規則運算式,當規則類型為event時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
              enable: enable                               # 警示規則開啟狀態,枚舉值為enable、disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # 以下是一個叢集基礎資源警示規則配置範例。
        - name: res-exceptions                              # 警示規則分組名,對應警示模板中的Group_Name欄位。
          rules:
            - name: node_cpu_util_high                      # 警示規則名。
              type: metric-cms                              # 警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
              expression: cms.host.cpu.utilization          # 警示規則運算式,當規則類型為metric-cms時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
              contactGroups:                                # 警示規則映射的連絡人分組配置,由ACK控制台產生,同一個帳號下連絡人相同,可在多叢集中複用。
              enable: enable                                # 警示規則開啟狀態,枚舉值為enable、disable。
              thresholds:                                   # 警示規則閾值。          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # CPU 使用率閾值,85%(預設)    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # 連續 3 次超過閾值觸發警示
                - key: CMS_RULE_SILENCE_SEC                 # 初次上報警示後靜默期時間長度 
                  value: '900'    

    通過 rules.thresholds,可靈活自訂警示閾值。例如上述樣本配置:當叢集節點 CPU 使用率超過 85%,連續 3 次達到閾值,且距離上一次警示已超過 900 秒時,將觸發警示通知。

    參數名

    是否必選

    說明

    預設值

    CMS_ESCALATIONS_CRITICAL_Threshold

    必選

    警示配置閾值。未配置時規則將同步失敗並關閉。

    • unit:表示單位,可配置為percentcountqps

    • value:閾值。

    根據預設警示模板配置而定。

    CMS_ESCALATIONS_CRITICAL_Times

    可選

    CloudMonitor規則重試判斷次數。未配置時取預設值。

    3

    CMS_RULE_SILENCE_SEC

    可選

    CloudMonitor持續發送異常觸發規則時,初次上報警示後靜默期時間長度(單位:秒),防止過於頻繁警示。未配置時取預設值。

    900

預設警示規則模板

以下警示項同步自Log Service SLS、阿里雲 Prometheus 和CloudMonitor,可在警示配置頁面,目標警示項的警示管理列下的進階設定查看各自的警示規則配置。

Error事件集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Error事件

叢集中所有Error Level例外狀況事件觸發該警示。

Log Service

event

error-event

sls.app.ack.error

Warn事件集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Warn事件

叢集中關鍵Warn Level例外狀況事件觸發該警示,排除部分可忽略事件。

Log Service

event

warn-event

sls.app.ack.warn

叢集核心組件異常警示規則集(ACK託管叢集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

叢集API Server可用性異常

API Server出現可用性問題時觸發警示,可能導致叢集管理功能受限。

阿里雲Prometheus

metric-prometheus

apiserver-unhealthy

prom.apiserver.notHealthy.down

叢集etcd可用性異常

etcd出現不可用將影響整個叢集的狀態。

阿里雲Prometheus

metric-prometheus

etcd-unhealthy

prom.etcd.notHealthy.down

叢集kube-scheduler可用性異常

負責Pod調度,調度器不可用可能導致新Pod無法正常啟動。

阿里雲Prometheus

metric-prometheus

scheduler-unhealthy

prom.scheduler.notHealthy.down

叢集KCM可用性異常

管理控制迴圈,異常會影響叢集狀態自動修複和資源調整機制。

阿里雲Prometheus

metric-prometheus

kcm-unhealthy

prom.kcm.notHealthy.down

叢集cloud-controller-manager可用性異常

管理外部雲端服務組件的生命週期,異常可能影響服務的動態調整功能。

阿里雲Prometheus

metric-prometheus

ccm-unhealthy

prom.ccm.notHealthy.down

叢集CoreDNS可用性異常-請求跌零

CoreDNS是叢集的DNS服務,異常將影響服務發現和網域名稱解析。

阿里雲Prometheus

metric-prometheus

coredns-unhealthy-requestdown

prom.coredns.notHealthy.requestdown

叢集CoreDNS可用性異常-panic異常

當CoreDNS出現panic錯誤時觸發,需立即分析日誌進行診斷。

阿里雲Prometheus

metric-prometheus

coredns-unhealthy-panic

prom.coredns.notHealthy.panic

叢集Ingress錯誤請求率高

Ingress控制器處理的HTTP請求錯誤率較高,可能影響服務的可訪問性。

阿里雲Prometheus

metric-prometheus

ingress-err-request

prom.ingress.request.errorRateHigh

叢集Ingress Controller認證即將到期

SSL認證到期會導致HTTPS請求失敗,需提前更新認證。

阿里雲Prometheus

metric-prometheus

ingress-ssl-expire

prom.ingress.ssl.expire

Pod Pending同時累計數>1000

若叢集中有過多Pod持續處於Pending狀態,可能是資源不足或調度策略不合理。

阿里雲Prometheus

metric-prometheus

pod-pending-accumulate

prom.pod.pending.accumulate

叢集API Server Mutating Admission Webhook RT高

變更型Admission Webhook響應過慢會影響資源建立和變更效率。

阿里雲Prometheus

metric-prometheus

apiserver-admit-rt-high

prom.apiserver.mutating.webhook.rt.high

叢集API Server Validating Admission Webhook RT高

驗證型Admission Webhook響應過慢可能導致配置變更不及時。

阿里雲Prometheus

metric-prometheus

apiserver-validate-rt-high

prom.apiserver.validation.webhook.rt.high

叢集ControlPlane組件發生OOM

叢集核心組件記憶體溢出,需要針對異常進行詳細排查,避免服務癱瘓。

Log Service

event

ack-controlplane-oom

sls.app.ack.controlplane.pod.oom

叢集節點池營運事件警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

節點自愈失敗

當節點自愈過程出現失敗,需立即瞭解原因並修複,確保高可用。

Log Service

event

node-repair_failed

sls.app.ack.rc.node_repair_failed

節點CVE修複失敗

若重要的CVE修複失敗,叢集安全可能受影響,需緊急評估並修複。

Log Service

event

nodepool-cve-fix-failed

sls.app.ack.rc.node_vulnerability_fix_failed

節點池CVE修複成功

成功應用CVE修複後可降低已知漏洞的安全風險。

Log Service

event

nodepool-cve-fix-succ

sls.app.ack.rc.node_vulnerability_fix_succeed

節點池CVE自動修複已忽略

自動修複被忽略,可能由於相容性或特定配置引起,需確認安全性原則是否合理。

Log Service

event

nodepool-cve-fix-skip

sls.app.ack.rc.node_vulnerability_fix_skipped

節點池kubelet參數配置失敗

kubelet配置未能成功更新,可能影響節點效能及資源調度。

Log Service

event

nodepool-kubelet-cfg-failed

sls.app.ack.rc.node_kubelet_config_failed

節點池kubelet參數配置成功

成功應用新的kubelet配置,需確認配置生效並符合預期。

Log Service

event

nodepool-kubelet-config-succ

sls.app.ack.rc.node_kubelet_config_succeed

節點池kubelet升級失敗

可能影響叢集穩定性和功能性,需確認升級過程和配置。

Log Service

event

nodepool-k-c-upgrade-failed

sls.app.ack.rc.node_kubelet_config_upgrade_failed

節點池kubelet升級成功

確認升級成功後,確保kubelet版本符合叢集和應用需求。

Log Service

event

nodepool-k-c-upgrade-succ

sls.app.ack.rc.kubelet_upgrade_succeed

節點池runtime升級成功

節點池中容器運行時升級成功。

Log Service

event

nodepool-runtime-upgrade-succ

sls.app.ack.rc.runtime_upgrade_succeed

節點池runtime升級失敗

節點池中容器運行時升級失敗。

Log Service

event

nodepool-runtime-upgrade-fail

sls.app.ack.rc.runtime_upgrade_failed

節點池OS鏡像升級成功

節點池中的作業系統鏡像升級成功。

Log Service

event

nodepool-os-upgrade-succ

sls.app.ack.rc.os_image_upgrade_succeed

節點池OS鏡像升級失敗

節點池中的作業系統鏡像升級失敗。

Log Service

event

nodepool-os-upgrade-failed

sls.app.ack.rc.os_image_upgrade_failed

靈駿節點池配置變更成功

靈駿節點池的配置變更成功。

Log Service

event

nodepool-lingjun-config-succ

sls.app.ack.rc.lingjun_configuration_apply_succeed

靈駿節點池配置變更失敗

靈駿節點池的配置變更失敗。

Log Service

event

nodepool-lingjun-cfg-failed

sls.app.ack.rc.lingjun_configuration_apply_failed

叢集節點異常警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

叢集節點docker進程異常

叢集中節點Dockerd或Containerd運行時異常。

Log Service

event

docker-hang

sls.app.ack.docker.hang

叢集驅逐事件

叢集中發生驅逐事件。

Log Service

event

eviction-event

sls.app.ack.eviction

叢集GPU的XID錯誤事件

叢集中GPU XID例外狀況事件。

Log Service

event

gpu-xid-error

sls.app.ack.gpu.xid_error

叢集節點下線

叢集中節點下線。

Log Service

event

node-down

sls.app.ack.node.down

叢集節點重啟

叢集中節點重啟。

Log Service

event

node-restart

sls.app.ack.node.restart

叢集節點時間服務異常

叢集中節點時間同步系統服務異常。

Log Service

event

node-ntp-down

sls.app.ack.ntp.down

叢集節點PLEG異常

叢集中節點PLEG異常。

Log Service

event

node-pleg-error

sls.app.ack.node.pleg_error

叢集節點進程異常

叢集中節點進程數異常。

Log Service

event

ps-hang

sls.app.ack.ps.hang

叢集節點檔案控制代碼過多

節點上的檔案控制代碼數量過多。

Log Service

event

node-fd-pressure

sls.app.ack.node.fd_pressure

叢集節點進程數過多

叢集節點進程數過多。

Log Service

event

node-pid-pressure

sls.app.ack.node.pid_pressure

刪除節點失敗

叢集刪除節點失敗事件。

Log Service

event

node-del-err

sls.app.ack.ccm.del_node_failed

添加節點失敗

叢集添加節點失敗事件。

Log Service

event

node-add-err

sls.app.ack.ccm.add_node_failed

託管節點池命令執行失敗

叢集託管節點池例外狀況事件。

Log Service

event

nlc-run-cmd-err

sls.app.ack.nlc.run_command_fail

託管節點池未提供任務的具體命令

叢集託管節點池例外狀況事件。

Log Service

event

nlc-empty-cmd

sls.app.ack.nlc.empty_task_cmd

託管節點池出現未實現的任務模式

叢集託管節點池例外狀況事件。

Log Service

event

nlc-url-m-unimp

sls.app.ack.nlc.url_mode_unimpl

託管節點池發生未知的修複操作

叢集託管節點池例外狀況事件。

Log Service

event

nlc-opt-no-found

sls.app.ack.nlc.op_not_found

託管節點池銷毀節點發生錯誤

叢集託管節點池例外狀況事件。

Log Service

event

nlc-des-node-err

sls.app.ack.nlc.destroy_node_fail

託管節點池節點排水失敗

叢集託管節點池排水例外狀況事件。

Log Service

event

nlc-drain-node-err

sls.app.ack.nlc.drain_node_fail

託管節點池重啟ECS未達到終態

叢集託管節點池例外狀況事件。

Log Service

event

nlc-restart-ecs-wait

sls.app.ack.nlc.restart_ecs_wait_fail

託管節點池重啟ECS失敗

叢集託管節點池例外狀況事件。

Log Service

event

nlc-restart-ecs-err

sls.app.ack.nlc.restart_ecs_fail

託管節點池重設ECS失敗

叢集託管節點池例外狀況事件。

Log Service

event

nlc-reset-ecs-err

sls.app.ack.nlc.reset_ecs_fail

託管節點池自愈任務失敗

叢集託管節點池例外狀況事件。

Log Service

event

nlc-sel-repair-err

sls.app.ack.nlc.repair_fail

叢集資源異常警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

叢集節點-CPU使用率≥85%

叢集中節點執行個體CPU使用率超過閾值。預設值85%。

剩餘資源不足15%時,可能會超過容器引擎層CPU資源預留。更多資訊,請參見節點資源預留策略。這可能引起高頻CPU Throttle,最終嚴重影響進程響應速度。請及時最佳化CPU使用方式或調整閾值。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

node_cpu_util_high

cms.host.cpu.utilization

叢集節點-記憶體使用量率≥85%

叢集中節點執行個體記憶體使用量率超過閾值。預設值85%。

剩餘資源不足15%時,若仍然使用,水位將超過容器引擎層記憶體資源預留。更多資訊,請參見節點資源預留策略。此情境下,Kubelet將發生強制驅逐行為。請及時最佳化記憶體使用量情況或調整閾值。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

node_mem_util_high

cms.host.memory.utilization

叢集節點-磁碟使用率≥85%

叢集中節點執行個體磁碟使用率超過閾值。預設值85%。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

node_disk_util_high

cms.host.disk.utilization

叢集節點-公網流出頻寬使用率≥85%

叢集中節點執行個體公網流出頻寬使用率超過閾值。預設值85%。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

node_public_net_util_high

cms.host.public.network.utilization

叢集節點-inode使用率≥85%

叢集中節點執行個體inode使用率超過閾值。預設值85%。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

node_fs_inode_util_high

cms.host.fs.inode.utilization

叢集資源-負載平衡7層QPS使用率≥85%

叢集中Server Load Balancer執行個體QPS超過閾值。預設值85%。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的Server Load Balancer執行個體。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

slb_qps_util_high

cms.slb.qps.utilization

叢集資源-負載平衡網路流出頻寬使用率≥85%

叢集中Server Load Balancer執行個體網路流出頻寬使用率超過閾值。預設值85%。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的Server Load Balancer執行個體。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

slb_traff_tx_util_high

cms.slb.traffic.tx.utilization

叢集資源-負載平衡最大串連數使用率≥85%

叢集中Server Load Balancer執行個體最大串連數使用率超過閾值。預設值85%。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的Server Load Balancer執行個體。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

slb_max_con_util_high

cms.slb.max.connection.utilization

叢集資源-負載平衡監聽每秒丟失串連數持續≥1

叢集中Server Load Balancer執行個體每秒丟失串連數持續超過閾值。預設值1次。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的Server Load Balancer執行個體。

關於如何調整閾值,請參見配置警示規則

CloudMonitor

metric-cms

slb_drop_con_high

cms.slb.drop.connection

叢集節點磁碟空間不足

叢集中節點磁碟空間不足例外狀況事件。

Log Service

event

node-disk-pressure

sls.app.ack.node.disk_pressure

叢集節點調度資源不足

叢集中無調度資源例外狀況事件。

Log Service

event

node-res-insufficient

sls.app.ack.resource.insufficient

叢集節點IP資源不足

叢集中IP資源不足例外狀況事件。

Log Service

event

node-ip-pressure

sls.app.ack.ip.not_enough

磁碟使用量超過閾值

叢集磁碟使用量超過閾值異常。請檢查叢集磁碟使用方式。

Log Service

event

disk_space_press

sls.app.ack.csi.no_enough_disk_space

ACK管控營運通知警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ACK叢集任務通知

記錄和告知管理層相關計劃和變更情況。

Log Service

event

ack-system-event-info

sls.app.ack.system_events.task.info

ACK叢集任務失敗通知

叢集操作失敗時需注意並及時調查原因。

Log Service

event

ack-system-event-error

sls.app.ack.system_events.task.error

叢集Auto Scaling警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

自動擴縮容-擴容節點

自動擴容節點以應對增加的負載請求。

Log Service

event

autoscaler-scaleup

sls.app.ack.autoscaler.scaleup_group

自動擴縮容-縮容節點

當負載下降時,節點自動縮容以節省資源。

Log Service

event

autoscaler-scaledown

sls.app.ack.autoscaler.scaledown

自動擴縮容-擴容逾時

擴容過程逾時可能指示資源不足或策略不當。

Log Service

event

autoscaler-scaleup-timeout

sls.app.ack.autoscaler.scaleup_timeout

自動擴縮容-縮容空節點

不活躍節點被識別並清理以最佳化資源使用。

Log Service

event

autoscaler-scaledown-empty

sls.app.ack.autoscaler.scaledown_empty

自動擴縮容-擴容節點失敗

擴容失敗需立即分析原因並調整資源策略。

Log Service

event

autoscaler-up-group-failed

sls.app.ack.autoscaler.scaleup_group_failed

自動擴縮容-叢集不健康

擴縮容影響下叢集不健康狀態需迅速處理。

Log Service

event

autoscaler-cluster-unhealthy

sls.app.ack.autoscaler.cluster_unhealthy

自動擴縮容-刪除長時間未啟動節點

清理無效節點以回收資源。

Log Service

event

autoscaler-del-started

sls.app.ack.autoscaler.delete_started_timeout

自動擴縮容-刪除未註冊節點

處理冗餘節點以最佳化叢集資源。

Log Service

event

autoscaler-del-unregistered

sls.app.ack.autoscaler.delete_unregistered

自動擴縮容-縮容失敗

縮容失敗可能導致資源浪費和負載不均。

Log Service

event

autoscaler-scale-down-failed

sls.app.ack.autoscaler.scaledown_failed

自動擴縮容-刪除的節點未完成排水

當自動擴縮容操作刪除某個節點時,節點上啟動並執行Pod未能成功驅逐或遷移。

Log Service

event

autoscaler-instance-expired

sls.app.ack.autoscaler.instance_expired

叢集應用工作負載警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Job運行失敗

當Job任務在執行過程中失敗時觸發該警示。

阿里雲Prometheus

metric-prometheus

job-failed

prom.job.failed

Deployment可用副本狀態異常

當Deployment的可用副本數量不足時觸發該警示,可能導致服務不可用或部分不可用。

阿里雲Prometheus

metric-prometheus

deployment-rep-err

prom.deployment.replicaError

Daemonset副本狀態異常

當DaemonSet的某些副本狀態異常(如未能啟動或崩潰)時觸發該警示,影響到節點的預期行為或服務。

阿里雲Prometheus

metric-prometheus

daemonset-status-err

prom.daemonset.scheduledError

Daemonset副本調度異常

當DaemonSet未能正確調度一些或所有的節點時觸發該警示,可能由於資源限制或調度策略不當。

阿里雲Prometheus

metric-prometheus

daemonset-misscheduled

prom.daemonset.misscheduled

叢集容器副本異常警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

叢集容器副本OOM

叢集容器副本Pod或其中進程出現OOM(Out of Memory)。

Log Service

event

pod-oom

sls.app.ack.pod.oom

叢集容器副本啟動失敗

叢集容器副本Pod啟動失敗事件(Pod Start Failed)。

Log Service

event

pod-failed

sls.app.ack.pod.failed

Pod狀態異常

當Pod的狀態不健康(例如Pending、Failed、Unknown等)時觸發該警示。

阿里雲Prometheus

metric-prometheus

pod-status-err

prom.pod.status.notHealthy

Pod啟動失敗

當Pod頻繁啟動失敗,進入CrashLoopBackOff狀態或其他啟動失敗情況時觸發該警示。

阿里雲Prometheus

metric-prometheus

pod-crashloop

prom.pod.status.crashLooping

叢集儲存例外狀況事件警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

雲端硬碟容量少於20Gi限制

叢集網盤固定限制,無法掛載小於20 GiB的磁碟。請檢查所掛載雲端硬碟容量大小。

Log Service

event

csi_invalid_size

sls.app.ack.csi.invalid_disk_size

容器資料卷暫不支援訂用帳戶類型雲端硬碟

叢集網盤固定限制,無法掛載訂用帳戶類型的雲端硬碟。請檢查所掛載雲端硬碟的售賣方式。

Log Service

event

csi_not_portable

sls.app.ack.csi.disk_not_portable

掛載點正在被進程佔用,卸載掛載點失敗

資源尚未完全釋放或者有未終止的活躍進程在訪問該掛載點。

Log Service

event

csi_device_busy

sls.app.ack.csi.deivce_busy

無可用雲端硬碟

叢集儲存掛載時無可用雲端硬碟異常。

Log Service

event

csi_no_ava_disk

sls.app.ack.csi.no_ava_disk

雲端硬碟IOHang

叢集出現IOHang異常。

Log Service

event

csi_disk_iohang

sls.app.ack.csi.disk_iohang

磁碟綁定的PVC發生slowIO

叢集磁碟綁定的PVC發生slowIO異常。

Log Service

event

csi_latency_high

sls.app.ack.csi.latency_too_high

PersistentVolume狀態異常

叢集PV發生異常。

阿里雲Prometheus

metric-prometheus

pv-failed

prom.pv.failed

叢集網路例外狀況事件警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

VPC下存在多路由表

可能導致網路設定複雜化或路由衝突,需要及時最佳化網路結構。

Log Service

event

ccm-vpc-multi-route-err

sls.app.ack.ccm.describe_route_tables_failed

無可用LoadBalancer

叢集無法建立LoadBalancer事件。

Log Service

event

slb-no-ava

sls.app.ack.ccm.no_ava_slb

同步LoadBalancer失敗

叢集建立LoadBalancer同步失敗事件。

Log Service

event

slb-sync-err

sls.app.ack.ccm.sync_slb_failed

刪除LoadBalancer失敗

叢集刪除LoadBalancer失敗事件。

Log Service

event

slb-del-err

sls.app.ack.ccm.del_slb_failed

建立路由失敗

叢集建立VPC網路路由失敗事件。

Log Service

event

route-create-err

sls.app.ack.ccm.create_route_failed

同步路由失敗

叢集同步VPC網路路由失敗事件。

Log Service

event

route-sync-err

sls.app.ack.ccm.sync_route_failed

Terway資源無效

叢集Terway網路資源無效例外狀況事件。

Log Service

event

terway-invalid-res

sls.app.ack.terway.invalid_resource

Terway分配IP失敗

叢集Terway網路資源分配IP失敗例外狀況事件。

Log Service

event

terway-alloc-ip-err

sls.app.ack.terway.alloc_ip_fail

解析Ingress頻寬配置失敗

叢集Ingress網路解析配置例外狀況事件。

Log Service

event

terway-parse-err

sls.app.ack.terway.parse_fail

Terway分配網路資源失敗

叢集Terway網路資源分配失敗例外狀況事件。

Log Service

event

terway-alloc-res-err

sls.app.ack.terway.allocate_failure

Terway回收網路資源失敗

叢集Terway網路資源回收失敗例外狀況事件。

Log Service

event

terway-dispose-err

sls.app.ack.terway.dispose_failure

Terway音效模擬模式變更

叢集Terway網路音效模擬模式變更事件。

Log Service

event

terway-virt-mod-err

sls.app.ack.terway.virtual_mode_change

Terway觸發Pod IP配置檢查

叢集Terway網路觸發Pod IP配置檢查事件。

Log Service

event

terway-ip-check

sls.app.ack.terway.config_check

Ingress重載配置失敗

叢集Ingress網路設定重載例外狀況事件。請檢查Ingress配置是否正確。

Log Service

event

ingress-reload-err

sls.app.ack.ingress.err_reload_nginx

叢集重要審計操作警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

發生叢集登入容器/執行命令操作

可能是維護或異常活動,審計操作可用於追蹤及安全檢測。

Log Service

event

audit-at-command

sls.app.k8s.audit.at.command

發生叢集節點可調度狀態變化

影響服務效率及資源負載,需即時跟進調整意圖及驗證效果。

Log Service

event

audit-cordon-switch

sls.app.k8s.audit.at.cordon.uncordon

發生叢集刪除資源操作

資源刪除可能是計劃性或異常行為,建議審計以防範風險。

Log Service

event

audit-resource-delete

sls.app.k8s.audit.at.delete

發生叢集節點發生排水/驅逐行為

反映出節點負載壓力或策略執行,需確認其必要及影響。

Log Service

event

audit-drain-eviction

sls.app.k8s.audit.at.drain.eviction

發生叢集公網登入行為

公網登入可能存在安全隱患,需確認登入和存取權限配置。

Log Service

event

audit-internet-login

sls.app.k8s.audit.at.internet.login

發生叢集節點label更新

標籤更新用於區分和管理節點資源,正確性影響營運效率。

Log Service

event

audit-node-label-update

sls.app.k8s.audit.at.label

發生叢集節點taint更新

節點汙點配置變化,影響調度策略和容忍度機制,需正確執行和審核配置。

Log Service

event

audit-node-taint-update

sls.app.k8s.audit.at.taint

發生叢集資源修改操作

資源配置的即時修改可能指示出應用策略的調整,需驗證其是否符合營運目標。

Log Service

event

audit-resource-update

sls.app.k8s.audit.at.update

叢集安全例外狀況事件警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

安全巡檢發現高危風險配置

叢集安全巡檢發現高危風險配置事件。

Log Service

event

si-c-a-risk

sls.app.ack.si.config_audit_high_risk

叢集巡檢例外狀況事件警示規則集

警示項

規則說明

警示來源

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

叢集巡檢發現異常

自動巡檢機制捕捉到潛在異常,需分析具體問題與日常維護策略。

Log Service

event

cis-sched-failed

sls.app.ack.cis.schedule_task_failed

警示處理指導

節點磁碟達到閾值觸發 Pod 驅逐(Evicted)

警示資訊

(combined from similar events): Failed to garbage collect required amount of images. Attempted to free XXXX bytes, but only found 0 bytes eligible to free

問題現象

Pod 狀態顯示為 Evicted。Node 節點出現磁碟壓力(The node had condition: [DiskPressure].

警示原因

節點磁碟空間使用達到驅逐閾值(預設 85%),預設kubelet會進行壓力驅逐,GC回收一些無用的鏡像檔案,導致 Pod 被驅逐(Evicted)。可以登入目標節點,通過df -h 命令查看磁碟使用方式。

解決方案

  1. 登入目標節點(containerd runtime環境),使用如下命令清理無用容器鏡像,釋放磁碟空間。k

    crictl rmi --prune
  2. 清理日誌或擴容節點磁碟

  3. 調整相關閾值。

    • 根據實際業務需求調整 kubelet 的鏡像回收(garbage collection)閾值,以減少節點因磁碟佔用過高導致的 Pod 驅逐。具體操作請參見自訂節點池kubelet配置

    • 節點磁碟使用率達到或超過 85% 時,將收到相關警示。可根據實際業務需求,通過配置警示規則,在 YAML 配置中的 node_disk_util_high 警示規則項修改警示閾值。

建議與預防措施

  • 對於頻繁出現該類問題的節點,建議評估應用實際儲存需求,合理規劃資源申請和節點磁碟容量。

  • 建議定期關注儲存使用監控,及時發現並處理潛在風險。詳情請參見節點儲存監控大盤

Pod OOMKilling

警示資訊

pod was OOM killed. node:xxx pod:xxx namespace:xxx uuid:xxx

問題現象

Pod狀態異常,且事件內容中出現PodOOMKilling

解決方案

OOM 觸發位置分為節點級和容器CGroup級。

  • 原因說明:

    • 容器CGroup級OOM:Pod實際記憶體使用量超過為其設定的memory limits,被 Kubernetes cgroup 限制強制終止。

    • 節點級OOM:通常發生在節點上運行了過多未設定資源限制(requests/limits)的Pod,或者某些進程(可能是非Kubernetes管理的進程)消耗了大量記憶體。

  • 判斷方法:登入目標節點,執行命令dmesg -T | grep -i "memory",輸出內容中出現類似out_of_memory即表示發生過OOM,如日誌輸出伴隨出現Memory cgroup即為容器CGroup級OOM,否則為節點級OOM。

  • 處理建議

更多OOM現象出現的原因及解決方案,請參見出現OOM Killer的原因及解決方案

Pod狀態為CrashLoopBackOff

當Pod內進程非預期退出,ACK會嘗試重啟此Pod,多次重啟後均無法達到終態即會表示為 CrashLoopBackOff狀態。排查路徑如下:

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇工作負載 > 容器組

  3. 列表中找到異常的Pod,單擊目標右側操作列下的詳情

  4. 檢查Pod事件,查看例外狀況事件的對應描述資訊進行分析。

  5. 查看Pod日誌,可能會記錄進程發生異常的原因。

    說明

    當Pod已重啟,如需查看上一個Pod的日誌請勾選顯示上個容器退出時的日誌

    通過控制台最多隻能查看最近 500 行日誌。如需查看更多歷史日誌,建議接入日誌持久化方案進行統一採集與儲存。