全部產品
Search
文件中心

Container Service for Kubernetes:Container Service警示管理

更新時間:Jun 19, 2024

警示配置功能提供統一管理容器警示情境的功能,包括Container Service例外狀況事件警示、叢集相關基礎資源的關鍵計量警示、叢集核心組件及叢集中應用的指標警示。支援在建立叢集時預設開啟警示功能。Container Service的警示規則支援通過叢集內部署CRD的方式組態管理。本文介紹Container Service警示中心功能使用情境、如何接入警示功能,以及專有叢集如何授予警示功能資源的存取權限等。

背景資訊

Container Service警示管理組件含的功能:

  • 叢集例外狀況事件警示,此類警示的資料鏈路同步自Container Service事件中心。更多資訊,請參見事件監控

  • 叢集相關基礎資源的關鍵計量警示,此類警示的資料鏈路同步自CloudMonitor基礎資源監控。更多資訊,請參見基礎資源監控

功能使用情境

Container Service警示配置功能集合容器情境的監控警示能力,提供警示的統一組態管理,有如下幾個典型的使用情境:

  • 叢集營運

    可以通過監控警示瞭解叢集管控、儲存、網路、彈性擴縮容等例外狀況事件。例如:

    • 通過叢集資源異常警示規則集感知叢集基礎資源的關鍵計量是否異常。例如,CPU、Memory、網路等關鍵計量是否出現高水位情況,避免影響叢集穩定性。

    • 通過配置並查看叢集例外狀況事件警示規則集感知叢集節點或容器節點異常。例如,叢集節點Docker進程異常、叢集節點進程異常及叢集容器副本啟動失敗等異常。

    • 通過配置並查看叢集儲存例外狀況事件警示規則集感知叢集儲存的變更與異常。

    • 通過配置並查看叢集網路例外狀況事件警示規則集感知叢集網路的變更與異常。

    • 通過配置並查看叢集管控營運異常警示規則集感知叢集管控的變更與異常等。

  • 應用開發

    可以通過監控警示瞭解在叢集中運行應用的例外狀況事件、指標是否異常。例如,叢集容器副本異常或者應用Deployment的CPU、記憶體水位指標是否超過閾值等。可通過開啟警示配置功能中的預設警示規則模板,即可快速接受叢集內應用程式容器副本的例外狀況事件警示通知。例如,通過配置並訂閱關注叢集容器副本異常警示規則集感知所屬應用的Pod是否異常。

  • 應用管理

    關注運行在叢集上的應用健康、容量規劃、叢集運行穩定性及異常甚至是錯誤判警等貫穿應用生命週期的一系列問題。例如,通過配置並訂閱關注叢集重要事件警示規則集感知叢集內所有Warning、Error等異常警示;關注叢集資源異常警示規則集感知叢集的資源情況,從而更好地做容量規劃等。

  • 多叢集管理

    當您有多個叢集需要管理,為叢集配置警示規則往往會是一個重複繁瑣且難以同步的操作。Container Service警示配置功能,支援通過叢集內部署CRD配置的方式管理警示規則。可通過維護多個叢集中同樣配置的CRD資源,來方便快捷地實現多叢集中警示規則的同步配置。

組件安裝與升級

控制台會自動檢測警示配置環境是否符合要求,並會引導進行開通或安裝、升級組件。

  1. 登入Container Service管理主控台

  2. 在控制台左側導覽列,單擊叢集

  3. 叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情

  4. 在叢集管理頁左側導覽列,選擇營運管理 > 警示配置

  5. 警示配置頁面控制台會自動檢查以下條件。

    若不符合條件,請按以下提示完成操作。

    警示配置

如何接入警示配置功能

目前Container Service警示規則配置功能支援ACK託管版叢集、ACK專有版叢集。

步驟一:開啟預設警示規則

  • 建立ACK託管版叢集時,開啟使用預設警示模板配置警示開關,並選擇警示通知連絡人分組。

    開啟後將會建立預設警示規則,並預設發送警示通知到此連絡人分組。建立叢集

    具體操作,請參見建立Kubernetes託管版叢集

  • 若已建立叢集,可在目的地組群開啟對應警示規則。

    1. 在目的地組群左側導覽列選擇營運管理 > 警示配置組態管理。

    2. 警示規則管理頁簽,開啟啟動狀態可開啟對應警示規則集。

    警示規則管理具體操作,請參見步驟二:手動設定警示規則

步驟二:手動設定警示規則

ACK託管版叢集、ACK專有版叢集建立後,可進行警示規則、連絡人和連絡人分組管理。

  1. 登入Container Service管理主控台

  2. 在控制台左側導覽列,單擊叢集

  3. 叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情

  4. 在叢集管理頁左側導覽列,選擇營運管理 > 警示配置

    功能特性

    說明

    警示規則管理

    • Container Service警示規則功能會預設產生容器情境下的警示模板(包含例外狀況事件警示、異常指標警示)。

    • 警示規則被分類為若干個警示規則集,可為警示規則集關聯多個連絡人分組,並啟動或關閉警示規則集。

    • 警示規則集中包含多個警示規則,一個警示規則對應單個異常的檢查項。多個警示規則集可以通過一個YAML資源配置到對應叢集中,修改YAML會同步產生警示規則。

    • 關於警示規則YAML配置,請參見如何通過CRD配置警示規則

    • 關於預設警示規則模板,請參見預設警示規則模板

    警示歷史

    目前可查看最近發送的近100條記錄。單擊警示規則列下的連結,可以跳轉到對應監控系統中查看詳細規則配置;單擊排查現場,可以快速定位到異常發生的資源頁面(例外狀況事件、指標異常的資源)。警示歷史查看

    連絡人管理

    對連絡人進行管理,可建立、編輯或刪除連絡人。

    叢集資源異常警示規則集中叢集節點基礎資源警示,連絡人簡訊、郵箱等連絡方式需要在CloudMonitor中先驗證連絡方式,才能正常接收叢集基礎資源警示資訊。可在CloudMonitor控制台查看同步連絡人,若驗證資訊到期,可刪除CloudMonitor中對應連絡人並重新重新整理Container Service警示中心的連絡人頁面。連絡人管理

    連絡人分組管理

    對連絡人分組進行管理,可建立、編輯或刪除連絡人分組。當無連絡人分組時,控制台會從您的阿里雲帳號註冊資訊中同步建立一個預設連絡人分組。

  5. 警示規則管理頁簽,單擊編輯通知對象可設定關聯的通知對象;開啟啟動狀態可開啟對應警示規則集。

如何通過CRD配置警示規則

警示配置功能開啟時,會預設在kube-system Namespace下建立一個AckAlertRule類型的資源配置,包含預設警示規則模板。Container Service警示規則集可通過此資源配置在叢集中。

  1. 登入Container Service管理主控台

  2. 在控制台左側導覽列,單擊叢集

  3. 叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情

  4. 在叢集管理頁左側導覽列,選擇營運管理 > 警示配置

  5. 警示規則管理頁簽中,單擊右上方編輯警示配置,可查看當前叢集中的AckAlertRule資源配置,並可通過YAML檔案修改。

    警示規則配置的YAML檔案樣本如下:

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        #以下是一個叢集事件警示規則配置範例。
        - name: pod-exceptions                             #警示規則分組名,對應警示模板中的Group_Name欄位。
          rules:
            - name: pod-oom                                #警示規則名。
              type: event                                  #警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
              expression: sls.app.ack.pod.oom              #警示規則運算式,當規則類型為event時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
              enable: enable                               #警示規則開啟狀態,枚舉值為enable、disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        #以下是一個叢集基礎資源警示規則配置範例。
        - name: res-exceptions                              #警示規則分組名,對應警示模板中的Group_Name欄位。
          rules:
            - name: node_cpu_util_high                      #警示規則名。
              type: metric-cms                              #警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
              expression: cms.host.cpu.utilization          #警示規則運算式,當規則類型為metric-cms時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
              contactGroups:                                #警示規則映射的連絡人分組配置,由ACK控制台產生,同一個帳號下連絡人相同,可在多叢集中複用。
              enable: enable                                #警示規則開啟狀態,枚舉值為enable、disable。
              thresholds:                                   #警示規則閾值,詳情見文檔如何更改警示規則閾值部分。            
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '1'

預設警示規則模板

在以下情況下ACK會預設建立相應警示規則:

  • 開啟預設警示規則功能。

  • 未開啟預設警示規則,首次進入警示規則頁面。

預設建立的警示規則如下表所示。

規則集類型

規則名

規則說明

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

critical-events叢集重要事件警示規則集

叢集Error事件

叢集中所有Error Level例外狀況事件觸發該警示。

event

error-event

sls.app.ack.error

叢集Warn事件

叢集中關鍵Warn Level例外狀況事件觸發該警示,排除部分可忽略事件。

event

warn-event

sls.app.ack.warn

cluster-error叢集例外狀況事件警示規則集

叢集節點Docker進程異常

叢集中節點Dockerd或Containerd 運行時異常。

event

docker-hang

sls.app.ack.docker.hang

叢集驅逐事件

叢集中發生驅逐事件。

event

eviction-event

sls.app.ack.eviction

叢集GPU的XID錯誤事件

叢集中GPU XID例外狀況事件。

event

gpu-xid-error

sls.app.ack.gpu.xid_error

叢集節點下線

叢集中節點下線。

event

node-down

sls.app.ack.node.down

叢集節點重啟

叢集中節點重啟。

event

node-restart

sls.app.ack.node.restart

叢集節點時間服務異常

叢集中節點時間同步系統服務異常。

event

node-ntp-down

sls.app.ack.ntp.down

叢集節點PLEG異常

叢集中節點PLEG異常。

event

node-pleg-error

sls.app.ack.node.pleg_error

叢集節點進程異常

叢集中節點進程數異常。

event

ps-hang

sls.app.ack.ps.hang

res-exceptions叢集資源異常警示規則集

叢集節點-CPU使用率≥85%

叢集中節點執行個體CPU使用率超過水位。預設值85%。

剩餘資源不足15%時,可能會超過容器引擎層CPU資源預留。更多資訊,請參見節點資源預留策略。這可能引起高頻CPU Throttle,最終嚴重影響進程響應速度。請及時最佳化CPU使用方式或調整閾值。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

node_cpu_util_high

cms.host.cpu.utilization

叢集節點-記憶體使用量率≥85%

叢集中節點執行個體記憶體使用量率超過水位。預設值85%。

剩餘資源不足15%時,若仍然使用,水位將超過容器引擎層記憶體資源預留。更多資訊,請參見節點資源預留策略。此情境下,Kubelet將發生強制驅逐行為。請及時最佳化記憶體使用量情況或調整閾值。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

node_mem_util_high

cms.host.memory.utilization

叢集節點-磁碟使用率≥85%

叢集中節點執行個體磁碟使用率超過水位。預設值85%。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

node_disk_util_high

cms.host.disk.utilization

叢集節點-公網流出頻寬使用率≥85%

叢集中節點執行個體公網流出頻寬使用率超過水位。預設值85%。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

node_public_net_util_high

cms.host.public.network.utilization

叢集節點-inode使用率≥85%

叢集中節點執行個體inode使用率超過水位。預設值85%。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

node_fs_inode_util_high

cms.host.fs.inode.utilization

叢集資源-負載平衡最大串連數使用率≥85%

叢集中Server Load Balancer執行個體最大串連數超過水位。預設值85%。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

slb_qps_util_high

cms.slb.qps.utilization

叢集資源-負載平衡網路流出頻寬使用率≥85%

叢集中Server Load Balancer執行個體網路流出頻寬使用率超過水位。預設值85%。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

slb_traff_tx_util_high

cms.slb.traffic.tx.utilization

叢集資源-負載平衡最大串連數使用率≥85%

叢集中Server Load Balancer執行個體最大串連數使用率超過水位。預設值85%。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

slb_max_con_util_high

cms.slb.max.connection.utilization

叢集資源-負載平衡監聽每秒丟失串連數持續≥1

叢集中Server Load Balancer執行個體每秒丟失串連數持續超過水位。預設值1次。

說明

Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。

關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值

metric-cms

slb_drop_con_high

cms.slb.drop.connection

叢集節點檔案控制代碼過多

叢集中節點檔案控制代碼數過多異常。

event

node-fd-pressure

sls.app.ack.node.fd_pressure

叢集節點磁碟空間不足

叢集中節點磁碟空間不足例外狀況事件。

event

node-disk-pressure

sls.app.ack.node.disk_pressure

叢集節點進程數過多

叢集中節點進程數過多例外狀況事件。

event

node-pid-pressure

sls.app.ack.node.pid_pressure

叢集節點調度資源不足

叢集中無調度資源例外狀況事件。

event

node-res-insufficient

sls.app.ack.resource.insufficient

叢集節點IP資源不足

叢集中IP資源不足例外狀況事件。

event

node-ip-pressure

sls.app.ack.ip.not_enough

pod-exceptions叢集容器副本異常警示規則集

叢集容器副本OOM

叢集容器副本Pod或其中進程出現OOM(Out of Memory)。

event

pod-oom

sls.app.ack.pod.oom

叢集容器副本啟動失敗

叢集容器副本Pod啟動失敗事件(Pod Start Failed)。

event

pod-failed

sls.app.ack.pod.failed

叢集鏡像拉取失敗事件

叢集容器副本Pod出現鏡像拉取失敗事件。

event

image-pull-back-off

sls.app.ack.image.pull_back_off

cluster-ops-err叢集管控營運異常警示規則集

無可用LoadBalancer

叢集無法建立LoadBalancer事件。請提交工單聯絡Container Service團隊。

event

slb-no-ava

sls.app.ack.ccm.no_ava_slb

同步LoadBalancer失敗

叢集建立LoadBalancer同步失敗事件。請提交工單聯絡Container Service團隊。

event

slb-sync-err

sls.app.ack.ccm.sync_slb_failed

刪除LoadBalancer失敗

叢集刪除LoadBalancer失敗事件。請提交工單聯絡Container Service團隊。

event

slb-del-err

sls.app.ack.ccm.del_slb_failed

刪除節點失敗

叢集刪除節點失敗事件。請提交工單聯絡Container Service團隊。

event

node-del-err

sls.app.ack.ccm.del_node_failed

添加節點失敗

叢集添加節點失敗事件。請提交工單聯絡Container Service團隊。

event

node-add-err

sls.app.ack.ccm.add_node_failed

建立VPC網路路由失敗

叢集建立VPC網路路由失敗事件。請提交工單聯絡Container Service團隊。

event

route-create-err

sls.app.ack.ccm.create_route_failed

同步VPC網路路由失敗

叢集同步VPC網路路由失敗事件。請提交工單聯絡Container Service團隊。

event

route-sync-err

sls.app.ack.ccm.sync_route_failed

託管節點池命令執行失敗

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-run-cmd-err

sls.app.ack.nlc.run_command_fail

託管節點池未提供任務的具體命令

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-empty-cmd

sls.app.ack.nlc.empty_task_cmd

託管節點池出現未實現的任務模式

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-url-m-unimp

sls.app.ack.nlc.url_mode_unimpl

託管節點池發生未知的修複操作

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-opt-no-found

sls.app.ack.nlc.op_not_found

託管節點池銷毀節點發生錯誤

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-des-node-err

sls.app.ack.nlc.destroy_node_fail

託管節點池節點排水失敗

叢集託管節點池排水例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-drain-node-err

sls.app.ack.nlc.drain_node_fail

託管節點池重啟ECS未達到終態

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-restart-ecs-wait

sls.app.ack.nlc.restart_ecs_wait_fail

託管節點池重啟ECS失敗

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-restart-ecs-err

sls.app.ack.nlc.restart_ecs_fail

託管節點池重設ECS失敗

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-reset-ecs-err

sls.app.ack.nlc.reset_ecs_fail

託管節點池自愈任務失敗

叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。

event

nlc-sel-repair-err

sls.app.ack.nlc.repair_fail

cluster-network-err叢集網路例外狀況事件警示規則集

Terway資源無效

叢集Terway網路資源無效例外狀況事件。請提交工單聯絡Container Service團隊。

event

terway-invalid-res

sls.app.ack.terway.invalid_resource

Terway分配IP失敗

叢集Terway網路資源分配IP失敗例外狀況事件。請提交工單聯絡Container Service團隊。

event

terway-alloc-ip-err

sls.app.ack.terway.alloc_ip_fail

解析Ingress頻寬配置失敗

叢集Ingress網路解析配置例外狀況事件。請提交工單聯絡Container Service團隊。

event

terway-parse-err

sls.app.ack.terway.parse_fail

Terway分配網路資源失敗

叢集Terway網路資源分配失敗例外狀況事件。請提交工單聯絡Container Service團隊。

event

terway-alloc-res-err

sls.app.ack.terway.allocate_failure

Terway回收網路資源失敗

叢集Terway網路資源回收失敗例外狀況事件。請提交工單聯絡Container Service團隊。

event

terway-dispose-err

sls.app.ack.terway.dispose_failure

Terway音效模擬模式變更

叢集Terway網路音效模擬模式變更事件。

event

terway-virt-mod-err

sls.app.ack.terway.virtual_mode_change

Terway觸發PodIP配置檢查

叢集Terway網路觸發PodIP配置檢查事件。

event

terway-ip-check

sls.app.ack.terway.config_check

Ingress重載配置失敗

叢集Ingress網路設定重載例外狀況事件。請檢查Ingress配置是否正確。

event

ingress-reload-err

sls.app.ack.ingress.err_reload_nginx

cluster-storage-err叢集儲存例外狀況事件警示規則集

雲端硬碟容量少於20 GiB限制

叢集網盤固定限制,無法掛載小於20 GiB的磁碟。請檢查所掛載雲端硬碟的容量大小。

event

csi_invalid_size

sls.app.ack.csi.invalid_disk_size

容器資料卷暫不支援訂用帳戶類型雲端硬碟

叢集網盤固定限制,無法掛載訂用帳戶類型的雲端硬碟。請檢查所掛載雲端硬碟的售賣方式。

event

csi_not_portable

sls.app.ack.csi.disk_not_portable

掛載點正在被進程佔用,卸載掛載點失敗

叢集儲存掛載點正在被進程佔用,卸載掛載點失敗。

event

csi_device_busy

sls.app.ack.csi.deivce_busy

無可用雲端硬碟

叢集儲存掛載時無可用雲端硬碟異常。請提交工單聯絡Container Service團隊。

event

csi_no_ava_disk

sls.app.ack.csi.no_ava_disk

雲端硬碟IOHang

叢集出現IOHang異常。請提交工單聯絡Container Service團隊。

event

csi_disk_iohang

sls.app.ack.csi.disk_iohang

磁碟綁定的PVC發生slowIO

叢集磁碟綁定的PVC發生slowIO異常。請提交工單聯絡Container Service團隊。

event

csi_latency_high

sls.app.ack.csi.latency_too_high

磁碟容量超過水位閾值

叢集磁碟使用量超過水位值異常。請檢查你的叢集磁碟水位情況。

event

disk_space_press

sls.app.ack.csi.no_enough_disk_space

security-err叢集安全例外狀況事件

安全巡檢發現高危風險配置

叢集安全巡檢發現高危風險配置事件。請提交工單聯絡Container Service團隊。

event

si-c-a-risk

sls.app.ack.si.config_audit_high_risk

如何為專有版叢集授予警示功能存取權限

專有版叢集在使用警示規則功能之前,需要手動添加許可權。

說明

託管版叢集已自動添加SLS警示功能資源的存取權限。

為專有版叢集SLS警示功能及ARMS-Prometheus警示功能授予資源存取權限。更多資訊,請參見RAM自訂授權情境存取控制概述

  1. 登入Container Service管理主控台

  2. 在控制台左側導覽列,單擊叢集

  3. 叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情

  4. 叢集資訊頁面,單擊叢集資源頁簽Worker RAM角色欄位右側的連結,進入RAM存取控制控制台。

    worker ram角色

  5. 在角色頁面的許可權管理頁簽,單擊對應權限原則名稱的連結。

  6. 策略內容頁簽單擊修改策略內容,然後將以下內容添加到策略內容中。

    {
                "Action": [
                    "log:*",
                    "arms:*",
                    "cms:*",
                    "cs:UpdateContactGroup"
                ],
                "Resource": [
                    "*"
                ],
                "Effect": "Allow"
    }
  7. 單擊繼續編輯基本資料,然後單擊確定完成配置。

  8. 通過日誌查看警示功能存取權限是否已配置。

    1. Container Service管理主控台目的地組群管理頁左側導覽列,選擇工作負載 > 無狀態

    2. 選擇命名空間kube-system,單擊無狀態應用列表中alicloud-monitor-controller的名稱連結。

    3. 單擊日誌頁簽,可看到授權成功的Pod日誌。Pod日誌

如何修改叢集基礎資源警示規則的閾值

Rule_Type為metric-cms的警示規則,是同步自CloudMonitor的基礎資源警示規則,此類規則可通過CRD配置警示規則的閾值。具體操作,請參見如何通過CRD配置警示規則

本樣本通過叢集節點-CPU使用率規則的警示規則CRD,增加thresholds參數配置基礎監控警示規則的閾值、重試判斷次數、靜默期配置。

apiVersion: alert.alibabacloud.com/v1beta1
kind: AckAlertRule
metadata:
  name: default
spec:
  groups:
    #以下是一個叢集基礎資源警示規則配置範例。
    - name: res-exceptions                                        #警示規則分組名,對應警示模板中的Group_Name欄位。
      rules:
        - name: node_cpu_util_high                                #警示規則名。
          type: metric-cms                                        #警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
          expression: cms.host.cpu.utilization                    #警示規則運算式,當規則類型為metric-cms時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
          contactGroups:                                          #警示規則映射的連絡人分組配置,由ACK控制台產生,同一個帳號下連絡人相同,可在多叢集中複用。
          enable: enable                                          #警示規則開啟狀態,枚舉值為enable、disable。
          thresholds:                                             #警示規則閾值,更多資訊,請參見如何通過CRD配置警示規則。
            - key: CMS_ESCALATIONS_CRITICAL_Threshold
              unit: percent
              value: '1'  
            - key: CMS_ESCALATIONS_CRITICAL_Times
              value: '3'  
            - key: CMS_RULE_SILENCE_SEC
              value: '900'  

參數名

說明

預設值

CMS_ESCALATIONS_CRITICAL_Threshold

警示配置閾值。

  • unit:表示單位,可配置為percentcountqps

  • value:閾值。

此參數必填,未配置時規則將同步失敗並關閉。

根據預設警示模板配置而定。

CMS_ESCALATIONS_CRITICAL_Times

CloudMonitor規則重試判斷次數。

選擇性參數,未配置時取預設值。

3

CMS_RULE_SILENCE_SEC

CloudMonitor持續發送異常觸發規則時,初次上報警示後靜默期時間長度(單位:秒),防止過於頻繁警示。

選擇性參數,未配置時取預設值。

900

如何在對應監控系統中查看ACK警示中心警示規則

當開啟ACK警示中心的預設警示規則後,同步成功即可在警示規則中,通過單擊進階設定,分別跳轉到此規則的監控系統(ARMS/SLS/CMS)服務的警示規則設定頁面。或直接進入對應監控系統,查看此警示規則的詳細配置。1

  • Log Service的警示規則:

    1. 登入Log Service控制台

    2. 搜尋並進入此叢集Log Service對應的Project。叢集預設Log ServiceProject命名為K8s-log-{{clusterId}}1

    3. 在左側導覽列,單擊1表徵圖,在警示中心頁面中,單擊規則/事務頁簽,查看已開啟的規則。類別選擇Container ServiceKubernetes,可篩選展示ACK警示中心同步的此叢集的預設警示規則。

      說明

      需要您開啟ACK警示中心的警示規則,否則無法顯示類別

  • CloudMonitor警示規則:

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,單擊應用分組,在應用分組列表頁面,單擊資源標籤規則頁簽。

    3. 規則描述列,尋找資源標籤鍵:ack.aliyun.com,資源標籤值:等於為<叢集ID>的規則。

  • Prometheus警示規則:登入ARMS控制台,查看ACK警示中心在此叢集已經同步的Prometheus警示規則。警示規則名在Prometheus控制台中以警示規則名_叢集名展示。

常見問題

警示規則同步失敗且報錯資訊為The Project does not exist : k8s-log-xxx

問題現象:

當警示中心中警示規則同步狀態出現如下情況:警示規則同步失敗

問題原因:

未建立SLS事件中心資源。

解決方案:

  1. Log Service管理主控台檢查Project是否達到Quota上限,刪除多餘的Project,或提交工單申請擴大Project資源Quota限制。關於如何刪除Project,請參見管理Project

  2. 重新安裝ack-node-problem-detector組件。

    1. Container Service管理主控台目的地組群管理頁左側導覽列中,選擇應用 > Helm

    2. 若您需要通過YAML方式重新安裝ack-node-problem-detector組件,請通過以下操作備份ack-node-problem-detector組件資源。

      Helm頁面,單擊ack-node-problem-detector組件右側操作列的更新。更新完成後,單擊ack-node-problem-detector組件右側操作詳情。在ack-node-problem-detector組件詳情頁,單擊所有資源資訊的查看YAML,並儲存各資源的YAML到本地。

    3. Helm頁面,單擊ack-node-problem-detector組件右側操作列的刪除

    4. 在叢集管理頁左側導覽列中,選擇營運管理 > 組件管理

    5. 單擊日誌與監控頁簽,在ack-node-problem-detector組件的卡片中單擊安裝

      提示對話方塊中確認版本資訊後單擊確定。安裝成功後,對應組件卡片地區會提示已安裝,且可查看組件目前的版本。

由於無訂閱的連絡人群組導致警示規則同步失敗

問題現象:

當警示中心中警示規則同步狀態出現如下情況:

報錯資訊為類似資訊:this rule have no xxx contact groups reference警示規則同步失敗2

問題原因:

警示規則無訂閱的連絡人群組。

解決方案:

  1. 已建立連絡人,並將連絡人加入連絡人分組中。

  2. 在對應警示規則集右側單擊編輯通知對象,為該組警示規則配置訂閱的連絡人分組。

關於上述操作的詳情,請參見如何接入警示配置功能