警示配置功能提供統一管理容器警示情境的功能,包括Container Service例外狀況事件警示、叢集相關基礎資源的關鍵計量警示、叢集核心組件及叢集中應用的指標警示。支援在建立叢集時預設開啟警示功能。Container Service的警示規則支援通過叢集內部署CRD的方式組態管理。本文介紹Container Service警示中心功能使用情境、如何接入警示功能,以及專有叢集如何授予警示功能資源的存取權限等。
背景資訊
Container Service警示管理組件含的功能:
功能使用情境
Container Service警示配置功能集合容器情境的監控警示能力,提供警示的統一組態管理,有如下幾個典型的使用情境:
叢集營運
可以通過監控警示瞭解叢集管控、儲存、網路、彈性擴縮容等例外狀況事件。例如:
通過叢集資源異常警示規則集感知叢集基礎資源的關鍵計量是否異常。例如,CPU、Memory、網路等關鍵計量是否出現高水位情況,避免影響叢集穩定性。
通過配置並查看叢集例外狀況事件警示規則集感知叢集節點或容器節點異常。例如,叢集節點Docker進程異常、叢集節點進程異常及叢集容器副本啟動失敗等異常。
通過配置並查看叢集儲存例外狀況事件警示規則集感知叢集儲存的變更與異常。
通過配置並查看叢集網路例外狀況事件警示規則集感知叢集網路的變更與異常。
通過配置並查看叢集管控營運異常警示規則集感知叢集管控的變更與異常等。
應用開發
可以通過監控警示瞭解在叢集中運行應用的例外狀況事件、指標是否異常。例如,叢集容器副本異常或者應用Deployment的CPU、記憶體水位指標是否超過閾值等。可通過開啟警示配置功能中的預設警示規則模板,即可快速接受叢集內應用程式容器副本的例外狀況事件警示通知。例如,通過配置並訂閱關注叢集容器副本異常警示規則集感知所屬應用的Pod是否異常。
應用管理
關注運行在叢集上的應用健康、容量規劃、叢集運行穩定性及異常甚至是錯誤判警等貫穿應用生命週期的一系列問題。例如,通過配置並訂閱關注叢集重要事件警示規則集感知叢集內所有Warning、Error等異常警示;關注叢集資源異常警示規則集感知叢集的資源情況,從而更好地做容量規劃等。
多叢集管理
當您有多個叢集需要管理,為叢集配置警示規則往往會是一個重複繁瑣且難以同步的操作。Container Service警示配置功能,支援通過叢集內部署CRD配置的方式管理警示規則。可通過維護多個叢集中同樣配置的CRD資源,來方便快捷地實現多叢集中警示規則的同步配置。
組件安裝與升級
控制台會自動檢測警示配置環境是否符合要求,並會引導進行開通或安裝、升級組件。
在控制台左側導覽列,單擊叢集。
在叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情。
在叢集管理頁左側導覽列,選擇 。
在警示配置頁面控制台會自動檢查以下條件。
若不符合條件,請按以下提示完成操作。
已開通SLSLog Service雲產品。當您首次使用Log Service時,需要登入Log Service控制台,根據頁面提示開通Log Service。
說明關於Log Service的詳細計費,請參見按使用功能付費模式計費項目。
已安裝事件中心。具體操作,請參見事件監控。
叢集託管組件alicloud-monitor-controller升級到最新版本。更多資訊,請參見alicloud-monitor-controller。
如何接入警示配置功能
目前Container Service警示規則配置功能支援ACK託管版叢集、ACK專有版叢集。
步驟一:開啟預設警示規則
建立ACK託管版叢集時,開啟使用預設警示模板配置警示開關,並選擇警示通知連絡人分組。
開啟後將會建立預設警示規則,並預設發送警示通知到此連絡人分組。
具體操作,請參見建立Kubernetes託管版叢集。
若已建立叢集,可在目的地組群開啟對應警示規則。
在目的地組群左側導覽列選擇
組態管理。在警示規則管理頁簽,開啟啟動狀態可開啟對應警示規則集。
具體操作,請參見步驟二:手動設定警示規則。
步驟二:手動設定警示規則
ACK託管版叢集、ACK專有版叢集建立後,可進行警示規則、連絡人和連絡人分組管理。
在控制台左側導覽列,單擊叢集。
在叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情。
在叢集管理頁左側導覽列,選擇 。
功能特性
說明
警示規則管理
Container Service警示規則功能會預設產生容器情境下的警示模板(包含例外狀況事件警示、異常指標警示)。
警示規則被分類為若干個警示規則集,可為警示規則集關聯多個連絡人分組,並啟動或關閉警示規則集。
警示規則集中包含多個警示規則,一個警示規則對應單個異常的檢查項。多個警示規則集可以通過一個YAML資源配置到對應叢集中,修改YAML會同步產生警示規則。
關於警示規則YAML配置,請參見如何通過CRD配置警示規則。
關於預設警示規則模板,請參見預設警示規則模板。
警示歷史
目前可查看最近發送的近100條記錄。單擊警示規則列下的連結,可以跳轉到對應監控系統中查看詳細規則配置;單擊排查現場,可以快速定位到異常發生的資源頁面(例外狀況事件、指標異常的資源)。
連絡人管理
對連絡人進行管理,可建立、編輯或刪除連絡人。
叢集資源異常警示規則集中叢集節點基礎資源警示,連絡人簡訊、郵箱等連絡方式需要在CloudMonitor中先驗證連絡方式,才能正常接收叢集基礎資源警示資訊。可在CloudMonitor控制台查看同步連絡人,若驗證資訊到期,可刪除CloudMonitor中對應連絡人並重新重新整理Container Service警示中心的連絡人頁面。
連絡人分組管理
對連絡人分組進行管理,可建立、編輯或刪除連絡人分組。當無連絡人分組時,控制台會從您的阿里雲帳號註冊資訊中同步建立一個預設連絡人分組。
在警示規則管理頁簽,單擊編輯通知對象可設定關聯的通知對象;開啟啟動狀態可開啟對應警示規則集。
如何通過CRD配置警示規則
警示配置功能開啟時,會預設在kube-system Namespace下建立一個AckAlertRule類型的資源配置,包含預設警示規則模板。Container Service警示規則集可通過此資源配置在叢集中。
在控制台左側導覽列,單擊叢集。
在叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情。
在叢集管理頁左側導覽列,選擇 。
在警示規則管理頁簽中,單擊右上方編輯警示配置,可查看當前叢集中的AckAlertRule資源配置,並可通過YAML檔案修改。
警示規則配置的YAML檔案樣本如下:
apiVersion: alert.alibabacloud.com/v1beta1 kind: AckAlertRule metadata: name: default spec: groups: #以下是一個叢集事件警示規則配置範例。 - name: pod-exceptions #警示規則分組名,對應警示模板中的Group_Name欄位。 rules: - name: pod-oom #警示規則名。 type: event #警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。 expression: sls.app.ack.pod.oom #警示規則運算式,當規則類型為event時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。 enable: enable #警示規則開啟狀態,枚舉值為enable、disable。 - name: pod-failed type: event expression: sls.app.ack.pod.failed enable: enable #以下是一個叢集基礎資源警示規則配置範例。 - name: res-exceptions #警示規則分組名,對應警示模板中的Group_Name欄位。 rules: - name: node_cpu_util_high #警示規則名。 type: metric-cms #警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。 expression: cms.host.cpu.utilization #警示規則運算式,當規則類型為metric-cms時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。 contactGroups: #警示規則映射的連絡人分組配置,由ACK控制台產生,同一個帳號下連絡人相同,可在多叢集中複用。 enable: enable #警示規則開啟狀態,枚舉值為enable、disable。 thresholds: #警示規則閾值,詳情見文檔如何更改警示規則閾值部分。 - key: CMS_ESCALATIONS_CRITICAL_Threshold unit: percent value: '1'
預設警示規則模板
在以下情況下ACK會預設建立相應警示規則:
開啟預設警示規則功能。
未開啟預設警示規則,首次進入警示規則頁面。
預設建立的警示規則如下表所示。
規則集類型 | 規則名 | 規則說明 | Rule_Type | ACK_CR_Rule_Name | SLS_Event_ID |
critical-events叢集重要事件警示規則集 | 叢集Error事件 | 叢集中所有Error Level例外狀況事件觸發該警示。 | event | error-event | sls.app.ack.error |
叢集Warn事件 | 叢集中關鍵Warn Level例外狀況事件觸發該警示,排除部分可忽略事件。 | event | warn-event | sls.app.ack.warn | |
cluster-error叢集例外狀況事件警示規則集 | 叢集節點Docker進程異常 | 叢集中節點Dockerd或Containerd 運行時異常。 | event | docker-hang | sls.app.ack.docker.hang |
叢集驅逐事件 | 叢集中發生驅逐事件。 | event | eviction-event | sls.app.ack.eviction | |
叢集GPU的XID錯誤事件 | 叢集中GPU XID例外狀況事件。 | event | gpu-xid-error | sls.app.ack.gpu.xid_error | |
叢集節點下線 | 叢集中節點下線。 | event | node-down | sls.app.ack.node.down | |
叢集節點重啟 | 叢集中節點重啟。 | event | node-restart | sls.app.ack.node.restart | |
叢集節點時間服務異常 | 叢集中節點時間同步系統服務異常。 | event | node-ntp-down | sls.app.ack.ntp.down | |
叢集節點PLEG異常 | 叢集中節點PLEG異常。 | event | node-pleg-error | sls.app.ack.node.pleg_error | |
叢集節點進程異常 | 叢集中節點進程數異常。 | event | ps-hang | sls.app.ack.ps.hang | |
res-exceptions叢集資源異常警示規則集 | 叢集節點-CPU使用率≥85% | 叢集中節點執行個體CPU使用率超過水位。預設值85%。 剩餘資源不足15%時,可能會超過容器引擎層CPU資源預留。更多資訊,請參見節點資源預留策略。這可能引起高頻CPU Throttle,最終嚴重影響進程響應速度。請及時最佳化CPU使用方式或調整閾值。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | node_cpu_util_high | cms.host.cpu.utilization |
叢集節點-記憶體使用量率≥85% | 叢集中節點執行個體記憶體使用量率超過水位。預設值85%。 剩餘資源不足15%時,若仍然使用,水位將超過容器引擎層記憶體資源預留。更多資訊,請參見節點資源預留策略。此情境下,Kubelet將發生強制驅逐行為。請及時最佳化記憶體使用量情況或調整閾值。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | node_mem_util_high | cms.host.memory.utilization | |
叢集節點-磁碟使用率≥85% | 叢集中節點執行個體磁碟使用率超過水位。預設值85%。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | node_disk_util_high | cms.host.disk.utilization | |
叢集節點-公網流出頻寬使用率≥85% | 叢集中節點執行個體公網流出頻寬使用率超過水位。預設值85%。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | node_public_net_util_high | cms.host.public.network.utilization | |
叢集節點-inode使用率≥85% | 叢集中節點執行個體inode使用率超過水位。預設值85%。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | node_fs_inode_util_high | cms.host.fs.inode.utilization | |
叢集資源-負載平衡最大串連數使用率≥85% | 叢集中Server Load Balancer執行個體最大串連數超過水位。預設值85%。 說明 Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | slb_qps_util_high | cms.slb.qps.utilization | |
叢集資源-負載平衡網路流出頻寬使用率≥85% | 叢集中Server Load Balancer執行個體網路流出頻寬使用率超過水位。預設值85%。 說明 Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | slb_traff_tx_util_high | cms.slb.traffic.tx.utilization | |
叢集資源-負載平衡最大串連數使用率≥85% | 叢集中Server Load Balancer執行個體最大串連數使用率超過水位。預設值85%。 說明 Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | slb_max_con_util_high | cms.slb.max.connection.utilization | |
叢集資源-負載平衡監聽每秒丟失串連數持續≥1 | 叢集中Server Load Balancer執行個體每秒丟失串連數持續超過水位。預設值1次。 說明 Server Load Balancer執行個體,即API-Server、Ingress所關聯的SLBServer Load Balancer執行個體。 關於如何調整閾值,請參見如何修改叢集基礎資源警示規則的閾值。 | metric-cms | slb_drop_con_high | cms.slb.drop.connection | |
叢集節點檔案控制代碼過多 | 叢集中節點檔案控制代碼數過多異常。 | event | node-fd-pressure | sls.app.ack.node.fd_pressure | |
叢集節點磁碟空間不足 | 叢集中節點磁碟空間不足例外狀況事件。 | event | node-disk-pressure | sls.app.ack.node.disk_pressure | |
叢集節點進程數過多 | 叢集中節點進程數過多例外狀況事件。 | event | node-pid-pressure | sls.app.ack.node.pid_pressure | |
叢集節點調度資源不足 | 叢集中無調度資源例外狀況事件。 | event | node-res-insufficient | sls.app.ack.resource.insufficient | |
叢集節點IP資源不足 | 叢集中IP資源不足例外狀況事件。 | event | node-ip-pressure | sls.app.ack.ip.not_enough | |
pod-exceptions叢集容器副本異常警示規則集 | 叢集容器副本OOM | 叢集容器副本Pod或其中進程出現OOM(Out of Memory)。 | event | pod-oom | sls.app.ack.pod.oom |
叢集容器副本啟動失敗 | 叢集容器副本Pod啟動失敗事件(Pod Start Failed)。 | event | pod-failed | sls.app.ack.pod.failed | |
叢集鏡像拉取失敗事件 | 叢集容器副本Pod出現鏡像拉取失敗事件。 | event | image-pull-back-off | sls.app.ack.image.pull_back_off | |
cluster-ops-err叢集管控營運異常警示規則集 | 無可用LoadBalancer | 叢集無法建立LoadBalancer事件。請提交工單聯絡Container Service團隊。 | event | slb-no-ava | sls.app.ack.ccm.no_ava_slb |
同步LoadBalancer失敗 | 叢集建立LoadBalancer同步失敗事件。請提交工單聯絡Container Service團隊。 | event | slb-sync-err | sls.app.ack.ccm.sync_slb_failed | |
刪除LoadBalancer失敗 | 叢集刪除LoadBalancer失敗事件。請提交工單聯絡Container Service團隊。 | event | slb-del-err | sls.app.ack.ccm.del_slb_failed | |
刪除節點失敗 | 叢集刪除節點失敗事件。請提交工單聯絡Container Service團隊。 | event | node-del-err | sls.app.ack.ccm.del_node_failed | |
添加節點失敗 | 叢集添加節點失敗事件。請提交工單聯絡Container Service團隊。 | event | node-add-err | sls.app.ack.ccm.add_node_failed | |
建立VPC網路路由失敗 | 叢集建立VPC網路路由失敗事件。請提交工單聯絡Container Service團隊。 | event | route-create-err | sls.app.ack.ccm.create_route_failed | |
同步VPC網路路由失敗 | 叢集同步VPC網路路由失敗事件。請提交工單聯絡Container Service團隊。 | event | route-sync-err | sls.app.ack.ccm.sync_route_failed | |
託管節點池命令執行失敗 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-run-cmd-err | sls.app.ack.nlc.run_command_fail | |
託管節點池未提供任務的具體命令 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-empty-cmd | sls.app.ack.nlc.empty_task_cmd | |
託管節點池出現未實現的任務模式 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-url-m-unimp | sls.app.ack.nlc.url_mode_unimpl | |
託管節點池發生未知的修複操作 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-opt-no-found | sls.app.ack.nlc.op_not_found | |
託管節點池銷毀節點發生錯誤 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-des-node-err | sls.app.ack.nlc.destroy_node_fail | |
託管節點池節點排水失敗 | 叢集託管節點池排水例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-drain-node-err | sls.app.ack.nlc.drain_node_fail | |
託管節點池重啟ECS未達到終態 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-restart-ecs-wait | sls.app.ack.nlc.restart_ecs_wait_fail | |
託管節點池重啟ECS失敗 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-restart-ecs-err | sls.app.ack.nlc.restart_ecs_fail | |
託管節點池重設ECS失敗 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-reset-ecs-err | sls.app.ack.nlc.reset_ecs_fail | |
託管節點池自愈任務失敗 | 叢集託管節點池例外狀況事件。請提交工單聯絡Container Service團隊。 | event | nlc-sel-repair-err | sls.app.ack.nlc.repair_fail | |
cluster-network-err叢集網路例外狀況事件警示規則集 | Terway資源無效 | 叢集Terway網路資源無效例外狀況事件。請提交工單聯絡Container Service團隊。 | event | terway-invalid-res | sls.app.ack.terway.invalid_resource |
Terway分配IP失敗 | 叢集Terway網路資源分配IP失敗例外狀況事件。請提交工單聯絡Container Service團隊。 | event | terway-alloc-ip-err | sls.app.ack.terway.alloc_ip_fail | |
解析Ingress頻寬配置失敗 | 叢集Ingress網路解析配置例外狀況事件。請提交工單聯絡Container Service團隊。 | event | terway-parse-err | sls.app.ack.terway.parse_fail | |
Terway分配網路資源失敗 | 叢集Terway網路資源分配失敗例外狀況事件。請提交工單聯絡Container Service團隊。 | event | terway-alloc-res-err | sls.app.ack.terway.allocate_failure | |
Terway回收網路資源失敗 | 叢集Terway網路資源回收失敗例外狀況事件。請提交工單聯絡Container Service團隊。 | event | terway-dispose-err | sls.app.ack.terway.dispose_failure | |
Terway音效模擬模式變更 | 叢集Terway網路音效模擬模式變更事件。 | event | terway-virt-mod-err | sls.app.ack.terway.virtual_mode_change | |
Terway觸發PodIP配置檢查 | 叢集Terway網路觸發PodIP配置檢查事件。 | event | terway-ip-check | sls.app.ack.terway.config_check | |
Ingress重載配置失敗 | 叢集Ingress網路設定重載例外狀況事件。請檢查Ingress配置是否正確。 | event | ingress-reload-err | sls.app.ack.ingress.err_reload_nginx | |
cluster-storage-err叢集儲存例外狀況事件警示規則集 | 雲端硬碟容量少於20 GiB限制 | 叢集網盤固定限制,無法掛載小於20 GiB的磁碟。請檢查所掛載雲端硬碟的容量大小。 | event | csi_invalid_size | sls.app.ack.csi.invalid_disk_size |
容器資料卷暫不支援訂用帳戶類型雲端硬碟 | 叢集網盤固定限制,無法掛載訂用帳戶類型的雲端硬碟。請檢查所掛載雲端硬碟的售賣方式。 | event | csi_not_portable | sls.app.ack.csi.disk_not_portable | |
掛載點正在被進程佔用,卸載掛載點失敗 | 叢集儲存掛載點正在被進程佔用,卸載掛載點失敗。 | event | csi_device_busy | sls.app.ack.csi.deivce_busy | |
無可用雲端硬碟 | 叢集儲存掛載時無可用雲端硬碟異常。請提交工單聯絡Container Service團隊。 | event | csi_no_ava_disk | sls.app.ack.csi.no_ava_disk | |
雲端硬碟IOHang | 叢集出現IOHang異常。請提交工單聯絡Container Service團隊。 | event | csi_disk_iohang | sls.app.ack.csi.disk_iohang | |
磁碟綁定的PVC發生slowIO | 叢集磁碟綁定的PVC發生slowIO異常。請提交工單聯絡Container Service團隊。 | event | csi_latency_high | sls.app.ack.csi.latency_too_high | |
磁碟容量超過水位閾值 | 叢集磁碟使用量超過水位值異常。請檢查你的叢集磁碟水位情況。 | event | disk_space_press | sls.app.ack.csi.no_enough_disk_space | |
security-err叢集安全例外狀況事件 | 安全巡檢發現高危風險配置 | 叢集安全巡檢發現高危風險配置事件。請提交工單聯絡Container Service團隊。 | event | si-c-a-risk | sls.app.ack.si.config_audit_high_risk |
如何為專有版叢集授予警示功能存取權限
專有版叢集在使用警示規則功能之前,需要手動添加許可權。
託管版叢集已自動添加SLS警示功能資源的存取權限。
為專有版叢集SLS警示功能及ARMS-Prometheus警示功能授予資源存取權限。更多資訊,請參見RAM自訂授權情境及存取控制概述。
在控制台左側導覽列,單擊叢集。
在叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情。
在叢集資訊頁面,單擊叢集資源頁簽Worker RAM角色欄位右側的連結,進入RAM存取控制控制台。
在角色頁面的許可權管理頁簽,單擊對應權限原則名稱的連結。
在策略內容頁簽單擊修改策略內容,然後將以下內容添加到策略內容中。
{ "Action": [ "log:*", "arms:*", "cms:*", "cs:UpdateContactGroup" ], "Resource": [ "*" ], "Effect": "Allow" }
單擊繼續編輯基本資料,然後單擊確定完成配置。
通過日誌查看警示功能存取權限是否已配置。
在Container Service管理主控台目的地組群管理頁左側導覽列,選擇 。
選擇命名空間kube-system,單擊無狀態應用列表中alicloud-monitor-controller的名稱連結。
單擊日誌頁簽,可看到授權成功的Pod日誌。
如何修改叢集基礎資源警示規則的閾值
Rule_Type為metric-cms的警示規則,是同步自CloudMonitor的基礎資源警示規則,此類規則可通過CRD配置警示規則的閾值。具體操作,請參見如何通過CRD配置警示規則。
本樣本通過叢集節點-CPU使用率規則的警示規則CRD,增加thresholds
參數配置基礎監控警示規則的閾值、重試判斷次數、靜默期配置。
apiVersion: alert.alibabacloud.com/v1beta1
kind: AckAlertRule
metadata:
name: default
spec:
groups:
#以下是一個叢集基礎資源警示規則配置範例。
- name: res-exceptions #警示規則分組名,對應警示模板中的Group_Name欄位。
rules:
- name: node_cpu_util_high #警示規則名。
type: metric-cms #警示規則類型(Rule_Type),枚舉值為event(事件類型)、metric-cms(CloudMonitor指標類型)。
expression: cms.host.cpu.utilization #警示規則運算式,當規則類型為metric-cms時,運算式的值為本文預設警示規則模板中Rule_Expression_Id值。
contactGroups: #警示規則映射的連絡人分組配置,由ACK控制台產生,同一個帳號下連絡人相同,可在多叢集中複用。
enable: enable #警示規則開啟狀態,枚舉值為enable、disable。
thresholds: #警示規則閾值,更多資訊,請參見如何通過CRD配置警示規則。
- key: CMS_ESCALATIONS_CRITICAL_Threshold
unit: percent
value: '1'
- key: CMS_ESCALATIONS_CRITICAL_Times
value: '3'
- key: CMS_RULE_SILENCE_SEC
value: '900'
參數名 | 說明 | 預設值 |
| 警示配置閾值。
此參數必填,未配置時規則將同步失敗並關閉。 | 根據預設警示模板配置而定。 |
| CloudMonitor規則重試判斷次數。 選擇性參數,未配置時取預設值。 | 3 |
| CloudMonitor持續發送異常觸發規則時,初次上報警示後靜默期時間長度(單位:秒),防止過於頻繁警示。 選擇性參數,未配置時取預設值。 | 900 |
如何在對應監控系統中查看ACK警示中心警示規則
當開啟ACK警示中心的預設警示規則後,同步成功即可在警示規則中,通過單擊進階設定,分別跳轉到此規則的監控系統(ARMS/SLS/CMS)服務的警示規則設定頁面。或直接進入對應監控系統,查看此警示規則的詳細配置。
Log Service的警示規則:
搜尋並進入此叢集Log Service對應的Project。叢集預設Log ServiceProject命名為K8s-log-{{clusterId}}。
在左側導覽列,單擊表徵圖,在警示中心頁面中,單擊規則/事務頁簽,查看已開啟的規則。類別選擇Container ServiceKubernetes,可篩選展示ACK警示中心同步的此叢集的預設警示規則。
說明需要您開啟ACK警示中心的警示規則,否則無法顯示類別。
CloudMonitor警示規則:
在左側導覽列,單擊應用分組,在應用分組列表頁面,單擊資源標籤規則頁簽。
在規則描述列,尋找資源標籤鍵:ack.aliyun.com,資源標籤值:等於為<叢集ID>的規則。
Prometheus警示規則:登入ARMS控制台,查看ACK警示中心在此叢集已經同步的Prometheus警示規則。警示規則名在Prometheus控制台中以
警示規則名_叢集名
展示。
常見問題
警示規則同步失敗且報錯資訊為The Project does not exist : k8s-log-xxx
問題現象:
當警示中心中警示規則同步狀態出現如下情況:
問題原因:
未建立SLS事件中心資源。
解決方案:
在Log Service管理主控台檢查Project是否達到Quota上限,刪除多餘的Project,或提交工單申請擴大Project資源Quota限制。關於如何刪除Project,請參見管理Project。
重新安裝ack-node-problem-detector組件。
在Container Service管理主控台目的地組群管理頁左側導覽列中,選擇 。
若您需要通過YAML方式重新安裝ack-node-problem-detector組件,請通過以下操作備份ack-node-problem-detector組件資源。
在Helm頁面,單擊ack-node-problem-detector組件右側操作列的更新。更新完成後,單擊ack-node-problem-detector組件右側操作列詳情。在ack-node-problem-detector組件詳情頁,單擊所有資源資訊的查看YAML,並儲存各資源的YAML到本地。
在Helm頁面,單擊ack-node-problem-detector組件右側操作列的刪除。
在叢集管理頁左側導覽列中,選擇
。單擊日誌與監控頁簽,在ack-node-problem-detector組件的卡片中單擊安裝。
在提示對話方塊中確認版本資訊後單擊確定。安裝成功後,對應組件卡片地區會提示已安裝,且可查看組件目前的版本。
由於無訂閱的連絡人群組導致警示規則同步失敗
問題現象:
當警示中心中警示規則同步狀態出現如下情況:
報錯資訊為類似資訊:this rule have no xxx contact groups reference。
問題原因:
警示規則無訂閱的連絡人群組。
解決方案:
已建立連絡人,並將連絡人加入連絡人分組中。
在對應警示規則集右側單擊編輯通知對象,為該組警示規則配置訂閱的連絡人分組。
關於上述操作的詳情,請參見如何接入警示配置功能。