全部產品
Search
文件中心

Container Service for Kubernetes:開啟CloudMonitor功能監控叢集基礎資源

更新時間:Jun 19, 2024

資源監控是Kubernetes中最常見的監控方式,您可以在ACK叢集中使用CloudMonitorKubernetes監控功能,快速查看工作負載的CPU、記憶體、網路等基礎資源的使用方式和健康狀態,確保叢集穩定運行。

功能特性

CloudMonitor會自動擷取您當前阿里雲帳號下Container ServiceKubernetes版的所有叢集,實現跨地區、集中化和全域化監控Container Service。詳細資料,請參見概覽

  • 提供全叢集視角的指標。

    提供例如警示提醒、節點數量、Pod記憶體和CPU的使用量、節點記憶體和CPU的使用率等指標、讓您更快捷地洞悉叢集概況。

  • 更專業的監控與警示能力。

    升級舊版本CloudMonitor容器監控功能,提供更加專業的容器情境基礎監控能力。從叢集命名空間、節點、工作負載及Pod等原生Kubernetes概念視角提供關鍵計量監控能力。升級警示功能,支援Kubernetes情境不同視角下配置對應警示規則。

  • 更合適的容器情境指標。

    在宿主機基礎設施層、容器PaaS層及Kubernetes調度層不同情境下使用最合適的指標。例如,容器中影響Kubernetes調度的記憶體指標,會使用容器工作記憶體的專用指標,與宿主機的記憶體Usage區分。

前提條件

  • 叢集的metrics-server組件為v0.3.8.5及以上版本。如需升級組件,請參見如下說明進行升級。

  • 如果metrics-server組件未能升級到V0.3.8.5及以上版本,請使用舊版資源監控。具體操作,請參見舊版資源監控

開啟CloudMonitorKubernetes監控功能

如何開啟CloudMonitorKubernetes監控功能,請參見開啟Container ServiceKubernetes版叢集的CloudMonitor功能

查看資源監控資料

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,單擊Kubernetes容器監控

  3. Kubernetes容器監控頁面,單擊目的地組群名稱或者目的地組群右側操作列下的查看詳情

    說明

    首次訪問時,頁面會出現授權提示,單擊授權後才可進入目的地組群頁面。

  4. 在目的地組群頁面,可從叢集概覽節點命名空間及、工作負載、警示規則等視角查看目標應用的監控資料。

    關於該介面更詳細資料,請參見查看容器監控資料

    監控

配置指標警示的情境

情境

情境描述

指標警示配置

叢集水位健康情況,以叢集或節點配置水位警示。

當叢集或叢集節點發生水位等指標異常時,將上報叢集資源異常,避免影響業務。此情境推薦以叢集或叢集節點的方式配置水位警示規則。

配置警示規則時,選擇資源範圍叢集節點,配置以整個叢集或叢集任一節點出現指標異常時的警示規則。選擇節點時配置全部節點,則當該叢集的任一節點出現規則描述中的指標異常時,將觸發警示。

異常容器水位狀況,以對應叢集下的任一Pod統一警示。

當叢集發生資源水位異常情況時,通常需要分解問題,找到具體的Pod。此情境推薦以該叢集中的任一Pod的方式配置水位警示規則。

配置警示規則時,選擇資源範圍容器組(Pod),選擇命名空間及容器組Pod為全部,則當該叢集的任一Pod出現規則描述中的指標異常時,將觸發警示。

按命名空間多租戶使用叢集情境,針對對應叢集下的指定命名空間的Pod設定警示。

通常一個叢集會被多個應用共用,通過命名空間來拆分應用是一種Kubernetes的常用應用多租戶方式。當應用所在的命名空間發生水位異常時,您可通過警示感知異常。此情境推薦以指定命名空間下任一Pod的方式配置水位警示規則。

配置警示規則時,選擇資源範圍容器組Pod,選擇命名空間為對應應用所在命名空間,選擇容器組Pod全部,則當該命名空間下的任一Pod出現規則描述中的指標異常時,則觸發警示。

應用指標水位狀況預警,針對對應叢集下指定命名空間的指定應用(工作負載)的所屬Pod設定警示。

通常一個叢集會被多個應用共用,通過工作負載來拆分應用是一種Kubernetes的常用應用多租戶方式,例如一個應用對應一個Deployment。當應用所對應的Deployment發生水位異常時,您可以通過警示感知異常。此情境推薦以指定工作負載下任一Pod的方式配置水位警示規則。

配置警示規則時,選擇資源範圍容器組Pod,選擇命名空間為對應應用所在命名空間,選擇應用的工作負載類型。目前支援的Kubernetes工作負載類型有:無狀態(Deployment)、有狀態(StatefulSet)、守護進程集(DaemonSet)、任務(Job)、定時任務(CronJob)。選擇容器組(Pod)中的任一Pod,則當該工作負載下的任一Pod出現規則描述中的指標異常時,則觸發警示。

配置指標警示規則

步驟一:建立警示連絡人並關聯警示聯絡組

  1. 登入CloudMonitor控制台

  2. 在控制台左側導覽列中,選擇警示服務 > 警示連絡人

  3. 建立警示連絡人,並添加到對應的警示聯絡組。

    具體操作,請參見建立警示連絡人或警示聯絡組

步驟二:建立指標警示規則

  1. 登入CloudMonitor控制台

  2. 在控制台左側導覽列中,單擊Kubernetes容器監控

  3. Kubernetes容器監控頁面,單擊目的地組群對應操作列的警示規則

  4. 警示規則頁面,單擊建立警示規則

  5. 建立警示規則面板,設定警示規則相關參數。

    參數

    描述

    資源範圍

    警示規則的作用範圍。取值:

    • 叢集:警示規則作用於目的地組群。您需要選擇叢集名稱。

    • 節點:警示規則作用於目的地組群的全部節點或指定節點。您需要選擇叢集及其節點。

    • 容器組(pod):警示規則作用於目的地組群的指定命名空間下應用中的全部容器組或指定容器組。您需要先選擇叢集及其命名空間,再從無狀態有狀態守護進程集任務定時任務頁簽中選擇部署應用容器組(pod)

      說明

      容器組頁簽,您僅需選擇容器組(pod)

    規則描述

    警示規則的主體。當監控資料滿足指定條件時,觸發警示規則。

    配置具體警示指標、閾值及警示層級。關於容器組指標的監控項,請參見Container ServiceKubernetes版(新版)

    通道沉默周期

    警示發生後未恢複正常,間隔多久重複發送一次警示通知。取值:5分鐘、15分鐘、30分鐘、60分鐘、3小時、6小時、12小時和24小時。

    某監控指標達到警示閾值時發送警示,如果監控指標在通道沉默周期內持續超過警示閾值,在通道沉默周期內不會重複發送警示通知;如果監控指標在通道沉默周期後仍未恢複正常,則CloudMonitor再次發送警示通知。

    生效時間

    警示規則的生效時間。警示規則只在生效時間內才會檢查監控資料是否需要警示。

    警示回調

    公網可訪問的URL,用於接收CloudMonitor通過POST請求推送的警示資訊。目前僅支援HTTP協議。關於如何設定警示回調,請參見使用閾值警示回調

    說明

    建議您填寫公網可訪問的URL。

    警示聯絡組

    發送警示的連絡人群組。

    應用分組的警示通知會發送給該警示連絡人群組中的警示連絡人。警示連絡人群組是一組警示連絡人,可以包含一個或多個警示連絡人。

    關於如何建立警示連絡人和警示連絡人群組,請參見建立警示連絡人或警示連絡人群組

  6. 單擊確定,完成警示規則配置。

    警示規則頁面,可以看到已建立的警示規則。關於警示規則的更多資訊,請參見管理警示規則

結果驗證

  1. 在控制台左側導覽列中,選擇警示服務 > 警示歷史

  2. 警示歷史頁面可查看警示歷史趨勢及警示歷史。

舊版資源監控

若Container ServiceKubernetes版叢集的metrics-server組件未升級到V0.3.8.5及以上版本,可按以下操作進入舊版資源監控頁面。

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇工作負載 > 無狀態

  3. 選擇所需的Deployment,單擊右側的監控,進入到CloudMonitor的相應的監控視圖頁面。

  4. 您可以單擊部署應用容器組列表容器組熱點頁簽查看監控資料。

  5. 可選:如需設定警示,您可以在左側導覽列選擇警示服務 > 警示規則

    分組層級的指標以group開頭,執行個體層級的指標以pod開頭。

常見問題

CloudMonitor的Kubernetes叢集為什麼沒有資料?

如果查看容器監控資料為空白,相關排查操作請參見如何處理CloudMonitor中Container ServiceKubernetes版叢集無資料問題?