全部產品
Search
文件中心

Managed Service for Prometheus:使用容器監控Pro版

更新時間:Nov 13, 2024

容器監控Pro版提供基礎指標儲存周期90天,託管Prometheus採集器,內建豐富的監控大盤,提供Container Service各組件的預設警示規則,額外提供Remote Write和資料投遞能力(通過EventBridge)。

前提條件

已開通Pro版計費

接入時選擇容器監控Pro版

  1. 接入中心頁面,選擇容器叢集監控

  2. 容器叢集監控面板,選擇需要接入的Container Service叢集,然後選擇版本為容器監控Pro版,最後單擊確定

基礎版升級為容器監控Pro版

重要
  • 升級為容器監控Pro版後不支援降級至容器監控基礎版。

  • 目前僅支援ACK叢集Pro版。

  1. 接入管理頁面,選擇已接入環境 > 容器環境

  2. 單擊待升級的容器監控操作列下的升級。在對話方塊中,單擊確認

容器監控Pro版支援大盤

類型

大盤名稱

監控概覽

叢集監控概覽

叢集Namespace大盤

叢集核心組件

ACK Pro API server

ACK Pro ETCD

ACK Pro Scheduler

ACK Pro Cloud Controller Manager

ACK Pro Kube Controller Manager

節點監控

節點池概覽

叢集節點監控詳情

應用監控

無狀態應用監控

有狀態應用監控

守護進程集應用監控

叢集Pod監控

網路監控

CoreDNS組件監控

叢集Ingress流量監控

儲存監控

CSI儲存群組件監控-叢集維度

CSI儲存群組件監控-節點維度

Pod IO Monitoring (Pod Level)

Frontend Storage IO Monitoring (Cluster Level)

GPU 監控

叢集GPU監控-叢集維度

叢集GPU監控-節點維度

叢集GPU監控-應用Pod維度

成本分析/資源最佳化

資源畫像

其他

Backend Storage IO Monitoring (Cluster Level)

k8s-reclaimed-resource

叢集Prometheus自身監控

Virtual Node(ECI) Overview

預設警示規則

警示規則名稱/ID

警示分組

模板

節點 CPU 使用率大於75%

節點

節點 {{ $labels.instance }} CPU 使用率大於 75%,當前 CPU 使用率 {{ printf "%.2f" $value }}%

節點 CPU 使用率大於85%

節點

節點 {{ $labels.instance }} CPU 使用率大於 85%,當前 CPU 使用率 {{ printf "%.2f" $value }}%

節點記憶體使用量率大於75%

節點

節點 {{ $labels.instance }} 記憶體使用量率大於 75%,當前記憶體使用量率 {{ printf "%.2f" $value }}%

節點記憶體使用量率大於85%

節點

節點 {{ $labels.instance }} 記憶體使用量率大於 85%,當前記憶體使用量率 {{ printf "%.2f" $value }}%

節點狀態異常

節點

節點 {{$labels.node}} 處於不可用狀態超過 10 分鐘

磁碟使用率大於95%

節點

節點 {{ $labels.instance }} 磁碟 {{ $labels.device }} 使用率超過 95%,當前磁碟使用率 {{ printf "%.2f" $value }}%

Deployment Pod 可用率小於50%

工作負載

命名空間: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小於 50%, 當前不可用 Pod 數 {{ $value }}

Job 執行失敗

工作負載

命名空間: {{$labels.namespace}}/Job: {{$labels.job_name}} 執行失敗

Pod 啟動逾時失敗

工作負載

命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超過15分鐘未啟動成功,等待原因 {{$labels.reason}}

Pod 狀態異常

工作負載

命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 處於{{$labels.phase}}狀態持續超過10分鐘

Pod 頻繁重啟

工作負載

命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分鐘內重啟超過{{ $labels.metrics_params_value}}次,當前重啟 {{ $value }}次

容器 CPU 使用率超過85%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大於 85%, 當前值{{ printf "%.2f" $value }}%

容器 CPU 使用率超過75%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大於 75%, 當前值{{ printf "%.2f" $value }}%

容器記憶體使用量率超過75%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 75%, 當前值{{ printf "%.2f" $value }}%

容器記憶體使用量率超過85%

工作負載

命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 85%, 當前值{{ printf "%.2f" $value }}%