容器監控Pro版提供基礎指標儲存周期90天,託管Prometheus採集器,內建豐富的監控大盤,提供Container Service各組件的預設警示規則,額外提供Remote Write和資料投遞能力(通過EventBridge)。
前提條件
接入時選擇容器監控Pro版
在接入中心頁面,選擇容器叢集監控。
在容器叢集監控面板,選擇需要接入的Container Service叢集,然後選擇版本為容器監控Pro版,最後單擊確定。
基礎版升級為容器監控Pro版
升級為容器監控Pro版後不支援降級至容器監控基礎版。
目前僅支援ACK叢集Pro版。
在接入管理頁面,選擇已接入環境 > 容器環境。
單擊待升級的容器監控操作列下的升級。在對話方塊中,單擊確認。
容器監控Pro版支援大盤
類型 | 大盤名稱 |
監控概覽 | 叢集監控概覽 |
叢集Namespace大盤 | |
叢集核心組件 | ACK Pro API server |
ACK Pro ETCD | |
ACK Pro Scheduler | |
ACK Pro Cloud Controller Manager | |
ACK Pro Kube Controller Manager | |
節點監控 | 節點池概覽 |
叢集節點監控詳情 | |
應用監控 | 無狀態應用監控 |
有狀態應用監控 | |
守護進程集應用監控 | |
叢集Pod監控 | |
網路監控 | CoreDNS組件監控 |
叢集Ingress流量監控 | |
儲存監控 | CSI儲存群組件監控-叢集維度 |
CSI儲存群組件監控-節點維度 | |
Pod IO Monitoring (Pod Level) | |
Frontend Storage IO Monitoring (Cluster Level) | |
GPU 監控 | 叢集GPU監控-叢集維度 |
叢集GPU監控-節點維度 | |
叢集GPU監控-應用Pod維度 | |
成本分析/資源最佳化 | 資源畫像 |
其他 | Backend Storage IO Monitoring (Cluster Level) |
k8s-reclaimed-resource | |
叢集Prometheus自身監控 | |
Virtual Node(ECI) Overview |
預設警示規則
警示規則名稱/ID | 警示分組 | 模板 |
節點 CPU 使用率大於75% | 節點 | 節點 {{ $labels.instance }} CPU 使用率大於 75%,當前 CPU 使用率 {{ printf "%.2f" $value }}% |
節點 CPU 使用率大於85% | 節點 | 節點 {{ $labels.instance }} CPU 使用率大於 85%,當前 CPU 使用率 {{ printf "%.2f" $value }}% |
節點記憶體使用量率大於75% | 節點 | 節點 {{ $labels.instance }} 記憶體使用量率大於 75%,當前記憶體使用量率 {{ printf "%.2f" $value }}% |
節點記憶體使用量率大於85% | 節點 | 節點 {{ $labels.instance }} 記憶體使用量率大於 85%,當前記憶體使用量率 {{ printf "%.2f" $value }}% |
節點狀態異常 | 節點 | 節點 {{$labels.node}} 處於不可用狀態超過 10 分鐘 |
磁碟使用率大於95% | 節點 | 節點 {{ $labels.instance }} 磁碟 {{ $labels.device }} 使用率超過 95%,當前磁碟使用率 {{ printf "%.2f" $value }}% |
Deployment Pod 可用率小於50% | 工作負載 | 命名空間: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小於 50%, 當前不可用 Pod 數 {{ $value }} |
Job 執行失敗 | 工作負載 | 命名空間: {{$labels.namespace}}/Job: {{$labels.job_name}} 執行失敗 |
Pod 啟動逾時失敗 | 工作負載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超過15分鐘未啟動成功,等待原因 {{$labels.reason}} |
Pod 狀態異常 | 工作負載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 處於{{$labels.phase}}狀態持續超過10分鐘 |
Pod 頻繁重啟 | 工作負載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分鐘內重啟超過{{ $labels.metrics_params_value}}次,當前重啟 {{ $value }}次 |
容器 CPU 使用率超過85% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大於 85%, 當前值{{ printf "%.2f" $value }}% |
容器 CPU 使用率超過75% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大於 75%, 當前值{{ printf "%.2f" $value }}% |
容器記憶體使用量率超過75% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 75%, 當前值{{ printf "%.2f" $value }}% |
容器記憶體使用量率超過85% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 記憶體使用量率大於 85%, 當前值{{ printf "%.2f" $value }}% |