全部產品
Search
文件中心

Container Service for Kubernetes:使用叢集診斷

更新時間:Jun 19, 2024

容器智能營運平台提供一鍵故障診斷能力,包括節點診斷、Pod診斷、Service診斷、Ingress診斷、記憶體診斷、網路診斷,可以輔助您定位叢集中出現的問題。本文介紹如何在ACK叢集中使用叢集診斷功能。

前提條件

診斷功能介紹

容器智能營運平台提供的診斷功能如下表所示。

診斷項

說明

節點診斷

診斷節點相關的問題,例如K8s節點NotReady等。

Pod診斷

診斷K8s Pod狀態異常相關的問題,例如Pod啟動失敗,Pod頻繁重啟等 。

Service診斷

診斷Service相關的問題,例如Service配置、資源配額、例外狀況事件資訊等。

Ingress診斷

診斷Ingress相關的流量配置等問題。

記憶體診斷

診斷節點記憶體相關問題,例如記憶體流失、cgroup泄漏、OOM等,診斷結果以可視化圖表展示記憶體整體使用方式。

網路診斷

診斷網路常見問題,例如Pod之間不通、叢集到公網訪問不通、公網到LoadBalancer不通等。

配置故障診斷

重要

使用故障診斷功能時,系統將在您的叢集節點上執行資料擷取程式並收集檢查結果。採集的資訊包括系統版本、負載、Docker、kubelet等運行狀態以及系統日誌中的嚴重錯誤資訊。資料擷取程式不會採集您的商務資訊及敏感性資料。

配置節點診斷和配置Pod、Service、Ingress等診斷操作類似。下文以配置節點診斷為例,介紹如何配置故障診斷功能。

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇巡檢和診斷 > 故障診斷

  3. 故障診斷頁面,單擊節點診斷,然後在節點診斷頁面的左上方,單擊診斷

  4. 選擇節點面板,選擇節點名稱,仔細閱讀注意事項後選中我已知曉並同意,然後單擊發起診斷

    您可以根據頁面提示查看診斷進展。診斷完成後,診斷頁面將顯示診斷結果和診斷項,供您查看異常原因並修複問題。

查看診斷結果

故障診斷頁面診斷列表的操作列,單擊目標診斷報告對應的診斷詳情,在診斷詳情頁面查看詳細診斷結果。

說明

根據叢集配置,具體檢查項可能稍有不同。實際結果請以診斷頁面結果為準。

診斷項

對應的檢查項狀態

說明

節點診斷

  • 正常正常:無需處理。

  • 警告警告:需要確認,引起叢集異常的情況需要處理。

  • 異常異常:儘快處理,避免叢集無法正常工作。

  • 未知未知:未正常完成檢查或結果未知。

節點診斷套件括NodeNodeComponentClusterComponentECSControllerManagerGPUNode檢查項,通過節點狀態、節點群組件狀態、叢集組件狀態和ECS狀態綜合判定節點異常原因。在診斷詳情頁面,可以看到節點的診斷結果、修複建議及具體的診斷項列表。

滑鼠懸浮在檢查項右側詳情表徵圖.png表徵圖上,即可查看檢查項說明。

如果有異常或警告類的檢查項,會顯示在待處理頁簽中。

檢查項狀態為異常時,可以在目標檢查項右側狀態中的查看詳情的Tips中查看異常。

Pod診斷

Pod診斷套件括PodClusterComponentNodeNodeComponentECSControllerManager檢查項。通過Pod狀態、叢集組件狀態、節點狀態、節點群組件狀態和ECS狀態綜合判定Pod異常原因。在診斷詳情頁面,可以看到Pod的診斷結果、修複建議及具體的診斷項列表。

滑鼠懸浮在檢查項右側詳情表徵圖.png表徵圖上,即可查看檢查項說明。

如果有異常或警告類的檢查項,會顯示在待處理頁簽中。

檢查項狀態為異常時,可以在目標檢查項右側狀態中的查看詳情的Tips中查看異常。

Service診斷

Service診斷套件括ServiceResourceQuotas檢查項。通過檢查CLB計費類型、認證、配額、異常Event等檢查項判定Service異常原因。

滑鼠懸浮在檢查項右側詳情表徵圖.png表徵圖上,即可查看檢查項說明。

如果有異常或警告類的檢查項,會顯示在待處理頁簽中。

檢查項狀態為異常時,可以在目標檢查項右側狀態中的查看詳情的Tips中查看異常。

Ingress診斷

Ingress診斷套件括IngressAddonSLB檢查項。通過Ingress狀態、Ingress外掛程式狀態和SLB狀態綜合判定Ingress異常原因。

滑鼠懸浮在檢查項右側詳情表徵圖.png表徵圖上,即可查看檢查項說明。

如果有異常或警告類的檢查項,會顯示在待處理頁簽中。

檢查項狀態為異常時,可以在目標檢查項右側狀態中的查看詳情的Tips中查看異常。

記憶體診斷

無。

在診斷詳情頁面,您可以查看記憶體總覽記憶體分析OOM分析,包括記憶體流失狀態、記憶體利用率、各個進程所佔的記憶體等內容。

網路診斷

  • 正常image.png:無需處理。

  • 異常image.png:儘快處理。

診斷結果頁面,能夠查看網路診斷結果,並且在訪問全圖地區,會呈現出本次診斷訪問鏈路的全景。異常節點會使用不同於正常節點的顏色標出。