Kubernetes是一個大規模分布式的容器編排引擎,由於其複雜性,管理與營運叢集都需要較深的領域知識。為降低Kubernetes叢集營運管理的難度,Container Service平台提供了AIOps套件。AIOps套件包括叢集檢查、叢集巡檢和叢集診斷,可以協助您排查問題,提升營運效率。本文介紹AIOps套件的優勢、叢集檢查、叢集巡檢和叢集診斷。
優勢
AIOps套件由叢集檢查、叢集巡檢、叢集診斷等一系列工具組成,具有以下優勢。
功能 | 優勢 |
在執行叢集營運操作之前會先觸發叢集檢查,評估叢集是否符合營運操作需求,提升了營運變更的成功率。 | |
通過設定巡檢的定時規則,定期預警叢集存在的風險。 | |
提供了一整套叢集診斷工具,包括Pod診斷、節點診斷、Ingress診斷、記憶體診斷,降低了問題排查的難度。 |
AIOps套件支援ACK託管叢集、ACK專有叢集和ACK Serverless叢集Pro版。
叢集檢查
叢集檢查覆蓋核心營運操作,例如叢集升級、叢集遷移、組件安裝、組件升級、節點池升級等。正式執行這些營運操作前會自動觸發相應的檢查,僅當叢集檢查通過後方可執行對應的營運操作。針對失敗的檢查項,提供了可視化的失敗原因及修複方案。更多資訊,請參見叢集檢查。
叢集巡檢
得益於大量叢集管理實踐,Container Service平台沉澱了眾多典型案例,並從中積累了豐富的叢集巡檢經驗。叢集巡檢提供了以下功能。
支援掃描叢集健全狀態,發現叢集中存在的潛在風險。
支援定期檢查叢集資源水位、資源配額、叢集認證、組件版本等資訊,提供了可視化的檢查結果。
對於異常項,列出了風險層級,提供瞭解決方案,便於使用者自行營運。
更多資訊,請參見叢集巡檢。
叢集診斷
叢集診斷提供一鍵故障診斷能力,輔助您定位叢集中出現的問題,包括Pod診斷、節點診斷、Service診斷、Ingress診斷、記憶體診斷。更多資訊,請參見使用叢集診斷。
診斷項 | 說明 |
涵蓋了常見的Pod問題,例如Pod啟動失敗、Pod鏡像拉取失敗、Pod運行異常等,並在發現異常時給出相應的根因及修複方案。 | |
涵蓋了常見的節點問題,例如節點NotReady、Node網路異常、運行時異常等,並在發現異常時給出相應的根因及修複方案。 | |
涵蓋了常見的Service問題,例如Service例外狀況事件、SLB後端伺服器配額、SLB執行個體數配額等,並在發現異常時給出相應的根因及修複方案。 | |
收集Ingress組件檢查、啟動參數配置、Ingress Pod錯誤記錄檔、Ingress Controller SLB等資訊,用於診斷應用訪問異常。 | |
覆蓋ACK叢集常見的記憶體問題,例如記憶體流失、記憶體片段化、cgroup泄漏等,並以圖表的方式展示記憶體整體使用方式。 |