全部產品
Search
文件中心

Container Service for Kubernetes:ack-node-problem-detector

更新時間:Sep 14, 2024

ack-node-problem-detector是ACK基於社區開源專案進行改造和增強叢集節點例外狀況事件監控組件,同時支援對接第三方監控平台,承載ACK叢集的節點異常發現以及事件中心的功能。您可以根據需求使用該組件加入定製化的節點監控外掛程式,擴大節點問題監控範圍。本文介紹ack-node-problem-detector組件的資訊、使用說明和變更記錄。

組件介紹

ack-node-problem-detector組件是ACK叢集提供的節點診斷工具,用於監測和上報節點異常問題。該組件由三個主要部分組成:

  • kube-event-init:安裝ack-node-problem-detector組件時,負責初始化雲端的SLSLog Service事件中心雲上執行個體資源,以便ack-node-problem-detector-daemonset和kube-eventer能夠使用這些資源來儲存和分析計算事件數目據。

  • ack-node-problem-detector-daemonset:在每個符合選擇條件的節點上運行一個Pod副本,以監控節點的健康狀態並上報叢集條件狀態和事件。下文中ack-node-problem-detector的鏡像地址即為ack-node-problem-detector-daemonset的鏡像地址。

    說明

    關於社區開源專案node-problem-detector的更多資訊,請參見node-problem-detector

  • kube-eventer:上報叢集中的所有事件並預設將其上報至SLS事件中心,以得到預設90天持久化的事件儲存分析能力,並提供監控大盤、警示、事件搜尋分析等能力。您也可通過手動設定kube-eventer,上報叢集事件至DingTalk、EventBridge等系統進行進一步Data Integration。更多資訊,請參見kube-eventer

使用說明

關於ack-node-problem-detector的安裝、使用情境以及新增外掛程式的功能,請參見事件監控

變更記錄

2024年08月

版本號碼

鏡像地址

變更時間

變更內容

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2024年08月20日

  • 支援ECS節點GPU故障巡檢的功能。

  • kube-eventer組件升級,最佳化了叢集大規模事件上報情境下效能瓶頸的問題。

  • kube-eventer組件升級,支援Log Service資料轉送V4簽名演算法。

  • 新增組件參數配置,支援手動設定ack-node-problem-detector DaemonSet Pod的本地連接埠為20256或20257(連接埠預設關閉)。

2023年12月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年12月18日

  • 修複在發現PodOOMKilling異常時,有緩衝歷史Kernel日誌導致誤判例外狀況事件的缺陷。

  • 支援老版本ack-node-problem-detector組件升級時繼承使用者自訂配置的組件參數。

2023年08月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年08月24日

  • 可通過在ACK控制台組件管理頁面修改組件參數配置,從而更新SLS服務中的Project和Logstore執行個體配置。

  • 支援在向SLS發送日誌資料時附加額外的標籤資訊的功能,比如叢集名稱,而這些資訊在ACK事件中心的SLS資料中是預設顯示的。

2023年06月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年06月27日

支援在ACK控制台的組件管理頁面對組件資源規格參數進行配置。

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年06月06日

最佳化在大規模叢集頻繁出現PodOOMKilling時,ack-node-problem-detector對APIServer、ETCD造成效能負載的問題。

2023年02月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年02月03日

  • 最佳化組件鏡像拉取速度。

  • 支援ACK Edge叢集

2022年09月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2022年09月30日

  • 最佳化ack-node-problem-detector巡檢邏輯效能,減少叢集核心組件的負載。

  • 鏡像安全強化。

2022年02月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022年02月22日

  • 支援核心巡檢。

  • 安全強化。

2022年01月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022年01月20日

  • 相容Containerd的不同模式。

  • 組件資源QoS限制的最佳化,提升組件穩定性。

2021年11月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2021年11月25日

  • 相容Alibaba Cloud Linux 3、CentOS8等核心版本的系統服務。

  • 支援ARM架構環境。

2021年04月

版本號碼

鏡像地址

變更時間

變更內容

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

2021年04月25日

  • 修複開啟事件中心時kube-system命名空間下的kube-event-init會出現414 Request Too Large的問題。

  • 最佳化eventer list-watch機制,以避免ETCD請求流量過大。更多資訊,請參見eventer list-watch

  • 最佳化kube-eventer對部分系統事件的時間戳記解析錯誤問題。更多資訊,請參見fix FailedScheduling event write to sls with wrong timestamp

2020年07月

版本號碼

鏡像地址

變更時間

變更內容

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

2020年07月27日

  • 最佳化OOM Killing事件訊息,加入Pod的名字、命名空間、UID等資訊。

  • 最佳化check_fd外掛程式的執行效率。

  • 最佳化節點PID水位的事件通知。

  • 升級網路問題檢測外掛程式。

  • 新增監控節點系統硬碟inode水位警示外掛程式。