ack-node-problem-detector は、Alibaba Cloud Container Service for Kubernetes (ACK) クラスター向けのイベントモニタリングコンポーネントです。オープンソースプロジェクトをベースに、いくつかの機能強化が加えられています。このコンポーネントは、サードパーティのモニタリングプラットフォームとの統合をサポートしています。ノードの異常検知を処理し、ACK クラスターのイベントセンターとして機能します。このコンポーネントにカスタムのノードモニタリングプラグインを追加することで、ノードモニタリングの範囲を拡張できます。このトピックでは、ack-node-problem-detector コンポーネント、その使用方法、および変更履歴について説明します。
コンポーネントの概要
ack-node-problem-detector コンポーネントは、ACK クラスターのノード診断ツールであり、ノードの異常をモニタリングして報告します。このコンポーネントは、以下の部分で構成されています:
kube-event-init:ack-node-problem-detector コンポーネントをインストールする際に、Simple Log Service (SLS) イベントセンターインスタンスのクラウドリソースを初期化します。これにより、ack-node-problem-detector-daemonset と kube-eventer はこれらのリソースを使用してイベントデータを保存し、分析できます。
ack-node-problem-detector-daemonset:各対象ノードで Pod レプリカを実行し、ノードの健全性をモニタリングし、クラスターの条件ステータスとイベントを報告します。このトピックで後述する ack-node-problem-detector のイメージアドレスは、ack-node-problem-detector-daemonset のイメージアドレスを指します。
kube-eventer:クラスター内のすべてのイベントを報告し、デフォルトで SLS イベントセンターに送信します。これにより、デフォルトで 90 日間のイベントストレージと分析が提供されます。また、モニタリングダッシュボード、アラート、イベントの検索・分析などの機能も提供します。さらに、kube-eventer を設定して、クラスターイベントを DingTalk や EventBridge などの他のシステムに報告し、さらなるデータ統合を行うこともできます。詳細については、kube-eventer をご参照ください。
accel-health-monitor:各対象 GPU ノードで Pod レプリカを実行し、ノードの GPU デバイスの状態をモニタリングし、Node Condition と Kubernetes イベントを報告します。accel-health-monitor のイメージアドレスは、このトピックで後述します。このコンポーネントの権限と注意事項の詳細については、GPU 異常検知をご参照ください。
使用方法
ack-node-problem-detector のインストール方法、ユースケース、新しいプラグインの機能の詳細については、「イベントモニタリング」をご参照ください。
変更履歴
2025年11月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
1.2.29 | accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun
| 2025年11月30日 |
説明 このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。 ack-node-problem-detector-daemonset の GPU 検知プラグインは、ack-accel-health-monitor という名前の DaemonSet として個別にデプロイされます。ack-accel-health-monitor の権限については、「GPU 異常検知」をご参照ください。 GPU 検知プラグインに、nvidia-persistenced、nvidia-fabricmanager、nvlink などのソフトウェアやデバイスの検知機能が追加されました。 ack-node-problem-detector コンポーネントの GPU プラグインが異常な GPU を隔離する機能は、デフォルトで無効になっています。 一部の GPU チェック項目の隔離ポリシーが変更されました。詳細については、「GPU 異常検知」をご参照ください。 JSON オブジェクトのシリアル化が時折失敗することにより GPU プラグインが再起動する問題が修正されました。 kube-eventer が HTTPS 経由で SLS にデータを報告できるようになりました。
|
2025 年 7 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
1.2.27 | | 2025年7月24日 |
説明 このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。 kube-eventer と kube-event-init のセキュリティ強化。 ACK 専用クラスターは、Elastic Compute Service (ECS) インスタンスのメタデータにアクセスするための拡張モードを使用したセキュリティ強化をサポートします。認証中、システムは拡張モードで ECS インスタンスのメタデータにアクセスし、クラスターのセキュリティを向上させます。詳細については、「ECS インスタンスメタデータへのアクセスに拡張モードを強制する」をご参照ください。
|
2025 年 6 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
1.2.26 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025年6月11日 |
説明 このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。 |
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
1.2.25 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025年6月6日 |
説明 このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。 GPU エラー検知のために npd-gpu コンテナーが追加されました。 GPU エラーが検出された場合に、指定された GPU カードを隔離できるようになりました。 NvidiaXID44Error、NvidiaXID61Error、NvidiaXID62Error、NvidiaXID69Error など、複数のチェック項目がサポートされるようになりました。詳細については、「GPU 異常検知と自動隔離」をご参照ください。 ack-node-problem-detector-config を通じて有効にする GPU チェック項目を設定できるようになりました。 ack-node-problem-detector イメージのイメージサイズが最適化されました。
|
2024 年 8 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
1.2.20 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2024年8月20日 | ECS ノードの GPU 障害検査をサポートするようになりました。 kube-eventer コンポーネントがアップグレードされ、クラスター内で多数のイベントを報告する際のパフォーマンスボトルネックが最適化されました。 kube-eventer コンポーネントがアップグレードされ、SLS のデータ送信で V4 署名アルゴリズムをサポートするようになりました。 コンポーネントのパラメーター設定が追加されました。ack-node-problem-detector DaemonSet Pod のローカルポートを 20256 または 20257 に手動で設定できるようになりました。このポートはデフォルトで無効になっています。
|
2023 年 12 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.18 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年12月18日 | |
2023 年 8 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.17 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年8月24日 | |
2023 年 6 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.16 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年6月27日 | ACK コンソールのコンポーネント管理ページで、コンポーネントのリソース仕様パラメーターを設定できるようになりました。 |
v1.2.15 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年6月6日 | 大規模クラスターで PodOOMKilling が頻繁に発生する場合に ack-node-problem-detector が API サーバーと etcd にかけるパフォーマンス負荷が最適化されました。 |
2023 年 2 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.14 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年2月3日 | |
2022 年 9 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.11 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2022年9月30日 | |
2022 年 2 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.9 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022年2月22日 | カーネル検査をサポートするようになりました。 セキュリティ強化。
|
2022 年 1 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.8 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022年1月20日 | |
2021 年 11 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.7 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2021年11月25日 | |
2021 年 4 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v1.2.5 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun
| 2021年4月25日 | |
2020 年 7 月
バージョン番号 | イメージアドレス | 変更日時 | 変更内容 |
v0.6.3-28-160499f | registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f | 2020年7月27日 | OOM Killing イベントメッセージを最適化し、Pod 名、名前空間、UID などの情報を含めるようにしました。 check_fd プラグインの実行効率を最適化しました。 ノードの PID ウォーターマークのイベント通知が最適化されました。 ネットワーク問題検出プラグインをアップグレードしました。 ノードのシステムディスクの inode ウォーターマークをモニターおよびアラートするプラグインを追加しました。
|