すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-node-problem-detector

最終更新日:Nov 29, 2025

ack-node-problem-detector は、Alibaba Cloud Container Service for Kubernetes (ACK) クラスター向けのイベントモニタリングコンポーネントです。オープンソースプロジェクトをベースに、いくつかの機能強化が加えられています。このコンポーネントは、サードパーティのモニタリングプラットフォームとの統合をサポートしています。ノードの異常検知を処理し、ACK クラスターのイベントセンターとして機能します。このコンポーネントにカスタムのノードモニタリングプラグインを追加することで、ノードモニタリングの範囲を拡張できます。このトピックでは、ack-node-problem-detector コンポーネント、その使用方法、および変更履歴について説明します。

コンポーネントの概要

ack-node-problem-detector コンポーネントは、ACK クラスターのノード診断ツールであり、ノードの異常をモニタリングして報告します。このコンポーネントは、以下の部分で構成されています:

  • kube-event-init:ack-node-problem-detector コンポーネントをインストールする際に、Simple Log Service (SLS) イベントセンターインスタンスのクラウドリソースを初期化します。これにより、ack-node-problem-detector-daemonset と kube-eventer はこれらのリソースを使用してイベントデータを保存し、分析できます。

  • ack-node-problem-detector-daemonset:各対象ノードで Pod レプリカを実行し、ノードの健全性をモニタリングし、クラスターの条件ステータスとイベントを報告します。このトピックで後述する ack-node-problem-detector のイメージアドレスは、ack-node-problem-detector-daemonset のイメージアドレスを指します。

    説明

    オープンソースコミュニティプロジェクト node-problem-detector の詳細については、node-problem-detector をご参照ください。

  • kube-eventer:クラスター内のすべてのイベントを報告し、デフォルトで SLS イベントセンターに送信します。これにより、デフォルトで 90 日間のイベントストレージと分析が提供されます。また、モニタリングダッシュボード、アラート、イベントの検索・分析などの機能も提供します。さらに、kube-eventer を設定して、クラスターイベントを DingTalk や EventBridge などの他のシステムに報告し、さらなるデータ統合を行うこともできます。詳細については、kube-eventer をご参照ください。

  • accel-health-monitor:各対象 GPU ノードで Pod レプリカを実行し、ノードの GPU デバイスの状態をモニタリングし、Node Condition と Kubernetes イベントを報告します。accel-health-monitor のイメージアドレスは、このトピックで後述します。このコンポーネントの権限と注意事項の詳細については、GPU 異常検知をご参照ください。

使用方法

ack-node-problem-detector のインストール方法、ユースケース、新しいプラグインの機能の詳細については、「イベントモニタリング」をご参照ください。

変更履歴

2025年11月

バージョン番号

イメージアドレス

変更日時

変更内容

1.2.29

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun

2025年11月30日

説明

このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。

  • ack-node-problem-detector-daemonset の GPU 検知プラグインは、ack-accel-health-monitor という名前の DaemonSet として個別にデプロイされます。ack-accel-health-monitor の権限については、「GPU 異常検知」をご参照ください。

  • GPU 検知プラグインに、nvidia-persistenced、nvidia-fabricmanager、nvlink などのソフトウェアやデバイスの検知機能が追加されました。

  • ack-node-problem-detector コンポーネントの GPU プラグインが異常な GPU を隔離する機能は、デフォルトで無効になっています。

  • 一部の GPU チェック項目の隔離ポリシーが変更されました。詳細については、「GPU 異常検知」をご参照ください。

  • JSON オブジェクトのシリアル化が時折失敗することにより GPU プラグインが再起動する問題が修正されました。

  • kube-eventer が HTTPS 経由で SLS にデータを報告できるようになりました。

2025 年 7 月

バージョン番号

イメージアドレス

変更日時

変更内容

1.2.27

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.13-b4a3960-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.9-2b115d6-aliyun

2025年7月24日

説明

このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。

  • kube-eventer と kube-event-init のセキュリティ強化。

  • ACK 専用クラスターは、Elastic Compute Service (ECS) インスタンスのメタデータにアクセスするための拡張モードを使用したセキュリティ強化をサポートします。認証中、システムは拡張モードで ECS インスタンスのメタデータにアクセスし、クラスターのセキュリティを向上させます。詳細については、「ECS インスタンスメタデータへのアクセスに拡張モードを強制する」をご参照ください。

2025 年 6 月

バージョン番号

イメージアドレス

変更日時

変更内容

1.2.26

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025年6月11日

説明

このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。

  • 一部の GPU 自己修復シナリオで NvidiaDeviceRecovered イベントが正常に公開されない問題が修正されました。

  • ack-node-problem-detector のイメージサイズが最適化されました。

バージョン番号

イメージアドレス

変更日時

変更内容

1.2.25

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025年6月6日

説明

このバージョンは段階的リリースです。ご利用の場合は、チケットを送信してください。

  • GPU エラー検知のために npd-gpu コンテナーが追加されました。

  • GPU エラーが検出された場合に、指定された GPU カードを隔離できるようになりました。

  • NvidiaXID44Error、NvidiaXID61Error、NvidiaXID62Error、NvidiaXID69Error など、複数のチェック項目がサポートされるようになりました。詳細については、「GPU 異常検知と自動隔離」をご参照ください。

  • ack-node-problem-detector-config を通じて有効にする GPU チェック項目を設定できるようになりました。

  • ack-node-problem-detector イメージのイメージサイズが最適化されました。

2024 年 8 月

バージョン番号

イメージアドレス

変更日時

変更内容

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2024年8月20日

  • ECS ノードの GPU 障害検査をサポートするようになりました。

  • kube-eventer コンポーネントがアップグレードされ、クラスター内で多数のイベントを報告する際のパフォーマンスボトルネックが最適化されました。

  • kube-eventer コンポーネントがアップグレードされ、SLS のデータ送信で V4 署名アルゴリズムをサポートするようになりました。

  • コンポーネントのパラメーター設定が追加されました。ack-node-problem-detector DaemonSet Pod のローカルポートを 20256 または 20257 に手動で設定できるようになりました。このポートはデフォルトで無効になっています。

2023 年 12 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年12月18日

  • キャッシュされた過去のカーネルログが原因で、PodOOMKilling の異常に対して誤検知の異常イベントが発生するバグが修正されました。

  • 古いバージョンの ack-node-problem-detector コンポーネントをアップグレードする際に、ユーザー定義のコンポーネントパラメーターが継承されるようになりました。

2023 年 8 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年8月24日

  • ACK コンソールのコンポーネント管理ページでコンポーネントのパラメーター設定を変更して、SLS サービスのプロジェクトと Logstore インスタンスの構成を更新できます。

  • SLS にログデータを送信する際に、クラスター名などの追加のタグ情報を追加できるようになりました。この情報は、ACK イベントセンターの SLS データにデフォルトで表示されます。

2023 年 6 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年6月27日

ACK コンソールのコンポーネント管理ページで、コンポーネントのリソース仕様パラメーターを設定できるようになりました。

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年6月6日

大規模クラスターで PodOOMKilling が頻繁に発生する場合に ack-node-problem-detector が API サーバーと etcd にかけるパフォーマンス負荷が最適化されました。

2023 年 2 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年2月3日

  • コンポーネントイメージのプル速度が最適化されました。

  • ACK Edge クラスターをサポートするようになりました。

2022 年 9 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2022年9月30日

  • ack-node-problem-detector の検査ロジックのパフォーマンスが最適化され、クラスターのコアコンポーネントへの負荷が軽減されました。

  • イメージのセキュリティ強化。

2022 年 2 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022年2月22日

  • カーネル検査をサポートするようになりました。

  • セキュリティ強化。

2022 年 1 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022年1月20日

  • Containerd のさまざまなモードと互換性があります。

  • コンポーネントの Quality of Service (QoS) リソース制限が最適化され、安定性が向上しました。

2021 年 11 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2021年11月25日

  • Alibaba Cloud Linux 3 や CentOS 8 などのカーネルバージョンのシステムサービスと互換性があります。

  • ARM アーキテクチャ環境をサポートするようになりました。

2021 年 4 月

バージョン番号

イメージアドレス

変更日時

変更内容

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

2021年4月25日

  • イベントセンターが有効になっている場合に、kube-system 名前空間の kube-event-init が "414 Request-URI Too Large" エラーを引き起こす問題が修正されました。

  • etcd への過剰なリクエストトラフィックを防ぐために、eventer の list-watch メカニズムを最適化しました。詳細については、「eventer list-watch」をご参照ください。

  • kube-eventer が一部のシステムイベントのタイムスタンプを誤って解析する問題を修正しました。詳細については、「sls への FailedScheduling イベント書き込みのタイムスタンプが間違っている問題を修正」をご参照ください。

2020 年 7 月

バージョン番号

イメージアドレス

変更日時

変更内容

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

2020年7月27日

  • OOM Killing イベントメッセージを最適化し、Pod 名、名前空間、UID などの情報を含めるようにしました。

  • check_fd プラグインの実行効率を最適化しました。

  • ノードの PID ウォーターマークのイベント通知が最適化されました。

  • ネットワーク問題検出プラグインをアップグレードしました。

  • ノードのシステムディスクの inode ウォーターマークをモニターおよびアラートするプラグインを追加しました。