すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:GPU の異常検出と自動隔離

最終更新日:Feb 12, 2026

ACK は、ack-node-problem-detector (NPD) コンポーネントを使用して GPU リソースの健全性を監視します。GPU ノードが XID または SXID エラーなどの異常に遭遇すると、NPD は影響を受ける GPU カードを自動的に検出して隔離します。これにより、健全な GPU がワークロードを引き続き処理し、ビジネスへの影響を最小限に抑えながら、クラスターの信頼性と運用効率を向上させます。

前提条件

  • ack-node-problem-detector (NPD) コンポーネントがインストールされており、そのバージョンは 1.2.24 以降です。

  • ack-nvidia-device-plugin バージョン 0.17.0 以降と NPD バージョン 1.2.24 以降を併用すると、NPD は異常を検出した際に異常な GPU カードを自動的にフェンスし、GPU が回復するとそのフェンスを自動的に解除します。

    ack-nvidia-device-plugin のバージョンを表示またはアップグレードするには、「NVIDIA Device Plugin のバージョンを表示」をご参照ください。

ack-node-problem-detector (NPD) は、オープンソースプロジェクトである node-problem-detector をベースに ACK によって強化された、クラスターノードの異常監視コンポーネントです。GPU アクセラレーション環境での異常検出を改善するために、GPU 固有の包括的なチェック項目セットが含まれています。異常が検出されると、NPD は異常タイプに応じて、対応する Kubernetes イベントまたは Kubernetes ノード条件を生成します。

注意事項

  • GPU の異常が検出されると、ack-node-problem-detector コンポーネントはデフォルトの隔離ポリシーに従って NVIDIA GPU 隔離ファイルを作成します。その後、ack-nvidia-device-plugin コンポーネントは、このファイルに基づいて影響を受ける GPU カードを隔離します。これにより、新しいワークロードが障害のある GPU にスケジュールされるのを防ぎ、タスクの失敗を回避します。健全な GPU は引き続きスケジュール可能です。ただし、隔離によってノード上の GPU が不足する場合 (たとえば、8 GPU タスクに対して 7 枚のカードしか残らない場合)、タスクをスケジュールできず、GPU リソースがアイドル状態になる可能性があります。自動隔離は自動修復ではありません。GPU が隔離された後も、ノードインスタンスには料金が発生し続けます。ノードは手動で修復する必要があります。迅速な対応を可能にするために、GPU 異常アラートを設定してください。

    必要に応じて、GPU カードの自動隔離を無効にできます。手順については、「NPD の GPU カード自動隔離機能を無効にするにはどうすればよいですか?」をご参照ください。NVIDIA Device Plugin の特定のバージョンは GPU の自動隔離をサポートしていますが、無効にする方法は異なります。詳細については、「NVIDIA Device Plugin のネイティブ GPU 隔離機能を無効にするにはどうすればよいですか?」をご参照ください。
  • NVIDIA GPU ドライバーは、NVRM イベントメカニズムを使用して XID および SXID エラーを /var/log/messages または /var/log/syslog に書き込みます。NPD は、各 XID および SXID が処理されたかどうかを追跡します。XID または SXID が発生した後にノードを再起動すると、GPU デバイスを交換する必要があることを示す XID 79 のような根本的な問題が解決しない場合でも、NPD はそのエラーに対してイベントまたはノード条件を生成しません。NPD は、再起動後に XID が解決されたと見なします。

  • NPD は、ノード上の /var/log/messages または /var/log/syslog ファイルをスキャンすることで、NVIDIA XID および SXID エラーを検出します。dmesg ログが別のファイルにリダイレクトされている場合、NPD はこれらのエラーを検出できません。

  • NPD バージョン 1.2.29 以降、GPU 異常検出プラグインは、ack-accel-health-monitor という名前の DaemonSet として別々にデプロイされます。

  • 場合によっては、ノード上の GPU 異常により GPU コンテナーの起動が妨げられることがあります。これにより、GPU 異常検出コンテナーの起動もブロックされ、検出プロセスが停止する可能性があります。

  • NPD GPU 検出プラグイン Pod は、GPU デバイスとコンポーネントを検査するために、privileged=true のような高い権限を必要とします。詳細については、次の表をご参照ください。

    クラスター RBAC 権限

    コンテナー権限

    Node: get

    Node/Status: update

    Events: create

    privileged: true

    ホスト /dev/kmsg の読み取り専用マウント

    ホスト /usr/lib の読み取り専用マウント

    ホスト /etc の読み取り専用マウント

    ホスト /usr/lib64 の読み取り専用マウント

    ホスト /proc の読み取り専用マウント

チェック項目と修復の提案

GPU の異常を特定した後、修復ガイダンスについては、「NVIDIA XID エラー」をご参照ください。また、インスタンスタイプに基づいて、対応するクラウドプロダクト (ECS や Lingjun など) のコンソールでノードインスタンスの O&M イベントを確認することもできます。あるいは、自己診断ツールを使用してノード上のハードウェア異常を特定することも可能です。

修復の提案なしの場合、ハードウェア介入は不要です。代わりに、アプリケーション構成を確認してください。

チェック項目名

ノード条件を生成しますか?

イベントは生成されますか?

説明

GPU カードはデフォルトで隔離されますか?

修復の提案

NvidiaXID13Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID13Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 13 error has occurred.

  • グラフィックスエンジン例外。

  • このエラーは通常、範囲外の配列インデックスまたは命令エラーによって引き起こされます。ハードウェア障害はまれです。

いいえ

なし

NvidiaXID31Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID31Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 31 error has occurred.

  • GPU メモリページフォールト。

  • このエラーは通常、アプリケーションからの不正なアドレスアクセスによって引き起こされます。ドライバーまたはハードウェアの問題はまれです。

いいえ

なし

NvidiaXID43Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID43Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 43 error has occurred.

  • GPU が処理を停止しました。

  • このイベントは、アプリケーションがソフトウェアに起因する異常に遭遇し、終了する必要がある場合に発生します。GPU は健全なままです。

  • ほとんどの場合、これはドライバーの問題ではなく、アプリケーションレベルのエラーを示します。

いいえ

なし

NvidiaXID44Error

はい

  • Type: NvidiaXID44Error

  • Reason: NodeHasNvidiaXID44Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 44 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID44Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 44 error has occurred.

  • コンテキストスイッチ中のグラフィックスエンジン障害。

  • コンテキストスイッチ中にグラフィックスエンジン障害が発生しました。

はい (NPD <= 1.2.28)
いいえ (NPD >= 1.2.30)

ノードを再起動します。

NvidiaXID45Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID45Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 45 error has occurred.

  • 以前のエラーによるプリエンプティブクリーンアップ - 複数の CUDA アプリケーションを実行し、DBE に遭遇した場合に最も発生しやすいです。

  • このイベントは、アプリケーションが中断され、カーネルドライバーが GPU 上で実行されている GPU アプリケーションを終了するときに発生します。

  • アプリケーションを中断し、このイベントをトリガーするアクションには、Control-C、GPU リセット、および sigkill が含まれます。

  • 多くの場合、これはエラーを示すものではなく、ユーザーまたはシステムによって実行されたアクションの結果です。

いいえ

なし

NvidiaXID48Error

はい

  • Type: NvidiaXID48Error

  • Reason: NodeHasNvidiaXID48Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 48 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID48Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 48 error has occurred.

  • ダブルビット ECC エラー (DBE)。

  • このイベントは、GPU が訂正不能なエラーを検出したときに発生します。このエラーはアプリケーションにも報告されます。GPU をリセットするか、ノードを再起動してクリアしてください。

はい

ノードを再起動します。

NvidiaXID61Error

はい

  • Type: NvidiaXID61Error

  • Reason: NodeHasNvidiaXID61Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 61 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID61Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 61 error has occurred.

  • 内部マイクロコントローラーのブレークポイント/警告 (新しいドライバー)。

  • 内部マイクロコントローラーのブレークポイント/警告 (新しいドライバー)。

はい (NPD <= 1.2.28)
いいえ (NPD >= 1.2.30)

ノードを再起動します。

NvidiaXID62Error

はい

  • Type: NvidiaXID62Error

  • Reason: NodeHasNvidiaXID62Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 62 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID62Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 62 error has occurred.

  • 内部マイクロコントローラーの停止 (新しいドライバー)。

  • 内部マイクロコントローラーの停止 (新しいドライバー)。

はい

ノードを再起動します。

NvidiaXID63Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID63Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 63 error has occurred.

  • ECC ページリタイアメントまたは行再マッピング記録イベント。

  • アプリケーションが GPU メモリハードウェアエラーに遭遇すると、NVIDIA 自己修正メカニズムは障害のあるメモリ領域をリタイアまたは再マッピングします。変更を永続化させるには、リタイアまたは再マッピング情報を infoROM に記録する必要があります。

  • Volta アーキテクチャ: ECC ページリタイアメントイベントは infoROM に正常に記録されます。

  • Ampere アーキテクチャ: 行再マッピングイベントは infoROM に正常に記録されます。

いいえ

なし

NvidiaXID64Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID64Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 64 error has occurred.

  • ECC ページリタイアメントまたは行再マッパー記録の失敗。

  • トリガーシナリオは XID 63 と類似しています。ただし、XID 63 は infoROM への正常な記録を示しますが、XID 64 は記録の失敗を示します。

いいえ

なし

NvidiaXID69Error

はい

  • Type: NvidiaXID69Error

  • Reason: NodeHasNvidiaXID69Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 69 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID69Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 69 error has occurred.

  • グラフィックスエンジンクラスエラー。

  • グラフィックスエンジンクラスエラー。

はい (NPD <= 1.2.28)
いいえ (NPD >= 1.2.30)

ノードを再起動します。

NvidiaXID74Error

はい

  • Type: NvidiaXID74Error

  • Reason: NodeHasNvidiaXID74Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 74 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID74Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 74 error has occurred.

  • 致命的な NVLink エラー。

  • NVLink ハードウェアエラーによって生成された XID。

はい

ハードウェア修復。

NvidiaXID79Error

はい

  • Type: NvidiaXID79Error

  • Reason: NodeHasNvidiaXID79Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 79 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID79Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 79 error has occurred.

  • GPU がバスから切断されました。

  • GPU ハードウェアがバスから切断され、検出できなくなりました。

はい

ハードウェア修復。

NvidiaXID94Error

いいえ

はい

  • Type: Warning

  • Reason: NvidiaXID94Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 94 error has occurred.

  • 封じ込められた ECC エラー。

  • アプリケーションが訂正不能な GPU メモリ ECC エラーに遭遇すると、NVIDIA エラー抑制 (封じ込め) メカニズムは、そのアプリケーション内でエラーを隔離しようとします。これにより、エラーが GPU 上のすべてのアプリケーションに影響を与えるのを防ぎます。正常な封じ込めは XID 94 イベントをトリガーし、エラーに遭遇したアプリケーションのみに影響を与えます。

いいえ

なし

NvidiaXID95Error

はい

  • Type: NvidiaXID95Error

  • Reason: NodeHasNvidiaXID95Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 95 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID95Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 95 error has occurred.

  • 封じ込められていない ECC エラー。

  • XID 95 は封じ込め失敗を示します。GPU 上で実行されているすべてのアプリケーションが影響を受けます。アプリケーションを再起動する前に GPU をリセットしてください。

はい

ノードを再起動します。

NvidiaXID109Error

はい

  • Type: NvidiaXID109Error

  • Reason: NodeHasNvidiaXID109Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 109 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID109Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 109 error has occurred.

  • コンテキストスイッチタイムアウトエラー。

  • コンテキストスイッチタイムアウトエラー。

はい (NPD <= 1.2.28)
いいえ (NPD >= 1.2.30)

なし

NvidiaXID119Error

はい

  • Type: NvidiaXID119Error

  • Reason: NodeHasNvidiaXID119Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 119 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID119Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 119 error has occurred.

  • GSP RPC タイムアウト。

  • GSP コアが RPC メッセージに応答するのを待っている間にタイムアウトが発生しました。

はい

ノードを再起動します。

NvidiaXID120Error

はい

  • Type: NvidiaXID120Error

  • Reason: NodeHasNvidiaXID120Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 120 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID120Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 120 error has occurred.

  • GSP エラー。

  • GPU の GSP コアで実行されているコードでエラーが発生しました。

はい

ノードを再起動します。

NvidiaXID140Error

はい

  • Type: NvidiaXID140Error

  • Reason: NodeHasNvidiaXID140Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 140 error has occurred.

はい

  • Type: Warning

  • Reason: NvidiaXID140Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 140 error has occurred.

  • 未回復の ECC エラー。

  • このイベントは、GPU ドライバーが、動的ページオフライン化または行再マッピングのためにページをマークする能力に影響を与える GPU メモリ内の訂正不能なエラーを検出したときに発生します。GPU をリセットしてください。

はい

ノードを再起動します。

NvidiaXID[code]Error

いいえ

はい (3 つのイベントのみを生成)

  • Type: Warning

  • Reason: NvidiaXID[code]Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid [code] error has occurred.

この表に記載されていないその他の XID。

いいえ

チケットを送信

NvidiaSXID[code]Error

いいえ

はい (3 つのイベントのみを生成)

  • Type: Warning

  • Reason: NvidiaSXID[code]Error

  • Message: TS=xxx;NVSwitchIds=xxx;MSG=An nvidia sxid [code] error has occurred.

  • SXID エラーは 3 つのカテゴリに分類されます。

    • 訂正可能: エラーは訂正されました。システムの動作は影響を受けません。追加の回復は不要です。

    • 致命的: エラーはデバイスにとって致命的です。システムの動作は影響を受けます。回復にはデバイスのリセットまたはシステムの再起動が必要です。

    • 致命的ではない: エラーはデバイスにとって致命的ではありません。システムの動作は影響を受けます。デバイスのリセットまたはシステムの再起動は不要な場合があります。

いいえ

なし

NvidiaEccModeNotEnabled

はい

  • Type: NvidiaEccModeNotEnabled

  • Reason: EccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaEccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

ノードで ECC モードが有効になっていません。

いいえ

ECC モードを有効にしてノードを再起動します。

NvidiaPendingRetiredPages

はい

  • Type: NvidiaPendingRetiredPages

  • Reason: NodeHasNvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

  • GPU には保留状態のリタイア済みページがあります。

  • これらのリタイア済みページを有効にするには GPU をリセットしてください。

はい

ノードを再起動します。

NvidiaRemappingRowsFailed

はい

  • Type: NvidiaRemappedRowsFailed

  • Reason: GPUMemoryRemappingRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaRemappedRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.

GPU で行マッピングのエラーが発生しました。

はい

ハードウェア修復。

NvidiaRemappingRowsRequireReset

はい

  • Type: NvidiaRemappingRowsRequireReset

  • Reason: UncontainedEccError

  • Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaRemappingRowsRequireReset

  • Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.

GPU で、回復のために GPU リセットが必要な訂正不能で封じ込められていないエラーが発生しました。可能な限り早く GPU をリセットして操作を復元してください。

はい (NPD <= 1.2.28)
いいえ (NPD >= 1.2.30)

ノードを再起動します。

NvidiaDeviceLost

はい

  • Type: NvidiaDeviceLost

  • Reason: NodeHasNvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.

  • GPU がバスから切断されたか、その他の理由でアクセスできなくなりました。

  • GPU がバスから切断されたか、その他の理由でアクセスできなくなりました。

はい

ハードウェア修復。

NvidiaInfoRomCorrupted

はい

  • Type: NvidiaInfoRomCorrupted

  • Reason: NodeHasNvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=GPU infoROM is corrupted

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=GPU infoROM is corrupted.

  • infoROM が破損しています。

  • infoROM が破損しています。

はい

ハードウェア修復。

NvidiaPowerCableErr

はい

  • Type: NvidiaPowerCableErr

  • Reason: NodeHasNvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached

はい (問題が解決されるまでイベントを継続的に生成)

  • Type: Warning

  • Reason: NvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.

  • デバイスの外部電源ケーブルが適切に接続されていません。

  • デバイスの外部電源ケーブルが適切に接続されていません。

はい

ハードウェア修復。

NvidiaPersistencedOffline

はい

  • Type: NvidiaPersistencedOffline

  • Reason: NodeHasNvidiaPersistencedOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.

はい

  • Type: Warning

  • Reason: NvidiaPersistencedOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.

Nvidia Persistenced サービスが実行されていません。

いいえ

nvidia-persistenced サービスを再起動します。

NvidiaFabricManagerOffline

はい

  • Type: NvidiaFabricManagerOffline

  • Reason: NodeHasNvidiaFabricManagerOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.

はい

  • Type: Warning

  • Reason: NvidiaFabricManagerOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.

Nvidia Fabric Manager サービスが実行されていません。

いいえ

Fabric Manager サービスを再起動します。

NvidiaTemperatureHigh

はい

  • Type: NvidiaTemperatureHigh

  • Reason: NodeHasNvidiaTemperatureHigh

  • Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold

はい

  • Type: Warning

  • Reason: NvidiaTemperatureHigh

  • Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold

GPU 温度が 100 度を超えています。

いいえ

なし

その他の関連イベント

排他的 GPU シナリオでは、NPD は異常チェック項目に基づいて GPU カードを自動的に隔離します。隔離後、新しい GPU アプリケーション Pod は影響を受けたカードに割り当てられません。隔離の効果を検証するには、Kubernetes ノードで報告される nvidia.com/gpu リソースの数を確認します。GPU カードが回復すると、ACK は自動的に隔離を解除します。

原因

イベント内容

説明

GPU 隔離

はい

  • Type: Warning

  • Reason: NvidiaDeviceIsolated

  • Message: GpuIds=xxx;MSG=nvidia device has been isolated due to detected issues.

検出された異常により GPU カードが隔離されました。

GPU カード隔離の非アクティブ化

はい

  • Type: Normal

  • Reason: NvidiaDeviceRecovered

  • Message: GpuIds=xxx;MSG=nvidia device has recovered from the fault.

GPU カードが異常から回復し、隔離が非アクティブ化されました。

よくある質問

NPD の GPU カード自動隔離機能を無効にするにはどうすればよいですか?

背景情報

ノード上の GPU が異常になると、ACK は NPD を介して自動的に隔離し、タスクがそれにスケジュールされるのを防ぎます。ただし、自動隔離自動修復を実行しません。GPU が隔離された後も、ノードインスタンスには料金が発生し続けます。ノードは手動で再起動または修復する必要があります。迅速な処理を可能にするために、GPU 異常アラートを設定してください。

  • 隔離後、ノード上の残りの GPU がタスクに不十分な場合 (たとえば、8 GPU タスクに対して 7 枚のカードしか残らない場合)、タスクをスケジュールできません。これにより、GPU リソースがアイドル状態になる可能性があります。

  • GPU ステータスが正常に戻ると、隔離は自動的に解除されます。

  • 異常な GPU がリソースを報告し続け、スケジュール可能な状態を維持するように自動隔離を無効にするには、以下のソリューションに従ってください。

ソリューション

説明

ack-node-problem-detector バージョン 1.2.30 以降では、コンポーネント管理の generateNvidiaGpuIsolationFile 設定項目を使用して、自動 GPU 隔離を制御できます。

  1. NPD の自動 GPU 隔離機能を無効にします。

    • (推奨) 方法 1: コンポーネント管理でコンポーネント構成を変更します。

      1. ログとモニタリング タブで、[ack-node-problem-detector] コンポーネントを探し、そのバージョンに基づいて適切な操作を実行します。

        • バージョン 1.2.24 から 1.2.29: 利用可能なアップグレードを確認します。バージョン 1.2.30 以降が利用可能な場合は、アップグレード をクリックします。

          バージョン 1.2.30 はグレースケールリリースです。バージョン 1.2.30 以降が表示されない場合は、アクセスをリクエストするためにチケットを送信してください。
        • バージョン 1.2.30 以降: 設定 をクリックします。

      2. コンポーネントのアップグレードまたは構成ページで、generateNvidiaGpuIsolationFile(NVIDIA GPU の隔離ファイルを生成)を false に設定し、次に OK をクリックします。

        説明

        以前に方法 2 を使用して自動 GPU 隔離を一時的に無効にした場合、この設定は NPD のアップグレード中に保持されます。GPU カードの自動隔離を再度有効にするには、generateNvidiaGpuIsolationFiletrue に設定します。

    • 方法 2: YAML を使用して構成を手動で変更します。

      説明

      以下の方法は一時的な回避策です。NPD をバージョン 1.2.30 より前のバージョンにアップグレードすると、構成は失われます。アップグレード後に再構成する必要があります。この構成を永続化させるには、バージョン 1.2.30 以降へのアップグレードを推奨します。

      1. NPD コンポーネントの YAML を編集します。

        kubectl edit ds -n kube-system ack-node-problem-detector-daemonset
      2. EnabledIsolateGPU 構成を false に設定します。

        変更前:

         --EnabledIsolateGPU=true

        変更後:

        --EnabledIsolateGPU=false
  2. 既存の GPU カード自動隔離を非アクティブ化します。

    GPU カード上の既存の隔離を非アクティブ化するには、XID エラーが発生したノードにログインし、/etc/nvidia-device-plugin/unhealthyDevices.json ファイルを削除します。カードが再度隔離されるのを防ぐには、前のステップで説明したように自動隔離機能を無効にしてください。