すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:GPU高速化ノードの診断

最終更新日:Oct 24, 2024

Container Service for Kubernetes (ACK) は、GPU関連の問題のトラブルシューティングに役立つノードレベルのGPU診断を提供します。 GPU高速化ノードを使用しているときにACK Proクラスターでエラーが発生した場合、GPU高速化ノード診断機能を有効にして、トラブルシューティングのための基本的なGPUメトリクスを収集できます。 このトピックでは、ノード診断機能を使用してGPU高速化ノードを診断する方法について説明します。 このトピックでは、ノードの問題のトラブルシューティングに役立つNVIDIAシステム管理インターフェイス (nvidia-smi) ステータスコードのテーブルと2つのXIDのテーブルも提供します。

前提条件

  • ACK Proクラスターが作成されました。 詳細については、「ACK管理クラスターの作成」をご参照ください。

  • ACK Proクラスターは通常どおり実行されます。 [ACKコンソール] にログインし、[クラスター] ページでクラスターのステータスが [実行中] かどうかを確認できます。

ノード診断の有効化

GPU高速化ノードを選択して、ノード診断を開始し、診断レポートに基づいて問題を修正できます。

  1. ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、診断するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、[検査と診断] > [診断] を選択します。

  3. [診断] ページで、[ノード診断] をクリックします。

  4. [ノードの選択] パネルで、[ノード名] を指定し、警告を読み、[知って同意する] を選択し、[診断の作成] をクリックします。

    [診断] ページの診断レポートの [ステータス] 列に [成功] が表示されるまで待ちます。

単一のGPUアクセラレーションノードを診断すると、診断リストにGPUメトリックが表示されます。 診断結果、nvidia-smiステータスコード、およびXIDに基づいて問題をトラブルシューティングできます。

あなたがしたい场合チケットを起票しますしてテクニカルサポートをリクエストし、GPUアクセラレーションノードの診断情報をチケットに入力します。

nvidiaに基づくトラブルシューティング-smiステータスコード

nvidia-smiは、NVIDIA GPUデバイスのステータスを監視し、GPUサーバーのパフォーマンスと正常性を管理するために使用されるコマンドラインユーティリティです。 次の表の診断レポートでNVIDIASMIStatusCodeを検索して、その説明と対応するソリューションを表示できます。

nvidia-smiステータスコード

説明

解決策

0

成功

なし。

3

要求された操作はターゲットデバイスでは使用できません。 ターゲットデバイスがnvidia-smiをサポートしているかどうか、またはドライバの問題があるかどうかを確認します。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認します。

6

ドライバーの問題: オブジェクトを見つけるクエリが失敗しました。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認します。

8

ハードウェアの問題: デバイスの外部電源ケーブルが正しく接続されていません。

チケットを起票して、Elastic Computer Service (ECS) テクニカルサポートをリクエストします。

9

ドライバーの問題: NVIDIAドライバーがロードされていません。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認します。

10

NVIDIAカーネルがGPUで割り込みの問題を検出しました。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認するか、XIDを確認します。

12

NVML共有ライブラリが見つかりません。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認するか、XIDを確認します。

13

NVMLのローカルバージョンでは、この機能は実装されていません。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認するか、XIDを確認します。

14

ハードウェアの問題: infoROMが破損しています。

チケットを起票し、ECSテクニカルサポートをリクエストします。

15

ハードウェアの問題: GPUがバスから外れました。

チケットを起票し、ECSテクニカルサポートをリクエストします。

255

その他のエラーまたは内部ドライバーのエラーが発生しました。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認するか、XIDを確認します。

-1

nvidia-smiがタイムアウトしました。

ドライバーのインストールログ /var/log/nvidia-installer.logを確認し、dmesg | grep -i nvコマンドを実行して、ドライバーに関連するエラーログが生成されているかどうかを確認するか、XIDを確認します。

XIDに基づくトラブルシューティング

XIDメッセージは、NVIDIAドライバからオペレーティングシステムのカーネルログまたはイベントログに出力されるエラーレポートです。 XIDメッセージは、ハードウェアの問題、NVIDIAソフトウェアの問題、またはユーザーアプリケーションの問題を示すGPUエラーです。 XIDメッセージはまた、エラーの位置およびエラーコードを示す。

診断レポートで、チェック項目 [GPUアクセラレーションノードのXID例外] が空の場合、XIDメッセージは生成されません。 チェック項目が空でない場合は、次の表のXIDを参照してソリューションを確認するか、チケットを起票してテクニカルサポートをリクエストしてください。

XIDテーブルによるトラブルシューティング

次のXIDを受け取ったら、次の手順を実行してエラーをトラブルシューティングすることを推奨します。

  1. ワークロードを再送信し、同じXIDが返されるかどうかを確認します。

  2. 同じXIDが返された場合は、コードを調べるか、ログを分析します。 エラーがコードによって引き起こされていないことを確認してください。

  3. コードにエラーが見つからない場合は、チケットを起票します。

XID

の説明

13

グラフィックエンジン例外。 ほとんどの場合、配列が宣言された範囲外にあるか、命令エラーが発生します。 まれに、ハードウェアエラーが発生します。

31

GPUメモリページ障害。 ほとんどの場合、アプリケーションは違法なアドレスにアクセスします。 まれに、ドライバまたはハードウェアエラーが発生します。

43

GPUが処理を停止しました。 ほとんどの場合、アプリケーションでエラーが発生します。

45

以前のエラーによるプリエンプティブクリーンアップ-複数のcudaアプリケーションを実行し、DBEをヒットしたときに表示される可能性が最も高い。 ほとんどの場合、アプリケーションが手動で停止されるか、ハードウェアの問題やリソースの制限などの別のエラーが原因でアプリケーションが停止します。 XID45は結果のみを示す。 ログを分析して原因を特定する必要があります。

68

NVDEC0例外。 ほとんどの場合、ハードウェアまたはドライバーエラーが発生します。

チケットを提出してテクニカルサポートをリクエストするためのXIDテーブル

次のXIDが返されると、チケットを起票してテクニカルサポートをリクエストし、GPUアクセラレーションノードの診断情報をチケットに含めます。

XID

の説明

32

無効または破損したプッシュバッファストリーム。 このイベントは、NVIDIAドライバとGPU間の通信を管理するPCIEバスのDMAコントローラによって報告されます。 ほとんどの場合、PCI品質の問題が発生します。

38

ドライバのファームウェアエラー。 ほとんどの場合、ドライバのファームウェアの問題が発生します。

48

ダブルビットECCエラー (DBE) 。 このイベントは、GPUが修正不可能なエラーに遭遇したときに報告されます。 エラーはアプリケーションにも報告されます。 ほとんどの場合、このエラーを修正するにはGPUまたはノードをリセットする必要があります。

61

内部マイクロコントローラのブレークポイント /警告。 GPU内部エンジンが動作を停止します。 その結果、あなたのビジネスは影響を受けます。

62

内部マイクロコントローラ停止。 このイベントはXID61に似ています。

63

ECCページのリタイアメントまたは行のリマッピング記録イベント。 アプリケーションでGPUメモリのハードウェアエラーが発生すると、NVIDIAのエラー訂正コード (ECC) メカニズムは、障害のあるメモリ領域をリタイアまたは再マップします。 リタイアメントまたはリマッピングが永続的に有効になるように、リタイアメントまたはリマッピング情報をinfoROMに記録する必要があります。

  • ボルトアーキテクチャ: ECCページのリタイアメントイベントをinfoROMに正常に記録します。

  • Ampereアーキテクチャ: infoROMに行再マッピングイベントを正常に記録します。

64

ECCページのリタイアメントまたは行のリマッパーの記録失敗。 このイベントはXID63と同様である。 ただし、XID63は、リタイアまたはリマッピング情報がinfoROMに正常に記録されたことを示します。XID64は、リタイアまたはリマッピング情報が記録されなかったことを示す。

74

NVLINKエラー。 XIDはNVLinkハードウェアエラーを示します。 GPUは重大なハードウェアエラーに遭遇し、修復する必要があります。

79

GPUはバスから落ちました。 GPUはバスから落ちており、バスはGPUを見つけることができません。 これは、GPUが重大なハードウェアエラーに遭遇し、修復する必要があることを意味します。

92

高いシングルビットECCエラー率。 ハードウェアまたはドライバのエラーが発生します。

94

含まれるECCエラー。 アプリケーションが訂正不可能なGPUメモリECCエラーに遭遇すると、エラーがGPUアクセラレーションノード上の他のアプリケーションに影響を与える場合に備えて、NVIDIAのECCメカニズムは障害のあるアプリケーションのエラーを抑制しようとします。 このイベントは、エラー抑制メカニズムがエラーの抑制に成功した場合に生成されます。 この場合、エラーのあるアプリケーションのみが訂正不可能なECCエラーの影響を受けます。

95

含まれないECCエラー。 このイベントはXID94と同様である。 しかし、XID94は、エラーが抑制されていることを示す。 XID95は、エラーの抑制に失敗したことを示す。 GPU高速化ノード上の他のアプリケーションも影響を受けます。

関連ドキュメント