Container Service for Kubernetes (ACK) は、GPU関連の問題のトラブルシューティングに役立つノードレベルのGPU診断を提供します。 GPU高速化ノードを使用しているときにACK Proクラスターでエラーが発生した場合、GPU高速化ノード診断機能を有効にして、トラブルシューティングのための基本的なGPUメトリクスを収集できます。 このトピックでは、ノード診断機能を使用してGPU高速化ノードを診断する方法について説明します。 このトピックでは、ノードの問題のトラブルシューティングに役立つNVIDIAシステム管理インターフェイス (nvidia-smi) ステータスコードのテーブルと2つのXIDのテーブルも提供します。
前提条件
ACK Proクラスターが作成されました。 詳細については、「ACK管理クラスターの作成」をご参照ください。
ACK Proクラスターは通常どおり実行されます。 [ACKコンソール] にログインし、[クラスター] ページでクラスターのステータスが [実行中] かどうかを確認できます。
ノード診断の有効化
GPU高速化ノードを選択して、ノード診断を開始し、診断レポートに基づいて問題を修正できます。
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、診断するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、 を選択します。
[診断] ページで、[ノード診断] をクリックします。
[ノードの選択] パネルで、[ノード名] を指定し、警告を読み、[知って同意する] を選択し、[診断の作成] をクリックします。
[診断] ページの診断レポートの [ステータス] 列に [成功] が表示されるまで待ちます。
単一のGPUアクセラレーションノードを診断すると、診断リストにGPUメトリックが表示されます。 診断結果、nvidia-smiステータスコード、およびXIDに基づいて問題をトラブルシューティングできます。
あなたがしたい场合チケットを起票しますしてテクニカルサポートをリクエストし、GPUアクセラレーションノードの診断情報をチケットに入力します。
nvidiaに基づくトラブルシューティング-smiステータスコード
nvidia-smiは、NVIDIA GPUデバイスのステータスを監視し、GPUサーバーのパフォーマンスと正常性を管理するために使用されるコマンドラインユーティリティです。 次の表の診断レポートでNVIDIASMIStatusCodeを検索して、その説明と対応するソリューションを表示できます。
nvidia-smiステータスコード | 説明 | 解決策 |
0 | 成功 | なし。 |
3 | 要求された操作はターゲットデバイスでは使用できません。 ターゲットデバイスがnvidia-smiをサポートしているかどうか、またはドライバの問題があるかどうかを確認します。 | ドライバーのインストールログ |
6 | ドライバーの問題: オブジェクトを見つけるクエリが失敗しました。 | ドライバーのインストールログ |
8 | ハードウェアの問題: デバイスの外部電源ケーブルが正しく接続されていません。 | チケットを起票して、Elastic Computer Service (ECS) テクニカルサポートをリクエストします。 |
9 | ドライバーの問題: NVIDIAドライバーがロードされていません。 | ドライバーのインストールログ |
10 | NVIDIAカーネルがGPUで割り込みの問題を検出しました。 | ドライバーのインストールログ |
12 | NVML共有ライブラリが見つかりません。 | ドライバーのインストールログ |
13 | NVMLのローカルバージョンでは、この機能は実装されていません。 | ドライバーのインストールログ |
14 | ハードウェアの問題: infoROMが破損しています。 | チケットを起票し、ECSテクニカルサポートをリクエストします。 |
15 | ハードウェアの問題: GPUがバスから外れました。 | チケットを起票し、ECSテクニカルサポートをリクエストします。 |
255 | その他のエラーまたは内部ドライバーのエラーが発生しました。 | ドライバーのインストールログ |
-1 | nvidia-smiがタイムアウトしました。 | ドライバーのインストールログ |
XIDに基づくトラブルシューティング
XIDメッセージは、NVIDIAドライバからオペレーティングシステムのカーネルログまたはイベントログに出力されるエラーレポートです。 XIDメッセージは、ハードウェアの問題、NVIDIAソフトウェアの問題、またはユーザーアプリケーションの問題を示すGPUエラーです。 XIDメッセージはまた、エラーの位置およびエラーコードを示す。
診断レポートで、チェック項目 [GPUアクセラレーションノードのXID例外] が空の場合、XIDメッセージは生成されません。 チェック項目が空でない場合は、次の表のXIDを参照してソリューションを確認するか、チケットを起票してテクニカルサポートをリクエストしてください。
XIDテーブルによるトラブルシューティング
次のXIDを受け取ったら、次の手順を実行してエラーをトラブルシューティングすることを推奨します。
ワークロードを再送信し、同じXIDが返されるかどうかを確認します。
同じXIDが返された場合は、コードを調べるか、ログを分析します。 エラーがコードによって引き起こされていないことを確認してください。
コードにエラーが見つからない場合は、チケットを起票します。
XID | の説明 |
13 | グラフィックエンジン例外。 ほとんどの場合、配列が宣言された範囲外にあるか、命令エラーが発生します。 まれに、ハードウェアエラーが発生します。 |
31 | GPUメモリページ障害。 ほとんどの場合、アプリケーションは違法なアドレスにアクセスします。 まれに、ドライバまたはハードウェアエラーが発生します。 |
43 | GPUが処理を停止しました。 ほとんどの場合、アプリケーションでエラーが発生します。 |
45 | 以前のエラーによるプリエンプティブクリーンアップ-複数のcudaアプリケーションを実行し、DBEをヒットしたときに表示される可能性が最も高い。 ほとんどの場合、アプリケーションが手動で停止されるか、ハードウェアの問題やリソースの制限などの別のエラーが原因でアプリケーションが停止します。 XID45は結果のみを示す。 ログを分析して原因を特定する必要があります。 |
68 | NVDEC0例外。 ほとんどの場合、ハードウェアまたはドライバーエラーが発生します。 |
チケットを提出してテクニカルサポートをリクエストするためのXIDテーブル
次のXIDが返されると、チケットを起票してテクニカルサポートをリクエストし、GPUアクセラレーションノードの診断情報をチケットに含めます。
XID | の説明 |
32 | 無効または破損したプッシュバッファストリーム。 このイベントは、NVIDIAドライバとGPU間の通信を管理するPCIEバスのDMAコントローラによって報告されます。 ほとんどの場合、PCI品質の問題が発生します。 |
38 | ドライバのファームウェアエラー。 ほとんどの場合、ドライバのファームウェアの問題が発生します。 |
48 | ダブルビットECCエラー (DBE) 。 このイベントは、GPUが修正不可能なエラーに遭遇したときに報告されます。 エラーはアプリケーションにも報告されます。 ほとんどの場合、このエラーを修正するにはGPUまたはノードをリセットする必要があります。 |
61 | 内部マイクロコントローラのブレークポイント /警告。 GPU内部エンジンが動作を停止します。 その結果、あなたのビジネスは影響を受けます。 |
62 | 内部マイクロコントローラ停止。 このイベントはXID61に似ています。 |
63 | ECCページのリタイアメントまたは行のリマッピング記録イベント。 アプリケーションでGPUメモリのハードウェアエラーが発生すると、NVIDIAのエラー訂正コード (ECC) メカニズムは、障害のあるメモリ領域をリタイアまたは再マップします。 リタイアメントまたはリマッピングが永続的に有効になるように、リタイアメントまたはリマッピング情報をinfoROMに記録する必要があります。
|
64 | ECCページのリタイアメントまたは行のリマッパーの記録失敗。 このイベントはXID63と同様である。 ただし、XID63は、リタイアまたはリマッピング情報がinfoROMに正常に記録されたことを示します。XID64は、リタイアまたはリマッピング情報が記録されなかったことを示す。 |
74 | NVLINKエラー。 XIDはNVLinkハードウェアエラーを示します。 GPUは重大なハードウェアエラーに遭遇し、修復する必要があります。 |
79 | GPUはバスから落ちました。 GPUはバスから落ちており、バスはGPUを見つけることができません。 これは、GPUが重大なハードウェアエラーに遭遇し、修復する必要があることを意味します。 |
92 | 高いシングルビットECCエラー率。 ハードウェアまたはドライバのエラーが発生します。 |
94 | 含まれるECCエラー。 アプリケーションが訂正不可能なGPUメモリECCエラーに遭遇すると、エラーがGPUアクセラレーションノード上の他のアプリケーションに影響を与える場合に備えて、NVIDIAのECCメカニズムは障害のあるアプリケーションのエラーを抑制しようとします。 このイベントは、エラー抑制メカニズムがエラーの抑制に成功した場合に生成されます。 この場合、エラーのあるアプリケーションのみが訂正不可能なECCエラーの影響を受けます。 |
95 | 含まれないECCエラー。 このイベントはXID94と同様である。 しかし、XID94は、エラーが抑制されていることを示す。 XID95は、エラーの抑制に失敗したことを示す。 GPU高速化ノード上の他のアプリケーションも影響を受けます。 |