このトピックでは、GPU高速化ノードから診断データを収集する方法について説明します。
ポッド異常
GPUリソースを要求するポッドがGPUアクセラレーションノードで通常どおりに実行できない場合は、次の手順を実行して診断データを収集します。
次のコマンドを実行して、ポッドが実行されているノードを照会します。
この例では、失敗したポッドはtest-podという名前で、test-namespace名前空間に属します。
kubectl get pod test-pod -n test-namespace -o wide
GPUアクセラレーションノードにログインし、次のコマンドを実行して診断スクリプトをダウンロードして実行します。
curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod
期待される出力:
Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
チケットを起票し、カレントディレクトリにあるdiagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzおよびdiagnose-gpu.logファイルをContainer Service for Kubernetes (ACK) テクニカルチームに起票して分析します。
GPU高速化ノードの異常
GPU高速化ノードが正常に実行されない場合、またはGPU高速化ノードのランタイム環境でエラーが発生した場合は、次の手順を実行して診断データを収集します。
GPUアクセラレーションノードにログインし、次のコマンドを実行して診断スクリプトをダウンロードして実行します。
curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash
期待される出力:
Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
チケットを起票し、現在のディレクトリにあるdiagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzファイルを分析のためにACK技術チームに提出します。