GPU高速化ノードから診断データを収集する - Container Service for Kubernetes

このトピックでは、GPU高速化ノードから診断データを収集する方法について説明します。

ポッド異常

GPUリソースを要求するポッドがGPUアクセラレーションノードで通常どおりに実行できない場合は、次の手順を実行して診断データを収集します。

次のコマンドを実行して、ポッドが実行されているノードを照会します。
この例では、失敗したポッドはtest-podという名前で、test-namespace名前空間に属します。
```
kubectl get pod test-pod -n test-namespace -o wide
```

GPUアクセラレーションノードにログインし、次のコマンドを実行して診断スクリプトをダウンロードして実行します。

curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod

期待される出力:

Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers

チケットを起票し、カレントディレクトリにあるdiagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzおよびdiagnose-gpu.logファイルをContainer Service for Kubernetes (ACK) テクニカルチームに起票して分析します。

GPU高速化ノードが正常に実行されない場合、またはGPU高速化ノードのランタイム環境でエラーが発生した場合は、次の手順を実行して診断データを収集します。

GPUアクセラレーションノードにログインし、次のコマンドを実行して診断スクリプトをダウンロードして実行します。
```
curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash
```
期待される出力:
```
Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
```
チケットを起票し、現在のディレクトリにあるdiagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzファイルを分析のためにACK技術チームに提出します。