本文介紹如何收集GPU節點的問題診斷資訊。
Pod問題
當某個申請GPU資源的Pod在某個GPU節點上運行失敗,您可以執行以下操作:
- 執行以下命令,查看Pod啟動並執行GPU節點。本文以test-namespace命名空間中名為test-pod的GPU Pod為例進行說明。
kubectl get pod test-pod -n test-namespace -o wide
- 登入到該GPU節點上,執行以下命令,下載並執行診斷指令碼。
sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod
預期輸出:Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
- 提交工單,將目前的目錄下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz和diagnose-gpu.log交給阿里雲ACK支援人員進行問題診斷。
GPU節點問題
如果不屬於Pod運行失敗的情況,例如GPU節點運行失敗或者其他GPU節點環境問題,您可以執行以下操作:
- 登入到該GPU節點上,執行以下命令,下載並執行診斷指令碼。
sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash
預期輸出:Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
- 提交工單,將目前的目錄下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz交給阿里雲ACK支援人員進行問題診斷。