全部產品
Search
文件中心

Container Service for Kubernetes:收集GPU節點的問題診斷資訊

更新時間:Feb 28, 2024

本文介紹如何收集GPU節點的問題診斷資訊。

Pod問題

當某個申請GPU資源的Pod在某個GPU節點上運行失敗,您可以執行以下操作:

  1. 執行以下命令,查看Pod啟動並執行GPU節點。
    本文以test-namespace命名空間中名為test-pod的GPU Pod為例進行說明。
    kubectl get pod test-pod -n test-namespace -o wide
  2. 登入到該GPU節點上,執行以下命令,下載並執行診斷指令碼。
    sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod
    預期輸出:
    Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
  3. 提交工單,將目前的目錄下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzdiagnose-gpu.log交給阿里雲ACK支援人員進行問題診斷。

GPU節點問題

如果不屬於Pod運行失敗的情況,例如GPU節點運行失敗或者其他GPU節點環境問題,您可以執行以下操作:

  1. 登入到該GPU節點上,執行以下命令,下載並執行診斷指令碼。
    sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash
    預期輸出:
    Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
  2. 提交工單,將目前的目錄下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz交給阿里雲ACK支援人員進行問題診斷。