本文介绍如何收集GPU节点的问题诊断信息。
Pod问题
当某个申请GPU资源的Pod在某个GPU节点上运行失败,您可以执行以下操作:
- 执行以下命令,查看Pod运行的GPU节点。本文以test-namespace命名空间中名为test-pod的GPU Pod为例进行说明。
kubectl get pod test-pod -n test-namespace -o wide
- 登录到该GPU节点上,执行以下命令,下载并执行诊断脚本。
sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod
预期输出:Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
- 提交工单,将当前目录下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz和diagnose-gpu.log交给阿里云ACK技术支持进行问题诊断。
GPU节点问题
如果不属于Pod运行失败的情况,例如GPU节点运行失败或者其他GPU节点环境问题,您可以执行以下操作:
- 登录到该GPU节点上,执行以下命令,下载并执行诊断脚本。
sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash
预期输出:Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
- 提交工单,将当前目录下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz交给阿里云ACK技术支持进行问题诊断。