ACK专有版集群安装的共享GPU组件在ACK集群Pro版中无法正常使用,需在ACK集群Pro版中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在ACK集群Pro版中升级共享GPU组件。
前提条件
已将ACK专有版集群迁移至ACK集群Pro版中,且迁移前的ACK专有版集群已安装共享GPU组件。具体操作,请参见热迁移ACK专有版集群至ACK集群Pro版。
操作步骤
下载转换节点标签和卸载旧共享GPU组件的Job YAML文件。YAML文件,请参见gpushare-label-change.yaml。
执行以下命令,部署共享GPU组件的Job。
kubectl apply -f gpushare-label-change.yaml
执行以下命令,查看Job是否运行成功。
kubectl get po -l app=change-gpushare-labels -n kube-system
预期输出:
NAME READY STATUS RESTARTS AGE gpushare-label-migration-v**** 0/1 Completed 0 89s
预期输出表明,运行状态为
Completed
,Job运行成功。安装共享GPU组件。具体操作,请参见安装共享GPU组件。
安装查询集群GPU显存使用情况的工具。具体操作,请参见安装和使用GPU资源查询工具。
后续步骤
关于如何验证共享GPU组件的共享调度及显存隔离能力,请参见运行共享GPU调度示例。