ACK專有版叢集安裝的共用GPU組件在ACK叢集Pro版中無法正常使用,需在ACK叢集Pro版中升級相關組件,以實現GPU的調度和隔離。本文介紹如何在ACK叢集Pro版中升級共用GPU組件。
前提條件
已將ACK專有版叢集遷移至ACK叢集Pro版中,且遷移前的ACK專有版叢集已安裝共用GPU組件。具體操作,請參見熱遷移ACK專有版叢集至ACK叢集Pro版。
操作步驟
下載轉換節點標籤和卸載舊共用GPU組件的Job YAML檔案。YAML檔案,請參見gpushare-label-change.yaml。
執行以下命令,部署共用GPU組件的Job。
kubectl apply -f gpushare-label-change.yaml
執行以下命令,查看Job是否運行成功。
kubectl get po -l app=change-gpushare-labels -n kube-system
預期輸出:
NAME READY STATUS RESTARTS AGE gpushare-label-migration-v**** 0/1 Completed 0 89s
預期輸出表明,運行狀態為
Completed
,Job運行成功。安裝共用GPU組件。具體操作,請參見安裝共用GPU組件。
安裝查詢叢集GPU顯存使用方式的工具。具體操作,請參見安裝和使用GPU資源查詢工具。
後續步驟
關於如何驗證共用GPU組件的共用調度及顯存隔離能力,請參見運行共用GPU調度樣本。