全部產品
Search
文件中心

Container Service for Kubernetes:ACK專有版叢集遷移至ACK叢集Pro版後升級共用GPU組件

更新時間:Jun 19, 2024

ACK專有版叢集安裝的共用GPU組件在ACK叢集Pro版中無法正常使用,需在ACK叢集Pro版中升級相關組件,以實現GPU的調度和隔離。本文介紹如何在ACK叢集Pro版中升級共用GPU組件。

前提條件

已將ACK專有版叢集遷移至ACK叢集Pro版中,且遷移前的ACK專有版叢集已安裝共用GPU組件。具體操作,請參見熱遷移ACK專有版叢集至ACK叢集Pro版

操作步驟

  1. 擷取叢集KubeConfig並通過kubectl工具串連叢集

  2. 下載轉換節點標籤和卸載舊共用GPU組件的Job YAML檔案。YAML檔案,請參見gpushare-label-change.yaml

  3. 執行以下命令,部署共用GPU組件的Job。

    kubectl apply -f gpushare-label-change.yaml
  4. 執行以下命令,查看Job是否運行成功。

    kubectl get po -l app=change-gpushare-labels -n kube-system

    預期輸出:

    NAME                             READY   STATUS      RESTARTS   AGE
    gpushare-label-migration-v****   0/1     Completed   0          89s

    預期輸出表明,運行狀態為Completed,Job運行成功。

  5. 安裝共用GPU組件。具體操作,請參見安裝共用GPU組件

  6. 安裝查詢叢集GPU顯存使用方式的工具。具體操作,請參見安裝和使用GPU資源查詢工具

後續步驟

關於如何驗證共用GPU組件的共用調度及顯存隔離能力,請參見運行共用GPU調度樣本