啟用GPU拓撲資源調度前,您需要安裝並配置相關組件。本文介紹如何安裝GPU拓撲感知調度相關組件以及在叢集中開啟GPU拓撲感知調度能力。
前提條件
已建立ACK Pro叢集,且叢集的執行個體規格類型選擇為GPU雲端服務器。更多資訊,請參見建立Kubernetes託管版叢集。
系統組件版本滿足以下要求。
組件
版本要求
Kubernetes
1.18.8及以上版本
Nvidia
418.87.01及以上版本
訓練架構NCCL版本
2.7+
作業系統
CentOS 7.6
CentOS 7.7
Ubuntu 16.04
Ubuntu 18.04
Alibaba Cloud Linux 2
Alibaba Cloud Linux 3
顯卡
V100
操作步驟
登入Container Service管理主控台,在左側導覽列選擇叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在雲原生AI套件頁面,單擊一鍵部署。
在一鍵部署頁面的調度地區,選中調度組件(批量任務調度、GPU共用、GPU拓撲感知、NPU調度)複選框,然後單擊下方的部署雲原生AI套件。更多關於部署雲原生AI套件的配置項介紹,請參見安裝雲原生AI套件。
部署完成後,在雲原生AI套件頁面的組件列表,您可以看到已安裝的GPU拓撲感知調度組件ack-ai-installer。
說明如您之前一鍵部署過雲原生AI套件,則可以直接在組件列表,單擊調度組件ack-ai-installer右側操作列的部署,進行該組件的安裝。