全部產品
Search
文件中心

Container Service for Kubernetes:安裝GPU拓撲感知調度組件

更新時間:Jun 19, 2024

啟用GPU拓撲資源調度前,您需要安裝並配置相關組件。本文介紹如何安裝GPU拓撲感知調度相關組件以及在叢集中開啟GPU拓撲感知調度能力。

前提條件

  • 已建立ACK Pro叢集,且叢集的執行個體規格類型選擇為GPU雲端服務器。更多資訊,請參見建立Kubernetes託管版叢集

  • 擷取叢集KubeConfig並通過kubectl工具串連叢集

  • 系統組件版本滿足以下要求。

    組件

    版本要求

    Kubernetes

    1.18.8及以上版本

    Nvidia

    418.87.01及以上版本

    訓練架構NCCL版本

    2.7+

    作業系統

    • CentOS 7.6

    • CentOS 7.7

    • Ubuntu 16.04

    • Ubuntu 18.04

    • Alibaba Cloud Linux 2

    • Alibaba Cloud Linux 3

    顯卡

    V100

操作步驟

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > 雲原生AI套件

  3. 雲原生AI套件頁面,單擊一鍵部署

  4. 在一鍵部署頁面的調度地區,選中調度組件(批量任務調度、GPU共用、GPU拓撲感知、NPU調度)複選框,然後單擊下方的部署雲原生AI套件。更多關於部署雲原生AI套件的配置項介紹,請參見安裝雲原生AI套件

    部署完成後,在雲原生AI套件頁面的組件列表,您可以看到已安裝的GPU拓撲感知調度組件ack-ai-installer。

    說明

    如您之前一鍵部署過雲原生AI套件,則可以直接在組件列表,單擊調度組件ack-ai-installer右側操作列的部署,進行該組件的安裝。