全部產品
Search
文件中心

:安裝共用GPU調度組件

更新時間:Jan 26, 2025

針對使用共用GPU的模型預測情境,Container Service for Kubernetes提供了共用GPU調度能力,同時也支援NVIDIA驅動在核心態的控制,保障GPU顯存的隔離。本文介紹如何在專有版GPU叢集中安裝GPU隔離模組及GPU分配查詢工具,實現GPU的共用和隔離能力。

前提條件

使用限制

支援共用GPU調度的節點不能將CPU Policy設定為static

更多使用限制,請見下表。

配置

支援版本

Kubernetes

僅支援1.12.6及其以上版本的專有版叢集

作業系統

除了Windows系統外的其他Container ServiceKubernetes版支援的作業系統

支援顯卡

ACK支援的GPU機型

步驟一:為帶有GPU裝置的節點打標籤

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點

  3. 節點管理頁面,單擊右上方的標籤與汙點管理

  4. 標籤與汙點管理頁面,批量選擇節點,然後單擊添加標籤

  5. 在彈出的添加對話方塊中,填寫標籤名稱,然後單擊確定

    設定名稱cgputrue,使節點共用GPU功能生效。

重要

如果您需要關閉節點共用GPU功能,可以設定名稱cgpufalse。刪除標籤不能關閉節點共用GPU功能。

步驟二:為添加標籤的節點安裝共用GPU組件

  1. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > Helm

  2. 在頁面左上方單擊建立。在Chart中選中ack-cgpu,其餘配置項按照介面提示操作,完成ack-cgpu的安裝。

    Helm頁面,當ack-cgpu的狀態變成已部署時,表明ack-cgpu已成功部署。