針對使用共用GPU的模型預測情境,Container Service for Kubernetes提供了共用GPU調度能力,同時也支援NVIDIA驅動在核心態的控制,保障GPU顯存的隔離。本文介紹如何在專有版GPU叢集中安裝GPU隔離模組及GPU分配查詢工具,實現GPU的共用和隔離能力。
前提條件
已建立ACK專有版GPU叢集。具體操作,請參見建立GPU叢集。
已通過kubectl工具串連專有版GPU叢集。具體操作,請參見擷取叢集KubeConfig並通過kubectl工具串連叢集。
使用限制
支援共用GPU調度的節點不能將CPU Policy設定為static
。
更多使用限制,請見下表。
配置 | 支援版本 |
Kubernetes | 僅支援1.12.6及其以上版本的專有版叢集 |
作業系統 | 除了Windows系統外的其他Container ServiceKubernetes版支援的作業系統 |
支援顯卡 |
步驟一:為帶有GPU裝置的節點打標籤
登入Container Service管理主控台,在左側導覽列選擇叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在節點管理頁面,單擊右上方的標籤與汙點管理。
在標籤與汙點管理頁面,批量選擇節點,然後單擊添加標籤。
在彈出的添加對話方塊中,填寫標籤名稱和值,然後單擊確定。
設定名稱為cgpu,值為true,使節點共用GPU功能生效。
重要
如果您需要關閉節點共用GPU功能,可以設定名稱為cgpu,值為false。刪除標籤不能關閉節點共用GPU功能。
步驟二:為添加標籤的節點安裝共用GPU組件
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在頁面左上方單擊建立。在Chart中選中ack-cgpu,其餘配置項按照介面提示操作,完成ack-cgpu的安裝。
在Helm頁面,當ack-cgpu的狀態變成已部署時,表明ack-cgpu已成功部署。