全部產品
Search
文件中心

Container Service for Kubernetes:ack-ai-installer組件介紹與變更說明

更新時間:Jul 18, 2024

ack-ai-installer是增強ACK Pro版叢集和ACK Edge叢集Pro版調度能力的Device Plugin(裝置外掛程式)的組件集合,支援結合ACK Scheduler(ACK基於Kubernetes Scheduling Framework擴充機制,針對不同任務負載、不同彈性資源的統一調度系統)完成一些針對異構計算資源的複雜調度,包括共用GPU調度、GPU拓撲感知調度等。本文介紹ack-ai-installer組件的基礎資訊、使用說明和變更記錄。

組件介紹

結合ACK Scheduler,ack-ai-installer可以提供共用GPU調度(包括共用隔離能力)、GPU拓撲感知調度等調度能力。ack-ai-installer目前包括如下組件。

gpushare-device-plugin和cgpu-installer

ACK Pro版叢集和ACK Edge叢集Pro版的ACK Scheduler預設支援獨佔GPU調度,ack-ai-installer(gpushare-device-plugin)結合ACK Scheduler可以實現共用GPU調度和共用隔離能力。共用GPU調度可以使多個應用程式或進程共用一張GPU卡資源,以提高系統的資源使用率。 在共用GPU調度的基礎上,ack-ai-installer(cgpu-installer)還結合了阿里雲GPU容器共用技術cGPU,支援GPU顯存隔離,使不同的應用程式或進程在GPU記憶體中相互隔離,避免各個任務之間相互幹擾,提高整個系統的效能和效率。同時,ack-ai-installer(cgpu-installer)還支援GPU算力隔離,並提供不同的分配策略(平均、搶佔、權重等),可以更精細化地調度和使用GPU的算力資源。關於共用GPU調度與隔離的更多資訊,例如安裝方式、使用情境等,請參見安裝共用GPU調度組件通過共用GPU調度實現算力分配

gputopo-device-plugin

結合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支援實現GPU拓撲感知調度,在節點的GPU組合中選擇具有最優訓練速度的組合。關於GPU拓撲感知調度的更多資訊,例如安裝步驟、使用情境等,請參見GPU拓撲感知調度

使用說明

ack-ai-installer組件僅支援在ACK Pro版叢集和ACK Edge叢集Pro版中通過雲原生AI套件控制台頁面安裝,在ACK靈駿託管版叢集中以組件的形式預先安裝,且叢集版本均需為1.18及以上。

變更說明

2023年12月

版本號碼

變更內容

變更時間

變更影響

1.8.7

  • 支援MPS的共用GPU調度。

  • cGPU升級到1.5.5的版本。

2023年12月20日

此次升級不會對業務造成影響。

2023年08月

版本號碼

變更內容

變更時間

變更影響

1.8.2

  • 支援動態MIG切分的能力。

  • 修複device-plugin-recover反覆重啟問題。

  • cGPU升級到1.5.3的版本。

2023年08月29日

此次升級不會對業務造成影響。

2023年04月

版本號碼

變更內容

變更時間

變更影響

1.7.6

  • 升級cGPU版本到1.5.2。

  • 解決cGPU在5XX以上驅動的相容支援問題。

  • 解決cGPU對nvidia-container-runtime 1.10以上版本的支援問題。

  • 修複cGPU 1.5.1版本在containerd上的支援問題。

2023年04月26日

此次升級不會對業務造成影響。