全部產品
Search
文件中心

Container Service for Kubernetes:ack-ai-installer組件介紹與變更說明

更新時間:Nov 30, 2024

ack-ai-installer是增強ACK Pro版叢集和ACK Edge叢集Pro版調度能力的Device Plugin(裝置外掛程式)的組件集合,支援結合ACK Scheduler(ACK基於Kubernetes Scheduling Framework擴充機制,針對不同任務負載、不同彈性資源的統一調度系統)完成一些針對異構計算資源的複雜調度,包括共用GPU調度、GPU拓撲感知調度等。本文介紹ack-ai-installer組件的基礎資訊、使用說明和變更記錄。

組件介紹

結合ACK Scheduler,ack-ai-installer可以提供共用GPU調度(包括共用隔離能力)、GPU拓撲感知調度等調度能力。ack-ai-installer目前包括如下組件。

gpushare-device-plugin和cgpu-installer

ACK Pro版叢集和ACK Edge叢集Pro版的ACK Scheduler預設支援獨佔GPU調度,ack-ai-installer(gpushare-device-plugin)結合ACK Scheduler可以實現共用GPU調度和共用隔離能力。共用GPU調度可以使多個應用程式或進程共用一張GPU卡資源,以提高系統的資源使用率。 在共用GPU調度的基礎上,ack-ai-installer(cgpu-installer)還結合了阿里雲GPU容器共用技術cGPU,支援GPU顯存隔離,使不同的應用程式或進程在GPU記憶體中相互隔離,避免各個任務之間相互幹擾,提高整個系統的效能和效率。同時,ack-ai-installer(cgpu-installer)還支援GPU算力隔離,並提供不同的分配策略(平均、搶佔、權重等),可以更精細化地調度和使用GPU的算力資源。關於共用GPU調度與隔離的更多資訊,例如安裝方式、使用情境等,請參見安裝共用GPU調度組件通過共用GPU調度實現算力分配

gputopo-device-plugin

結合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支援實現GPU拓撲感知調度,在節點的GPU組合中選擇具有最優訓練速度的組合。關於GPU拓撲感知調度的更多資訊,例如安裝步驟、使用情境等,請參見GPU拓撲感知調度

使用說明

ack-ai-installer組件僅支援在ACK Pro版叢集和ACK Edge叢集Pro版中通過雲原生AI套件控制台頁面安裝,在ACK靈駿託管版叢集中以組件的形式預先安裝,且叢集版本均需為1.18及以上。

變更說明

2024年11月

版本號碼

變更內容

變更時間

變更影響

1.11.1

發布cGPU 1.5.13版本,修複容器殘留進程可能導致的小機率核心崩潰。

2024年11月19日

此次升級不會對業務造成影響。

1.10.1

發布cGPU 1.5.12版本,修複535等新版本驅動部分CUDA API顯存隔離失敗的問題。

2024年11月07日

此次升級不會對業務造成影響。

2024年09月

版本號碼

變更內容

變更時間

變更影響

1.9.16

  • cGPU為1.5.11版本。

  • 修改cGPU安裝流程到init-container中。

2024年09月26日

此次升級不會對業務造成影響。

1.9.15

發布cGPU 1.5.11版本,修複解碼相關問題。

2024年09月19日

此次升級不會對業務造成影響。

2024年08月

版本號碼

變更內容

變更時間

變更影響

1.9.14

  • 修複了一些MPS Daemon使用的問題。

  • 發布cGPU 1.5.10版本,增加了Policy 6用以做算力和顯存的等比例切分。

2024年08月21日

此次升級不會對業務造成影響。

1.9.14

發布cGPU 1.5.9版本,增加了policy 6用以做算力和顯存的等比例切分

2024年08月13日

此次升級不會對業務造成影響。

2024年05月

版本號碼

變更內容

變更時間

變更影響

1.9.11

發布cGPU 1.5.7版本,支援L系列GPU和550+版本GPU驅動。

2024年05月14日

此次升級不會對業務造成影響。

1.9.10

發布cGPU 1.5.7版本,修複cgpu policy set無效的問題。

2024年05月09日

此次升級不會對業務造成影響。

2024年01月

版本號碼

變更內容

變更時間

變更影響

1.8.8

發布cGPU 1.5.6版本,發布了新的cGPU License Server策略。

2024年01月04日

此次升級不會對業務造成影響。

2023年12月

版本號碼

變更內容

變更時間

變更影響

1.8.7

  • cGPU為1.5.5版本。

  • 支援MPS的共用GPU調度。

2023年12月20日

此次升級不會對業務造成影響。

2023年11月

版本號碼

變更內容

變更時間

變更影響

1.8.5

發布cGPU 1.5.5版本,修複cgpu-procfs觸發的Kernel Panic問題。

2023年11月23日

此次升級不會對業務造成影響。

2023年08月

版本號碼

變更內容

變更時間

變更影響

1.8.2

  • cGPU為1.5.3版本。

  • 支援動態MIG切分的能力。

  • 修複device-plugin-recover反覆重啟問題。

2023年08月29日

此次升級不會對業務造成影響。

2023年07月

版本號碼

變更內容

變更時間

變更影響

1.7.7

  • 發布cGPU 1.5.3版本,

  • 修複nvidia-container-toolkit和nvidia-container-runtime-hook軟串連錯亂的問題。

  • 修複不相容高版本驅動(470.182.03 、515.105.01、525.105.17及其之後發布的版本的驅動)的問題。

2023年07月04日

此次升級不會對業務造成影響。

2023年04月

版本號碼

變更內容

變更時間

變更影響

1.7.6

  • 發布cGPU 1.5.2版本,修複systemd cgroup許可權錯亂問題。

  • 解決cGPU在5XX以上驅動的相容支援問題。

  • 解決cGPU對nvidia-container-runtime 1.10以上版本的支援問題。

  • 修複cGPU 1.5.1版本在containerd上的支援問題。

2023年04月26日

此次升級不會對業務造成影響。

1.7.5

發布cGPU 1.5.2版本。

2023年04月18日

此次升級不會對業務造成影響。