ack-ai-installer是增強ACK Pro版叢集和ACK Edge叢集Pro版調度能力的Device Plugin(裝置外掛程式)的組件集合,支援結合ACK Scheduler(ACK基於Kubernetes Scheduling Framework擴充機制,針對不同任務負載、不同彈性資源的統一調度系統)完成一些針對異構計算資源的複雜調度,包括共用GPU調度、GPU拓撲感知調度等。本文介紹ack-ai-installer組件的基礎資訊、使用說明和變更記錄。
組件介紹
結合ACK Scheduler,ack-ai-installer可以提供共用GPU調度(包括共用隔離能力)、GPU拓撲感知調度等調度能力。ack-ai-installer目前包括如下組件。
gpushare-device-plugin和cgpu-installer
ACK Pro版叢集和ACK Edge叢集Pro版的ACK Scheduler預設支援獨佔GPU調度,ack-ai-installer(gpushare-device-plugin)結合ACK Scheduler可以實現共用GPU調度和共用隔離能力。共用GPU調度可以使多個應用程式或進程共用一張GPU卡資源,以提高系統的資源使用率。 在共用GPU調度的基礎上,ack-ai-installer(cgpu-installer)還結合了阿里雲GPU容器共用技術cGPU,支援GPU顯存隔離,使不同的應用程式或進程在GPU記憶體中相互隔離,避免各個任務之間相互幹擾,提高整個系統的效能和效率。同時,ack-ai-installer(cgpu-installer)還支援GPU算力隔離,並提供不同的分配策略(平均、搶佔、權重等),可以更精細化地調度和使用GPU的算力資源。關於共用GPU調度與隔離的更多資訊,例如安裝方式、使用情境等,請參見安裝共用GPU調度組件、通過共用GPU調度實現算力分配。
gputopo-device-plugin
結合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支援實現GPU拓撲感知調度,在節點的GPU組合中選擇具有最優訓練速度的組合。關於GPU拓撲感知調度的更多資訊,例如安裝步驟、使用情境等,請參見GPU拓撲感知調度。
使用說明
ack-ai-installer組件僅支援在ACK Pro版叢集和ACK Edge叢集Pro版中通過雲原生AI套件控制台頁面安裝,在ACK靈駿託管版叢集中以組件的形式預先安裝,且叢集版本均需為1.18及以上。
變更說明
2023年12月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
1.8.7 |
| 2023年12月20日 | 此次升級不會對業務造成影響。 |
2023年08月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
1.8.2 |
| 2023年08月29日 | 此次升級不會對業務造成影響。 |
2023年04月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
1.7.6 |
| 2023年04月26日 | 此次升級不會對業務造成影響。 |