全部產品
Search
文件中心

Container Service for Kubernetes:ack-kube-queue

更新時間:Jun 19, 2024

ack-kube-queue是雲原生AI套件提供的任務隊列組件,主要圍繞著Kube Queue任務隊列,結合調度器和Quota系統,提供隊列管理、優先順序調度、使用彈性配額等功能,協助您最佳化Kubernetes中的AI/ML工作負載和批處理工作負載的管理效率和調度效能。本文介紹ack-kube-queue組件的基礎資訊、使用說明和變更記錄。

組件介紹

任務調度情境下,例如在AI/ML工作負載和批處理工作負載情境下,當Kubernetes叢集中任務類型的工作負載數量較多、Pod數量較多時,調度器的負載效能會受到較大影響,不同使用者提交的作業之間也可能會相互幹擾。任務隊列ack-kube-queue圍繞著Kube Queue任務隊列提供相關功能,旨在管理Kubernetes中的AI/ML工作負載和批處理工作負載。該組件允許系統管理員使用自訂隊列的作業隊列管理,以提高隊列的靈活性。結合Quota系統,ack-kube-queue自動最佳化了工作負載和資源配額管理,以便最大化利用叢集資源。

使用說明

ack-kube-queue組件僅支援在ACK Pro版叢集、ACK Serverless叢集Pro版ACK Edge叢集Pro版中安裝,且叢集版本需為1.18及以上。

您可以在部署雲原生AI套件時為叢集安裝ack-kube-queue,也可以為已部署雲原生AI套件的叢集安裝ack-kube-queue。安裝完成後,您可以使用ack-kube-queue提供的相關功能,例如開啟阻塞隊列、嚴格優先順序調度等。關於ack-kube-queue組件的安裝和使用,請參見使用任務隊列ack-kube-queue

變更說明

2024年01月

版本號碼

變更內容

變更時間

變更影響

v0.3.4

修複Block模式下刪除隊頭任務時偶爾導致隊頭阻塞的問題。

2024年01月04日

此次升級不會對業務造成影響。

2023年12月

版本號碼

變更內容

變更時間

變更影響

v0.3.3

新增通過環境變數設定全域阻塞隊列時將會全域重新整理所有Queue的阻塞隊列模式。

2023年12月26日

此次升級不會對業務造成影響。

2023年09月

版本號碼

變更內容

變更時間

變更影響

v0.3.1

修複刪除QueueUnit時偶爾導致隊列錯誤的問題。

2023年09月13日

此次升級不會對業務造成影響。

v0.3.0

新增對在Queue中透出任務排隊序列資訊。

2023年09月13日

此次升級不會對業務造成影響。

2023年08月

版本號碼

變更內容

變更時間

變更影響

v0.2.1

修複Template中的NodeSelector導致在Worker節點上無法調度的問題。

2023年08月31日

此次升級不會對業務造成影響。

v0.2.0

  • 新增支援通過Arena提交MPI Job排隊。

  • 新增支援Argo Workflow排隊。

  • 新增在ElasticQuotaTree中使用kube-queue/max-jobs作為資源名可以實現對同時出隊的Job數量進行限制。

  • 最佳化隊列出隊失敗時的日誌提示。

2023年08月29日

此次升級不會對業務造成影響。

2023年07月

版本號碼

變更內容

變更時間

變更影響

v0.1.13

修複更新時缺少LastUpdateTime可能導致組件無法工作的問題。

2023年07月26日

此次升級不會對業務造成影響。

v0.1.12

新增隊列層級配置隊列阻塞功能開關,支援通過將extension中的timeout參數配置成0來關閉重新入隊功能。

2023年07月20日

此次升級不會對業務造成影響。

2023年06月

版本號碼

變更內容

變更時間

變更影響

v0.1.11

新增任務更新時同步更新Queueunit狀態。

2023年06月30日

此次升級不會對業務造成影響。

v0.1.10

kube-queue-controller、tf-operator-extension以及pytorch-operator-extension等組件新增支援ARM架構節點。

2023年06月14日

此次升級不會對業務造成影響。

2023年05月

版本號碼

變更內容

變更時間

變更影響

v0.1.9

新增支援長時間Pending任務重新入隊功能以及多隊列公平調度。若任務下屬的Pod由於拓撲調度約束、親和性約束、資源片段等原因長時間無法調度,ack-kube-queue將進行任務回收,讓任務進入隊列重新調度,避免任務無效佔用Quota,提升Quota利用效率。

2023年05月16日

此次升級不會對業務造成影響。

2023年04月

版本號碼

變更內容

變更時間

變更影響

v0.1.8

新增支援阻塞隊列模式以及嚴格優先順序出隊功能。更多資訊,請參見開啟阻塞隊列開啟嚴格優先順序調度

2023年04月25日

此次升級不會對業務造成影響。

2023年03月

版本號碼

變更內容

變更時間

變更影響

v0.1.6

修複TFJOB不顯示State的問題。

2023年03月15日

此次升級不會對業務造成影響。

2023年02月

版本號碼

變更內容

變更時間

變更影響

v0.1.5

修複ack-kube-queue偶發的刪除任務失敗的問題。

2023年02月28日

此次升級不會對業務造成影響。

v0.1.4

修複ack-kube-queue偶發的queueUnit出隊後Used資訊丟失的問題。

2023年02月14日

此次升級不會對業務造成影響。

2023年01月

版本號碼

變更內容

變更時間

變更影響

v0.1.3

修複ack-kube-queue偶發的丟失queueUnit的問題。

2023年01月12日

此次升級不會對業務造成影響。

v0.1.2

修複ack-kube-queue偶發的長時間無法出隊的問題。

2023年01月12日

此次升級不會對業務造成影響。

v0.1.1

新增支援多隊列版本。不同Quota下的任務將進入不同隊列排隊,避免阻塞。

2023年01月10日

此次升級不會對業務造成影響。

2022年10月

版本號碼

變更內容

變更時間

變更影響

v0.1.0

新增組件,首次發布。

2022年10月15日

首次發布。