ack-kube-queue是雲原生AI套件提供的任務隊列組件,主要圍繞著Kube Queue任務隊列,結合調度器和Quota系統,提供隊列管理、優先順序調度、使用彈性配額等功能,協助您最佳化Kubernetes中的AI/ML工作負載和批處理工作負載的管理效率和調度效能。本文介紹ack-kube-queue組件的基礎資訊、使用說明和變更記錄。
組件介紹
任務調度情境下,例如在AI/ML工作負載和批處理工作負載情境下,當Kubernetes叢集中任務類型的工作負載數量較多、Pod數量較多時,調度器的負載效能會受到較大影響,不同使用者提交的作業之間也可能會相互幹擾。任務隊列ack-kube-queue圍繞著Kube Queue任務隊列提供相關功能,旨在管理Kubernetes中的AI/ML工作負載和批處理工作負載。該組件允許系統管理員使用自訂隊列的作業隊列管理,以提高隊列的靈活性。結合Quota系統,ack-kube-queue自動最佳化了工作負載和資源配額管理,以便最大化利用叢集資源。
使用說明
ack-kube-queue組件僅支援在ACK Pro版叢集、ACK Serverless叢集Pro版、ACK Edge叢集Pro版中安裝,且叢集版本需為1.18及以上。
您可以在部署雲原生AI套件時為叢集安裝ack-kube-queue,也可以為已部署雲原生AI套件的叢集安裝ack-kube-queue。安裝完成後,您可以使用ack-kube-queue提供的相關功能,例如開啟阻塞隊列、嚴格優先順序調度等。關於ack-kube-queue組件的安裝和使用,請參見使用任務隊列ack-kube-queue。
變更說明
2024年01月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.3.4 | 修複Block模式下刪除隊頭任務時偶爾導致隊頭阻塞的問題。 | 2024年01月04日 | 此次升級不會對業務造成影響。 |
2023年12月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.3.3 | 新增通過環境變數設定全域阻塞隊列時將會全域重新整理所有Queue的阻塞隊列模式。 | 2023年12月26日 | 此次升級不會對業務造成影響。 |
2023年09月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.3.1 | 修複刪除QueueUnit時偶爾導致隊列錯誤的問題。 | 2023年09月13日 | 此次升級不會對業務造成影響。 |
v0.3.0 | 新增對在Queue中透出任務排隊序列資訊。 | 2023年09月13日 | 此次升級不會對業務造成影響。 |
2023年08月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.2.1 | 修複Template中的NodeSelector導致在Worker節點上無法調度的問題。 | 2023年08月31日 | 此次升級不會對業務造成影響。 |
v0.2.0 |
| 2023年08月29日 | 此次升級不會對業務造成影響。 |
2023年07月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.13 | 修複更新時缺少LastUpdateTime可能導致組件無法工作的問題。 | 2023年07月26日 | 此次升級不會對業務造成影響。 |
v0.1.12 | 新增隊列層級配置隊列阻塞功能開關,支援通過將extension中的timeout參數配置成0來關閉重新入隊功能。 | 2023年07月20日 | 此次升級不會對業務造成影響。 |
2023年06月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.11 | 新增任務更新時同步更新Queueunit狀態。 | 2023年06月30日 | 此次升級不會對業務造成影響。 |
v0.1.10 | kube-queue-controller、tf-operator-extension以及pytorch-operator-extension等組件新增支援ARM架構節點。 | 2023年06月14日 | 此次升級不會對業務造成影響。 |
2023年05月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.9 | 新增支援長時間Pending任務重新入隊功能以及多隊列公平調度。若任務下屬的Pod由於拓撲調度約束、親和性約束、資源片段等原因長時間無法調度,ack-kube-queue將進行任務回收,讓任務進入隊列重新調度,避免任務無效佔用Quota,提升Quota利用效率。 | 2023年05月16日 | 此次升級不會對業務造成影響。 |
2023年04月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.8 | 新增支援阻塞隊列模式以及嚴格優先順序出隊功能。更多資訊,請參見開啟阻塞隊列、開啟嚴格優先順序調度。 | 2023年04月25日 | 此次升級不會對業務造成影響。 |
2023年03月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.6 | 修複TFJOB不顯示State的問題。 | 2023年03月15日 | 此次升級不會對業務造成影響。 |
2023年02月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.5 | 修複ack-kube-queue偶發的刪除任務失敗的問題。 | 2023年02月28日 | 此次升級不會對業務造成影響。 |
v0.1.4 | 修複ack-kube-queue偶發的queueUnit出隊後Used資訊丟失的問題。 | 2023年02月14日 | 此次升級不會對業務造成影響。 |
2023年01月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.3 | 修複ack-kube-queue偶發的丟失queueUnit的問題。 | 2023年01月12日 | 此次升級不會對業務造成影響。 |
v0.1.2 | 修複ack-kube-queue偶發的長時間無法出隊的問題。 | 2023年01月12日 | 此次升級不會對業務造成影響。 |
v0.1.1 | 新增支援多隊列版本。不同Quota下的任務將進入不同隊列排隊,避免阻塞。 | 2023年01月10日 | 此次升級不會對業務造成影響。 |
2022年10月
版本號碼 | 變更內容 | 變更時間 | 變更影響 |
v0.1.0 | 新增組件,首次發布。 | 2022年10月15日 | 首次發布。 |