全部產品
Search
文件中心

Container Service for Kubernetes:異構計算叢集概述

更新時間:Jun 19, 2024

阿里雲Container ServiceACK支援對各種異構計算資源進行統一調度和營運管理,能夠顯著提高異構計算叢集資源的使用效率。本文介紹阿里雲Container ServiceACK支援的異構計算叢集。

背景資訊

隨著5G、人工智慧、HPC( High Performance Computing)、邊緣計算等業務的興起,人們對算力的效能要求達到了一個新的高度,以CPU為代表的通用計算越來越不能滿足這些業務的算力需求。因此,人們逐漸將注意力轉移到以領域專有架構DSA(Domain Specific Architecture)為代表的異構計算上,各種異構計算裝置(GPU、FPGA等)在這些業務領域承擔著重要的角色。

如何大規模管理這些異構計算資源成為一個比較棘手的問題。為瞭解決這個問題,阿里雲Container Service提供一站式管理異構計算資源方案,實現對異構計算資源的統一調度和營運管理。

異構計算叢集介紹

阿里雲Container ServiceACK支援對GPU、FPGA、ASIC和RDMA異構資源進行統一調度和營運管理,提高叢集資源的使用效率。Container ServiceACK支援的異構計算叢集及具體功能如下。

異構資源

功能描述

GPU

阿里雲Container ServiceACK支援建立帶有T4、P100、V100等市場主流GPU卡的叢集。更多資訊,請參見建立GPU叢集建立專有GPU叢集

  • 支援以GPU卡為單位申請叢集GPU資源。

  • 支援自動擴縮容叢集GPU節點。更多資訊,請參見基於GPU指標實現Auto Scaling

  • 支援GPU共用調度和算力隔離功能。阿里雲自研的GPU共用調度將多個模型推理應用運行在同一個GPU上,能夠顯著降低成本。通過阿里雲自研cGPU方案,在無需修改應用程式容器的前提下,提供GPU顯存和算力的隔離能力,提高應用的穩定性。支援的GPU裝置分配策略如下,更多資訊,請參見共用GPU調度概述通過共用GPU調度實現算力分配

    • 單Pod單GPU卡共用和隔離:常用於模型推理情境。

    • 單Pod多GPU卡共用和隔離:常用於分布式模型訓練代碼的開發。

    • 按GPU卡的Binpack和Spread分配策略:Binpack分配策略指多個Pod會優先共用使用同一GPU卡,適用於需要提升GPU卡利用率的情境;Spread分配策略指多個Pod會盡量分散使用不同GPU卡,適用於GPU高可用情境。

  • 支援GPU拓撲感知調度功能:通過Node節點擷取異構計算資源的拓撲結構,調度器端基於節點的拓撲資訊,完成調度決策,為NVLINK、PCIe Switch、QPI和RDMA NIC提供最佳的調度選擇,實現最優的運行效能。更多資訊,請參見GPU拓撲感知調度概述

  • 支援GPU資源的全方位監控:提供節點和應用視角的監控指標,裝置(軟硬體)異常自動檢測和警示,支援獨佔GPU和共用GPU情境。更多資訊,請參見使用Kubernetes事件中心監控GPU異常使用阿里雲Prometheus監控叢集GPU資源

FPGA

阿里雲Container ServiceACK支援建立帶有FPGA裝置的叢集。更多資訊,請參見建立FPGA叢集

  • 支援以單個FPGA為單位申請資源。

  • 支援利用阿里雲Kubernetes的FPGA節點標籤進行調度。更多資訊,請參見調度負載至FPGA節點

ASIC

阿里雲Container ServiceACK支援建立帶有NETINT ASIC裝置的叢集,支援以單張NETINT ASIC卡為單位申請叢集資源。更多資訊,請參見建立ASIC叢集

RDMA

Container ServiceACK支援建立帶有RDMA裝置的叢集。更多資訊,請參見eRDMA

  • 支援通過Arena提交使用RDMA裝置的分布式深度學習訓練任務。

  • 支援對網路頻寬有高要求的任務,如分布式深度學習訓練任務等。