異構計算叢集概述 - Container Service for Kubernetes

阿里雲Container ServiceACK支援對各種異構計算資源進行統一調度和營運管理，能夠顯著提高異構計算叢集資源的使用效率。本文介紹阿里雲Container ServiceACK支援的異構計算叢集。

背景資訊

隨著5G、人工智慧、HPC（ High Performance Computing）、邊緣計算等業務的興起，人們對算力的效能要求達到了一個新的高度，以CPU為代表的通用計算越來越不能滿足這些業務的算力需求。因此，人們逐漸將注意力轉移到以領域專有架構DSA（Domain Specific Architecture）為代表的異構計算上，各種異構計算裝置（GPU、FPGA等）在這些業務領域承擔著重要的角色。

如何大規模管理這些異構計算資源成為一個比較棘手的問題。為瞭解決這個問題，阿里雲Container Service提供一站式管理異構計算資源方案，實現對異構計算資源的統一調度和營運管理。

異構計算叢集介紹

阿里雲Container ServiceACK支援對GPU、FPGA、ASIC和RDMA異構資源進行統一調度和營運管理，提高叢集資源的使用效率。Container ServiceACK支援的異構計算叢集及具體功能如下。

異構資源	功能描述
GPU	阿里雲Container ServiceACK支援建立帶有T4、P100、V100等市場主流GPU卡的叢集。更多資訊，請參見建立GPU叢集和建立專有GPU叢集。支援以GPU卡為單位申請叢集GPU資源。支援自動擴縮容叢集GPU節點。更多資訊，請參見基於GPU指標實現Auto Scaling。支援GPU共用調度和算力隔離功能。阿里雲自研的GPU共用調度將多個模型推理應用運行在同一個GPU上，能夠顯著降低成本。通過阿里雲自研cGPU方案，在無需修改應用程式容器的前提下，提供GPU顯存和算力的隔離能力，提高應用的穩定性。支援的GPU裝置分配策略如下，更多資訊，請參見共用GPU調度和通過共用GPU調度實現算力分配。單Pod單GPU卡共用和隔離：常用於模型推理情境。單Pod多GPU卡共用和隔離：常用於分布式模型訓練代碼的開發。按GPU卡的Binpack和Spread分配策略：Binpack分配策略指多個Pod會優先共用使用同一GPU卡，適用於需要提升GPU卡利用率的情境；Spread分配策略指多個Pod會盡量分散使用不同GPU卡，適用於GPU高可用情境。支援GPU拓撲感知調度功能：通過Node節點擷取異構計算資源的拓撲結構，調度器端基於節點的拓撲資訊，完成調度決策，為NVLINK、PCIe Switch、QPI和RDMA NIC提供最佳的調度選擇，實現最優的運行效能。更多資訊，請參見GPU拓撲感知調度。支援GPU資源的全方位監控：提供節點和應用視角的監控指標，裝置（軟硬體）異常自動檢測和警示，支援獨佔GPU和共用GPU情境。更多資訊，請參見使用Kubernetes事件中心監控GPU異常和使用阿里雲Prometheus監控叢集GPU資源。
FPGA	阿里雲Container ServiceACK支援建立帶有FPGA裝置的叢集。更多資訊，請參見建立FPGA叢集。支援以單個FPGA為單位申請資源。支援利用阿里雲Kubernetes的FPGA節點標籤進行調度。更多資訊，請參見調度負載至FPGA節點。
ASIC	阿里雲Container ServiceACK支援建立帶有NETINT ASIC裝置的叢集，支援以單張NETINT ASIC卡為單位申請叢集資源。更多資訊，請參見建立ASIC叢集。
RDMA	Container ServiceACK支援建立帶有RDMA裝置的叢集。更多資訊，請參見eRDMA。支援通過Arena提交使用RDMA裝置的分布式深度學習訓練任務。支援對網路頻寬有高要求的任務，如分布式深度學習訓練任務等。