雲原生AI套件是阿里雲Container ServiceACK提供的雲原生AI技術和產品方案。使用雲原生AI套件,您可以充分利用雲原生架構和技術,在Kubernetes容器平台上快速定製化構建AI生產系統,並為AI/ML應用和系統提供全棧最佳化。ACK Edge叢集在雲上環境保持AI套件完整的能力體驗,在雲下環境能力有所裁剪。本文將詳細介紹不同節點和網路類型下AI套件在ACK Edge叢集上的能力和使用限制。
使用限制
限制項 | 限制條件 |
AI套件組件 | 您在使用AI套件特定組件時需要注意組件本身的使用限制,如叢集版本,NVIDIA驅動版本等,具體資訊,請參見AI套件組件介紹。 |
ACK Edge叢集 | 如果您希望在邊緣節點上使用雲原生AI套件,目前僅支援特定的邊緣節點作業系統和GPU型號,具體資訊,請參見添加邊緣節點。 |
能力概覽
ACK Edge叢集與ACK叢集Pro版核心差異主要體現在以下兩個方面:
網路連通性:ACK叢集Pro版要求叢集中的節點在同一個VPC內且網路連通。但在ACK Edge叢集中情況較為複雜,需要從節點池維度考慮網路情況。不同網路情況下,AI套件能力也不同。
雲上節點池:雲上節點池的網路情況與ACK叢集Pro版相同,管理同一個VPC內網路連通的ECS節點。
網路類型為專用型邊緣節點池:專用型邊緣節點池管理與雲上專線串連的邊緣節點,實現雲上雲下的網路互連。
網路類型為基礎型邊緣節點池:基礎型邊緣節點池管理通過公網接入的邊緣節點,網路連通性無法確定。
節點環境:ACK Edge叢集主要用來納管您的線下資源,與雲上ECS相比,節點環境複雜(如GPU型號,GPU驅動,OS版本等),GPU隔離的能力無法支援。
AI套件能力 | 對應組件名稱 | 雲上環境 | 邊緣環境 | 操作鏈結接 | |
雲上節點池 | 專用型邊緣節點池 | 基礎型邊緣節點池 | |||
彈性 | ack-alibaba-cloud-metrics-adapter | 支援 | 支援 | 支援 | |
加速 | 支援 | 支援 | 支援 | ||
調度(批量任務調度、GPU共用、GPU拓撲感知) | 支援 | 僅不支援GPU顯存隔離,剩餘均支援 | 僅不支援GPU顯存隔離,剩餘均支援 | ||
調度(任務隊列) | 支援 | 支援 | 支援 | ||
互動方式(Arena) | 支援 | 支援 | 支援 | ||
互動方式(控制台) | ack-ai-dashboard ack-mysql | 支援 | 支援 | 支援 | |
工作流程 | 支援 | 支援 | 支援 | ||
監控 | ack-arena-exporter | 支援 | 支援 | 支援 |
在邊緣節點池中,AI套件的加速能力只能在節點間網路互連的邊緣節點池使用。
使用方式
基於ACK Edge叢集的雲邊架構,我們建議您在使用AI套件的過程中通過節點池來管理不同的資源。
管控節點池:部署AI套件管控組件的雲上節點池。
該節點池的節點不需要有GPU資源。
預設會使用ACK Edge叢集自動建立的雲上節點池default-nodepool作為管控節點池。
如果您需要開啟AI套件的所有功能,該節點池需至少擴容至4個節點,以保證組件有足夠的資源可以正常運行。具體操作,請參見擴容雲上節點。
彈性節點池:開啟節點自動調整的雲上節點池。
如果您有彈性推理的需求,可以通過該節點池實現隨業務需求動態變化的伺服器彈性擴縮容。
邊緣節點池:管理線下資料中心中不同類型的節點。
建議您根據節點屬性使用邊緣節點池來管理一組相關的節點。例如您可以按照CPU架構劃分為AMD節點池和Arm節點池,或者按照網路情況劃分專線節點池和公網節點池等。