全部產品
Search
文件中心

Container Service for Kubernetes:雲原生AI套件概述

更新時間:Aug 29, 2024

雲原生AI套件是阿里雲Container ServiceACK提供的雲原生AI技術和產品方案。使用雲原生AI套件,您可以充分利用雲原生架構和技術,在Kubernetes容器平台上快速定製化構建AI生產系統,並為AI/ML應用和系統提供全棧最佳化。ACK Edge叢集在雲上環境保持AI套件完整的能力體驗,在雲下環境能力有所裁剪。本文將詳細介紹不同節點和網路類型下AI套件在ACK Edge叢集上的能力和使用限制。

使用限制

限制項

限制條件

AI套件組件

您在使用AI套件特定組件時需要注意組件本身的使用限制,如叢集版本,NVIDIA驅動版本等,具體資訊,請參見AI套件組件介紹

ACK Edge叢集

如果您希望在邊緣節點上使用雲原生AI套件,目前僅支援特定的邊緣節點作業系統和GPU型號,具體資訊,請參見添加邊緣節點

能力概覽

ACK Edge叢集ACK叢集Pro版核心差異主要體現在以下兩個方面:

  1. 網路連通性:ACK叢集Pro版要求叢集中的節點在同一個VPC內且網路連通。但在ACK Edge叢集中情況較為複雜,需要從節點池維度考慮網路情況。不同網路情況下,AI套件能力也不同。

    1. 雲上節點池:雲上節點池的網路情況與ACK叢集Pro版相同,管理同一個VPC內網路連通的ECS節點。

    2. 網路類型為專用型邊緣節點池:專用型邊緣節點池管理與雲上專線串連的邊緣節點,實現雲上雲下的網路互連。

    3. 網路類型為基礎型邊緣節點池:基礎型邊緣節點池管理通過公網接入的邊緣節點,網路連通性無法確定。

  2. 節點環境:ACK Edge叢集主要用來納管您的線下資源,與雲上ECS相比,節點環境複雜(如GPU型號,GPU驅動,OS版本等),GPU隔離的能力無法支援。

AI套件能力

對應組件名稱

雲上環境

邊緣環境

操作鏈結接

雲上節點池

專用型邊緣節點池

基礎型邊緣節點池

彈性

ack-alibaba-cloud-metrics-adapter

支援

支援

支援

加速

ack-fluid

支援

支援

支援

調度(批量任務調度、GPU共用、GPU拓撲感知)

ack-ai-installer

支援

僅不支援GPU顯存隔離,剩餘均支援

僅不支援GPU顯存隔離,剩餘均支援

調度(任務隊列)

ack-kube-queue

支援

支援

支援

使用任務隊列ack-kube-queue

互動方式(Arena)

ack-arena

支援

支援

支援

配置Arena用戶端

互動方式(控制台)

ack-ai-dashboard

ack-ai-dev-console

ack-mysql

支援

支援

支援

工作流程

ack-ai-pipeline

支援

支援

支援

安裝雲原生AI套件

監控

ack-arena-exporter

支援

支援

支援

使用雲原生AI監控大盤

說明

在邊緣節點池中,AI套件的加速能力只能在節點間網路互連的邊緣節點池使用。

使用方式

基於ACK Edge叢集的雲邊架構,我們建議您在使用AI套件的過程中通過節點池來管理不同的資源。

  1. 管控節點池:部署AI套件管控組件的雲上節點池。

    1. 該節點池的節點不需要有GPU資源。

    2. 預設會使用ACK Edge叢集自動建立的雲上節點池default-nodepool作為管控節點池。

    3. 如果您需要開啟AI套件的所有功能,該節點池需至少擴容至4個節點,以保證組件有足夠的資源可以正常運行。具體操作,請參見擴容雲上節點

  2. 彈性節點池:開啟節點自動調整的雲上節點池。

    如果您有彈性推理的需求,可以通過該節點池實現隨業務需求動態變化的伺服器彈性擴縮容。

  3. 邊緣節點池:管理線下資料中心中不同類型的節點。

    建議您根據節點屬性使用邊緣節點池來管理一組相關的節點。例如您可以按照CPU架構劃分為AMD節點池和Arm節點池,或者按照網路情況劃分專線節點池和公網節點池等。