基於Kubernetes部署AI推理服務概述 - Container Service for Kubernetes

藉助ACK雲原生AI套件提供的Arena命令列工具和AI負載調度，您可以在Kubernetes叢集中高效地部署訓練好的模型為AI推理服務。阿里雲Container ServiceACK支援Auto Scaling、GPU共用調度和效能監控，降低營運成本。本文介紹使用ACK和雲原生AI套件部署模型推理服務的相關資訊。

重要

通過ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均為第三方開源社區/商業公司提供的免費開源組件。您可以按需選用並安裝相應的組件並設定管理員，以此部署模型推理服務，以及使用相關的模型測試、最佳化工具等。

但阿里雲不承擔第三方組件相關的穩定性、服務限制與安全合規等責任。您應及時關注對應第三方開源社區或商業公司的官網、代碼託管平台的版本更新動態並仔細閱讀及遵守相應的開源協議，自行承擔因第三方組件導致的應用側程式開發、維護、故障與安全等潛在風險。

雲原生AI套件支援的AI推理服務類型及描述如下。

AI推理服務類型	描述	參考文檔

AI推理服務類型	描述	參考文檔
GPU共用模型推理任務	當需要把多個模型推理任務部署到同一塊GPU，通過共用GPU顯存和算力資源，提高GPU利用率時，您可以使用Arena提交GPU共用模型推理任務。	提交GPU共用模型推理任務
TensorFlow模型推理服務	通過Arena部署TensorFlow-Serving推理服務。	部署TensorFlow模型推理服務
PyTorch模型推理服務	通過Triton或TorchServe方式部署PyTorch模型的推理服務。	提交GPU共用模型推理任務
容器化彈性推理	基於ECI或ECS運行彈性推理服務，滿足Auto Scaling需求，降低成本。	基於ECI的彈性推理基於ECS的彈性推理