藉助ACK雲原生AI套件提供的Arena命令列工具和AI負載調度,您可以在Kubernetes叢集中高效地部署訓練好的模型為AI推理服務。阿里雲Container ServiceACK支援Auto Scaling、GPU共用調度和效能監控,降低營運成本。本文介紹使用ACK和雲原生AI套件部署模型推理服務的相關資訊。
通過ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均為第三方開源社區/商業公司提供的免費開源組件。您可以按需選用並安裝相應的組件並設定管理員,以此部署模型推理服務,以及使用相關的模型測試、最佳化工具等。
但阿里雲不承擔第三方組件相關的穩定性、服務限制與安全合規等責任。您應及時關注對應第三方開源社區或商業公司的官網、代碼託管平台的版本更新動態並仔細閱讀及遵守相應的開源協議,自行承擔因第三方組件導致的應用側程式開發、維護、故障與安全等潛在風險。
雲原生AI套件支援的AI推理服務類型及描述如下。
AI推理服務類型 | 描述 | 參考文檔 |
AI推理服務類型 | 描述 | 參考文檔 |
GPU共用模型推理任務 | 當需要把多個模型推理任務部署到同一塊GPU,通過共用GPU顯存和算力資源,提高GPU利用率時,您可以使用Arena提交GPU共用模型推理任務。 | |
TensorFlow模型推理服務 | 通過Arena部署TensorFlow-Serving推理服務。 | |
PyTorch模型推理服務 | 通過Triton或TorchServe方式部署PyTorch模型的推理服務。 | |
容器化彈性推理 | 基於ECI或ECS運行彈性推理服務,滿足Auto Scaling需求,降低成本。 |