本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

基於Kubernetes部署AI推理服務概述

更新時間:2025-02-25 19:28

藉助ACK雲原生AI套件提供的Arena命令列工具和AI負載調度,您可以在Kubernetes叢集中高效地部署訓練好的模型為AI推理服務。阿里雲Container ServiceACK支援Auto Scaling、GPU共用調度和效能監控,降低營運成本。本文介紹使用ACK和雲原生AI套件部署模型推理服務的相關資訊。

重要

通過ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均為第三方開源社區/商業公司提供的免費開源組件。您可以按需選用並安裝相應的組件並設定管理員,以此部署模型推理服務,以及使用相關的模型測試、最佳化工具等。

但阿里雲不承擔第三方組件相關的穩定性、服務限制與安全合規等責任。您應及時關注對應第三方開源社區或商業公司的官網、代碼託管平台的版本更新動態並仔細閱讀及遵守相應的開源協議,自行承擔因第三方組件導致的應用側程式開發、維護、故障與安全等潛在風險。

雲原生AI套件支援的AI推理服務類型及描述如下。

AI推理服務類型

描述

參考文檔

AI推理服務類型

描述

參考文檔

GPU共用模型推理任務

當需要把多個模型推理任務部署到同一塊GPU,通過共用GPU顯存和算力資源,提高GPU利用率時,您可以使用Arena提交GPU共用模型推理任務。

提交GPU共用模型推理任務

TensorFlow模型推理服務

通過Arena部署TensorFlow-Serving推理服務。

部署TensorFlow模型推理服務

PyTorch模型推理服務

通過Triton或TorchServe方式部署PyTorch模型的推理服務。

提交GPU共用模型推理任務

容器化彈性推理

基於ECI或ECS運行彈性推理服務,滿足Auto Scaling需求,降低成本。

    文檔反饋