Kubernetes クラスターへの AI 推論サービスデプロイの概要 - Container Service for Kubernetes

クラウドネイティブ AI スイートが提供する Arena コマンドラインツールを使用して、AI ワークロードをスケジュールできます。これは、トレーニング済みモデルを Container Service for Kubernetes (ACK) クラスターに推論サービスとしてデプロイするための効率的な方法を提供します。ACK は、自動スケーリング、GPU の共有とスケジューリング、およびパフォーマンス監視を提供し、ACK クラスターにデプロイされた推論サービスの O&M コストを削減します。このトピックでは、クラウドネイティブ AI スイートを使用して、モデルを ACK クラスターに推論サービスとしてデプロイする方法について説明します。

重要

ack-arena の NVIDIA Triton Server および TensorFlow Serving は、サードパーティのオープンソースコミュニティまたは企業が提供する無料のオープンソースコンポーネントです。対応するコンポーネントをインストールし、サーバーを構成して推論モデルをサービスとしてデプロイし、関連するモデルテストおよび最適化ツールを使用することを選択できます。

ただし、Alibaba Cloud は、サードパーティコンポーネントの安定性、サービス制限、およびセキュリティコンプライアンスについて責任を負いません。サードパーティのオープンソースコミュニティまたは企業の公式 Web サイトとコードホスティングプラットフォームの更新に細心の注意を払い、オープンソースライセンスを読んで遵守する必要があります。お客様は、サードパーティコンポーネントの使用によるアプリケーション開発、メンテナンス、トラブルシューティング、およびセキュリティに関連する潜在的なリスクについて責任を負います。

次の表に、クラウドネイティブ AI スイートでサポートされている推論サービスの種類を示します。

推論サービスの種類	説明	参照
共有 GPU を使用する推論タスク	GPU 使用率を向上させる場合は、Arena を使用して、同じ GPU を使用する複数の推論タスクを送信し、GPU メモリと計算能力を共有できます。	共有 GPU リソースを使用するための推論タスクの送信
TensorFlow モデルからデプロイされた推論サービス	Arena と TensorFlow Serving を使用して、TensorFlow モデルを推論サービスとしてデプロイできます。	TensorFlow モデルを推論サービスとしてデプロイする
PyTorch モデルからデプロイされた推論サービス	NVIDIA Triton Inference Server または TorchServe を使用して、PyTorch モデルを推論サービスとしてデプロイできます。	共有 GPU リソースを使用するための推論タスクの送信
コンテナ化されたエラスティック推論サービス	Elastic Compute Service (ECS) または Elastic Container Instance にエラスティック推論サービスをデプロイできます。これにより、弾力性が向上し、コストが削減されます。	Elastic Container Instance ベースのエラスティック推論 ECS ベースのエラスティック推論