すべてのプロダクト
Search
ドキュメントセンター

:KServe コンポーネントのデプロイ

最終更新日:Feb 11, 2025

KServe は、Kubernetes に基づいた機械学習モデルのサービングフレームワークです。 TFServing、TorchServe、Triton、その他の推論サーバーなど、1 つまたは複数のトレーニング済みモデルを Kubernetes CustomResourceDefinitions (CRD) として、モデルサービングランタイムにデプロイできます。 モデルのデプロイ、更新、およびスケーリングのプロセスが簡素化、高速化されます。 KServe のコアコンポーネントは KServe Controller です。 コンソールから KServe Controller をインストールして、リクエストトラフィックに基づく自動スケーリングなどの機能を使用できます。

KServe の概要

KServe は、Kubernetes に基づいた機械学習モデルサービングフレームワークです。 KServe では、シンプルな Kubernetes CustomResourceDefinitions (CRD) 使用して、TFServing、TorchServe、Triton推論サーバーなどの 1 つ以上のトレーニング済みモデルをモデルサービングランタイムにデプロイできます。 ModelServer と MLServer は、KServe で機械学習モデルのデプロイと管理に使用されるモデルサービングランタイムです。 これらのモデルサービングランタイムでは、すぐに使用できるモデル提供を使用できます。 ModelServer は、KServe 予測プロトコル v1 で実装された Python モデルサービングランタイムです。 MLServer は、REST および gRPC で KServe 予測プロトコル v2 を実装します。 複雑なユースケース用のカスタムモデルサーバーを構築することもできます。 さらに、KServe は基本的な API プリミティブを提供し、カスタムモデルサービングランタイムを簡単に構築できます。 BentoML などの他のツールを使用して、カスタムモデルサービングイメージを作成できます。

Knative InferenceService を使用してモデルをデプロイした後、KServe が提供する以下のサーバーレス機能を使用できます。

  • ゼロにスケール

  • 1 秒あたりのリクエスト数 (RPS) 、同時実行数、CPU および GPU メトリクスに基づく自動スケーリング

  • バージョン管理

  • トラフィック管理

  • セキュリティ認証

  • すぐに使用可能なメトリクス

KServe コントローラー

KServe コントローラーは、KServe の主要コンポーネントです。 KServe コントローラーでは、カスタムInferenceService リソースを管理し、リソースのスケーリングを自動化するために Knative Services を作成およびデプロイできます。 KServe コントローラーは、トラフィック量に基づいた Knative サービスのデプロイをスケーリングできます。 Knative Service にリクエストが送信されない場合、KServe コントローラーは Service ポッドを自動的にゼロにスケールします。 自動スケーリングにより、リソースを提供するモデルをより効率的に活用し、リソースの無駄を防ぎます。

image

前提条件

Knativeはクラスターにデプロイされています。 詳細については、「Knativeのデプロイ」「」をご参照ください。

KServe のデプロイ

  1. ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、[アプリケーション] > [ネイティブ] を選択します。

  3. [コンポーネント] タブで [KServe] を確認し、[操作] 列の [デプロイ] をクリックします。 画面の指示に従ってデプロイを完了します。

    KServeコンポーネントの [ステータス] 列に [デプロイ済み] と表示された場合、コンポーネントはデプロイされています。

関連ドキュメント

コンポーネントのデプロイ後、KServe に基づく推論サービスをすばやくデプロイできます。