すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:PAIコンソールでモデルサービスをデプロイする

最終更新日:Aug 22, 2024

Platform for AI (PAI) のElastic Algorithm Service (EAS) を使用すると、トレーニング済みモデルを推論サービスまたはAIを利用したwebアプリケーションとして展開できます。 オープンソースコミュニティからトレーニングまたはトレーニングしたモデルを使用できます。 EASは、さまざまな方法で取得されるモデルを展開するための複数のメソッドを提供します。 EASは、PAIコンソールでモデルをオンラインサービスとして迅速に展開するために使用できるさまざまなシナリオベースの展開方法も提供します。 このトピックでは、PAIコンソールでモデルを展開し、EASオンラインサービスを管理する方法について説明します。

前提条件

訓練されたモデルが得られる。

背景情報

コンソールでモデルを展開し、EASオンラインサービスを管理できます。

  • コンソールでのモデルのアップロードとデプロイ

    次のいずれかの方法を使用してモデルをデプロイできます。

    • カスタム展開: カスタム展開を使用すると、モデルをより柔軟に展開できます。 画像、モデル、またはプロセッサを使用して、AIを利用したwebアプリケーションまたは推論サービスとしてモデルをデプロイできます。

    • シナリオベースのモデル展開: EASは、ModelScope、Hugging Face、Triton、TFServing、Stable Diffusion (AIペインティング用) 、事前トレーニング済みのラージランゲージモデル (LLM) など、さまざまなモデルに適したさまざまなシナリオ固有の展開ソリューションを提供します。。 EASは、これらの展開シナリオに簡易展開ソリューションを提供します。

  • オンラインモデルサービスの管理

    サービスの詳細の表示、サービスリソース構成の更新、デプロイされたモデルサービスのバージョンの追加、リソースのスケーリングなど、デプロイされたモデルサービスをPAIコンソールで管理できます。

コンソールでのモデルのアップロードとデプロイ

Elastic Algorithm Service (EAS) ページで、トレーニングしたモデルまたはオープンソースコミュニティから取得したパブリックモデルをアップロードして、モデルをオンラインモデルサービスとして展開できます。

ステップ1: Elastic Algorithm Service (EAS) ページに移動

  1. PAIコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。

  3. 左側のナビゲーションウィンドウで、[モデル展開] > [Elastic Algorithm Service (EAS)] を選択します。 Elastic Algorithm Service (EAS) ページが表示されます。

ステップ2: デプロイ方法の選択

  1. On the推論サービスタブをクリックします。サービスのデプロイ.

  2. 表示されるページで、デプロイ方法を選択します。

    デプロイ方法

    説明

    カスタムモデルの配置

    カスタム配置

    より柔軟な展開方法。 プロセッサを使用するか、プリセットイメージとサードパーティのコードライブラリを構成し、モデルとコードをマウントし、コマンドを実行することで、モデルをオンライン推論サービスとして迅速にデプロイできます。 詳細については、このトピックの「カスタムデプロイメントのパラメーターの設定」をご参照ください。

    JSONデプロイ

    モデルは、JSONファイルのコンテンツに基づいてデプロイされます。 詳細については、このトピックの「JSONデプロイメントのパラメーターの設定」をご参照ください。

    シナリオベースのモデル展開

    説明

    各シナリオのパラメーターの詳細については、このトピックの「シナリオベースのデプロイのパラメーターの設定」をご参照ください。

    AIペインティング-SD Web UIデプロイ

    この方法では、オープンソースのSD webアプリケーションに基づいてAIペイントサービスをすばやくデプロイし、webアプリケーションまたはAPI操作を使用してデプロイされたサービスを呼び出すことができます。 EASは、ユーザーとコンピューティングリソースを分離して、エンタープライズレベルのアプリケーションを実装します。

    大言語モデル (LLM)

    この方法では、webページとAPI操作を使用して呼び出すことができるwebアプリケーションとしてLLMをすばやくデプロイできます。 LangChainを使用して、アプリケーションをビジネスデータと統合し、エンタープライズナレッジベースを構築して、インテリジェントなダイアログやその他の自動化サービスを実装できます。 また、PAI-Bladeが提供する組み込みの推論アクセラレーションを使用して、コスト効率の高い方法で簡易モデルのデプロイを実装することもできます。

    RAGベースのスマート対話展開

    この方法では、LLMとRAG (Retrieval-Augmented Generation) 技術に基づいたインテリジェントな対話システムを展開できます。 このシステムは、Q&A、要約、およびカスタム知識ベースに依存する他の自然言語処理タスクに適しています。

    AIビデオ生成: ComfyUIベースのデプロイ

    この方法では、ComfyUIおよびStable video Diffusionモデルに基づいてAIビデオ生成用のwebアプリケーションをデプロイできます。 EASは、短いビデオプラットフォームやアニメーション制作などの業界向けに、AIを利用したテキストからビデオへの生成を迅速に実装するのに役立ちます。

    ModelScopeモデルの展開

    この方法では、オープンソースのModelScopeモデルをすばやくデプロイし、モデルサービスを開始できます。

    ハグ顔モデル展開

    この方法では、オープンソースのHugging Faceモデルをすばやくデプロイし、モデルサービスを開始できます。

    トライトンの展開

    この方法を使用すると、TensorRT、TensorFlow、PyTorch、ONNXなどのAIフレームワークを使用するモデルを、Triton Server推論サービスを使用してオンライン推論サービスとしてすばやくデプロイできます。

    TensorFlowサービングの展開

    この方法では、TensorFlow Servingエンジンを使用して、標準のSavedModel形式のモデルをオンラインサービスとしてすばやくデプロイできます。

手順3: サービスのデプロイ

デプロイ方法に基づいてパラメーターを設定します。 パラメーターを設定したら、[デプロイ] をクリックします。 サービスのステータスが実行中に変わると、サービスがデプロイされます。

カスタムデプロイメントのパラメーターの設定

  1. サービスの作成ページでパラメーターを設定します。モデルサービス情報セクションにアクセスします。

    • サービス名: プロンプトに従ってサービス名を選択します。

    • 展開方法: 次の展開方法がサポートされています。イメージを使用してサービスを展開イメージを使用してWebアプリを展開モデルとプロセッサを使用してサービスを展開します。

      説明

      AIコンテンツの生成やビデオ処理などの複雑なモデルの推論シナリオでは、推論の完了に時間がかかります。 [非同期サービス] をオンにして、非同期推論サービスを実装することを推奨します。 詳細については、「非同期推論サービス」をご参照ください。 非同期推論サービスは、[デプロイ方法] パラメーターを [イメージを使用したサービスのデプロイ] または [モデルとプロセッサを使用したサービスのデプロイ] に設定した場合にのみ使用できます。

      • Imageを使用してサービスをデプロイする: イメージ、コード、およびモデルをマウントしてAI推論サービスを迅速にデプロイする場合は、このデプロイ方法を選択します。

      • イメージを使用してWebアプリをデプロイする: イメージ、コード、およびモデルをマウントしてwebアプリケーションをすばやくデプロイする場合は、このデプロイ方法を選択します。

      • モデルとプロセッサを使用したサービスのデプロイ: 組み込みプロセッサやカスタムプロセッサなどのモデルとプロセッサを使用してAI推論サービスをデプロイする場合は、このデプロイ方法を選択します。 詳細については、「組み込みプロセッサを使用したモデルサービスのデプロイ」および「カスタムプロセッサを使用したサービスのデプロイ」をご参照ください。

      イメージを使用したサービスまたはwebアプリケーションのデプロイ

      次の表では、デプロイ方法パラメーターを [イメージを使用したサービスのデプロイ] または [イメージを使用したWebアプリのデプロイ] に設定した場合のパラメーターについて説明します。

      パラメーター

      説明

      画像の選択

      有効な値:

      • PAIイメージ: Alibaba Cloudイメージを選択します。

      • カスタムイメージ: カスタムイメージを選択します。 カスタムイメージの作成方法の詳細については、「イメージの表示と追加」をご参照ください。

      • イメージアドレス: モデルサービスのデプロイに使用されるイメージのURL。 例: registry.cn-shanghai.aliyuncs.com/xxx/image:tag。 PAIが提供するイメージまたはカスタムイメージのアドレスを指定できます。 イメージアドレスの取得方法の詳細については、「イメージの表示と追加」をご参照ください。

        重要

        指定されたイメージは、デプロイするサービスと同じリージョンにある必要があります。

        プライベートリポジトリのイメージを使用する場合は、[enter] をクリックし、イメージリポジトリのユーザー名パスワードを指定します。

      モデル設定の指定

      [モデル設定の指定] をクリックしてモデルを設定します。 次のいずれかの方法でモデルファイルを設定できます。

      • OSSパスのマウント

        • ソースOSSバケットのパス。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたOSSパスからファイルを読み取るために使用されます。

      • マウントNASファイルシステム

        • NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。 汎用NASファイルシステムの作成方法の詳細については、「ファイルシステムの作成」をご参照ください。

        • NASソースパス: ファイルが保存されているNASパス。

        • マウントパス: サービスインスタンスのマウントパス。 マウントパスは、NASファイルシステムからファイルを読み取るために使用されます。

      • マウントPAIモデル

        • 使用する既存のモデルのモデル名とモデルバージョンのパラメーターを設定します。 登録済みモデルの表示方法の詳細については、「モデルの登録と管理」をご参照ください。

        • マウントパス: サービスインスタンスのマウントパス。 マウントパスは、モデルファイルを読み取るために使用されます。

      コード設定

      [コード設定の指定] をクリックしてコードを設定します。 次のいずれかのマウント方法を使用して、サービス展開プロセスで必要なコードにアクセスできます。

      • OSSパスのマウント

        • ソースOSSバケットのパス。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたOSSパスからファイルを読み取るために使用されます。

      • マウントNASファイルシステム

        • NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。

        • NASソースパス: ファイルが保存されているNASパス。

        • マウントパス: サービスインスタンスのマウントパス。 マウントパスは、指定されたNASパスからファイルを読み取るために使用されます。

      • マウントGitパス

        • Git Repository Address: Gitリポジトリのアドレス。

        • マウントパス: サービスインスタンスのマウントパス。 パスは、Gitディレクトリからコードファイルを読み取るために使用されます。

      • マウントPAIデータセット

        • 既存のデータセットを選択します。 利用可能なデータセットがない場合は、[データセットの作成] をクリックしてデータセットを作成できます。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIデータセットからファイルを読み取るために使用されます。

      • マウントPAIコード

        • 既存のコードビルドを選択します。 使用できるコードビルドがない場合は、[コードビルドの作成] をクリックしてコードビルドを作成できます。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIコードビルドからファイルを読み取るために使用されます。

      サードパーティのライブラリ

      [サードパーティライブラリの指定] をクリックして、サードパーティライブラリを設定します。 有効な値:

      • サードパーティライブラリ: フィールドでサードパーティライブラリを指定します。

      • requirements.txtのパス: フィールドにrequirements.txtファイルのパスを指定します。 requirements.txtファイルにサードパーティライブラリのアドレスを含める必要があります。

      環境変数

      [環境変数の指定] をクリックして環境変数を設定します。

      環境変数の名前と値を指定します。

      • 変数名: 環境変数の名前。

      • 変数値: 環境変数の値。

      実行コマンド

      イメージを実行するコマンド。 例: python/run.py

      また、イメージのデプロイ後にモデルサービスがリッスンするローカルHTTPポートであるポート番号も入力する必要があります。

      重要

      EASエンジンはポート8080と9090でリッスンするため、ポート8080と9090を指定できません。

      モデルとプロセッサを使用したサービスのデプロイ

      次の表では、[デプロイ方法] パラメーターを [モデルとプロセッサを使用したサービスのデプロイ] に設定した場合のパラメーターについて説明します。

      パラメーター

      説明

      モデルファイル

      有効な値:

      • OSSパスのマウント

        モデルファイルが保存されているOSSパスを選択します。

      • データのアップロード

        1. 現在のリージョンでOSSパスを選択します。

        2. [ローカルファイルの参照] をクリックし、アップロードするオンプレミスモデルファイルを選択します。 モデルファイルを空白の領域に直接ドラッグすることもできます。

      • Publicly AccessibleダウンロードURL

        [公開アクセス可能ダウンロードURL] を選択します。 次に、パラメータの下のフィールドに公開アクセス可能なURLを入力します。

      • モデルの選択

        使用する既存のモデルのモデル名とモデルバージョンのパラメーターを設定します。 登録済みモデルの表示方法の詳細については、「モデルの登録と管理」をご参照ください。

      プロセッサタイプ

      プロセッサのタイプ。 ビジネス要件に基づいて、組み込みの公式プロセッサまたはカスタムプロセッサを選択できます。 組み込みの公式プロセッサの詳細については、「組み込みプロセッサ」をご参照ください。

      モデルタイプ

      このパラメーターは、プロセッサタイプパラメーターをEasyVision(CPU)EasyVision(GPU)EasyTransfer(CPU)EasyTransfer(GPU)EasyNLP、またはEasyCVに設定した場合にのみ必要です。 使用可能なモデルタイプは、プロセッサタイプによって異なります。 ビジネス要件に基づいて、プロセッサタイプとモデルタイプのパラメーターを設定できます。

      プロセッサ言語

      このパラメーターは、[プロセッサタイプ] パラメーターを [カスタムプロセッサ] に設定した場合にのみ使用できます。

      有効な値: CppJava、およびpython

      プロセッサパッケージ

      このパラメーターは、[プロセッサタイプ] パラメーターを [カスタムプロセッサ] に設定した場合にのみ使用できます。 有効な値:

      • OSSファイルのインポート

        [OSSファイルのインポート] を選択します。 次に、プロセッサパッケージが保存されているOSSパスを選択します。

      • ローカルファイルのアップロード

        1. [ローカルファイルのアップロード] を選択します。

        2. 現在のリージョンでOSSパスを選択します。

        3. フォルダアイコンをクリックして、アップロードするオンプレミスのプロセッサパッケージを選択します。 プロセッサパッケージを空白領域に直接ドラッグすることもできます。

          パッケージが現在のリージョンのOSSパスにアップロードされます。 Processor Packageパラメーターは自動的に設定されます。

          説明

          オンプレミスのプロセッサパッケージをアップロードすることで、モデルのデプロイ中にプロセッサの読み込み速度を高速化できます。

      • Download from Internet

        [インターネットからダウンロード] を選択します。 次に、パブリックURLを入力します。

      プロセッサマスターファイル

      このパラメーターは、[プロセッサタイプ] パラメーターを [カスタムプロセッサ] に設定した場合にのみ使用できます。 プロセッサパッケージのメインファイルを指定します。

      マウント設定

      [マウント設定の指定] をクリックして、マウント方法を設定します。 次のいずれかのマウント方法を使用できます。

      • OSSパスのマウント

        • ソースOSSバケットのパス。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたOSSパスからファイルを読み取るために使用されます。

      • マウントNASファイルシステム

        • NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。

        • NASソースパス: ファイルが保存されているNASパス。

        • マウントパス: サービスインスタンスのマウントパス。 マウントパスは、指定されたNASパスからファイルを読み取るために使用されます。

      • マウントPAIデータセット

        • 既存のデータセットを選択します。 利用可能なデータセットがない場合は、[データセットの作成] をクリックしてデータセットを作成できます。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIデータセットからファイルを読み取るために使用されます。

      • マウントPAIコード

        • 既存のコードビルドを選択します。 使用できるコードビルドがない場合は、[コードビルドの作成] をクリックしてコードビルドを作成できます。

        • [マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIコードビルドからファイルを読み取るために使用されます。

      環境変数

      [環境変数の指定] をクリックして環境変数を設定します。

      環境変数の名前と値を指定します。

      • 変数名: 環境変数の名前。

      • 変数値: 環境変数の値。

  2. [サービスの作成] ページの [リソース配置情報] セクションで、パラメーターを設定します。 下表にパラメーターを示します。

    パラメーター

    説明

    リソースグループタイプ

    モデルをデプロイするリソースグループのタイプ。 パブリックリソースグループまたは専用リソースグループを使用してモデルをデプロイできます。 詳細については、「専用リソースグループの操作」をご参照ください。

    説明

    少数のタスクを実行し、レイテンシの要件が高くない場合は、パブリックリソースグループを使用することを推奨します。

    GPU共有

    このパラメーターは、[リソースグループタイプ] パラメーターを専用リソースグループに設定した場合にのみ使用できます。 詳細については、「GPU共有」をご参照ください。

    説明

    GPU共有機能は、ホワイトリスト内のユーザーのみが使用できます。 GPU共有機能を使用する場合は、チケットを起票してください

    インスタンス数

    単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

    [リソースグループタイプ] パラメーターを専用リソースグループに設定した場合、サービスインスタンスごとにCPUメモリ (MB) 、およびGPUパラメーターを設定する必要があります。

    リソース設定モード

    このパラメーターは、[リソースグループタイプ] パラメーターを [パブリックリソースグループ] に設定した場合にのみ使用できます。 このパラメータは、次の設定をサポートします。

    • 一般

      単一のCPUまたはGPUインスタンスタイプを選択できます。

    • コスト効率の高いリソース設定

      複数のインスタンスタイプを設定したり、プリエンプティブルインスタンスを使用したりできます。 詳細については、「複数のインスタンスタイプの指定」および「プリエンプティブルインスタンスの作成と使用」をご参照ください。

      • プリエンプティブルインスタンスの保護期間: プリエンプティブルインスタンスの保護期間を1時間に指定できます。 これは、システムが1時間の保護期間内にインスタンスへのアクセスを保証することを意味します。

      • デプロイ: [共通] インスタンスと [プリエンプティブルインスタンス] を同時に設定できます。 リソースは、インスタンスタイプが設定されているシーケンスに基づいて開始されます。 最大5つのリソースタイプを追加できます。 プリエンプティブルインスタンスを使用する場合、プリエンプティブルインスタンスの入札価格を設定する必要があります。

    Elasticリソースプール

    このパラメーターは、[リソースグループタイプ] パラメーターを専用リソースグループに設定した場合にのみ使用できます。

    [Elastic Resource Pool] をオンにし、[リソース設定モード] セクションの指示に基づいてリソースを設定できます。

    Elastic Resource Poolを有効にし、サービスのデプロイに使用する専用リソースグループが完全に占有されている場合、スケールアウト中に従量課金インスタンスがパブリックリソースグループに自動的に追加されます。 追加されたインスタンスはパブリックリソースとして課金されます。 パブリックリソースグループのインスタンスは、スケールイン中に最初にリリースされます。 詳細については、「Elasticリソースプール」をご参照ください。

    余分なシステムストレージ

    このパラメーターは、[リソースグループタイプ] パラメーターを [パブリックリソースグループ] に設定した場合にのみ使用できます。

    [Extra System Storage] をクリックして、EASサービス用に追加のシステムディスクを設定します。 単位は GB です。 有効な値: 0 ~ 2000 システムディスクに30 GBの無料クォータがあります。 フィールドに20を指定した場合、使用可能なストレージ容量は50 GBです。

    追加のシステムディスクは、容量と使用期間に基づいて課金されます。 詳細については、「EAS の課金」をご参照ください。

  3. オプションです。 では、VPC設定セクションでは、VPC,vSwitch、およびセキュリティグループ名パラメータを使用して、パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

    この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたelastic network interface (ENI) を使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

  4. オプションです。 [サービス設定] セクションで、パラメーターを設定します。 下表に、各パラメーターを説明します。

    パラメーター

    説明

    メモリキャッシング

    この機能を有効にすると、EASサービスのモデルファイルがオンプレミスディレクトリにキャッシュされ、データの読み取りが高速化され、待ち時間が短縮されます。 詳細については、「ローカルディレクトリのメモリキャッシュの有効化」をご参照ください。

    サービス応答タイムアウト期間の指定

    サービス応答のタイムアウト期間。 デフォルト値: 15。 単位は秒です。

    共有メモリ設定

    共有メモリのサイズ。 単位は GB です。

    スケーラブルなジョブモード

    この機能を有効にして、推論サービスを弾性ジョブサービスとしてデプロイできます。 詳細については、「エラスティックジョブの概要」をご参照ください。

    サービス呼び出しの保存

    この機能を有効にすると、すべてのサービス要求と応答をMaxComputeテーブルまたはSimple Log service (SLS) に永続的に保存できます。 スイッチをオンにして、[保存方法] を選択します。

    • MaxCompute

      • MaxComputeプロジェクト: ドロップダウンリストから既存のプロジェクトを選択します。 利用可能なプロジェクトがない場合は、[MaxComputeプロジェクトの作成] をクリックしてプロジェクトを作成できます。 詳細については、「MaxComputeプロジェクトの作成」トピックの「MaxComputeコンソールでのMaxComputeプロジェクトの作成」をご参照ください。

      • MaxComputeテーブル: テーブルの名前を指定します。 サービスをデプロイすると、システムはMaxComputeプロジェクトにテーブルを自動的に作成します。

    • シンプルなLog Service

      • SLSプロジェクトの選択: リソースを分離および制御するSLSプロジェクトを選択します。 利用可能なプロジェクトがない場合は、[SLSプロジェクトの作成] をクリックしてプロジェクトを作成します。 詳細については、「プロジェクトの管理」をご参照ください。

      • logstore: SLSでログを収集、保存、およびクエリするログストアを指定します。 サービスをデプロイすると、システムはSLSプロジェクトで指定したログストアを自動的に作成します。

    専用ゲートウェイ

    [専用ゲートウェイ] をクリックし、ドロップダウンリストから専用ゲートウェイを選択します。 専用ゲートウェイを設定して、アクセス制御を強化し、サービスアクセスのセキュリティと効率を向上させることができます。 詳細については、「専用ゲートウェイの使用」をご参照ください。

    ヘルスチェック

    サービスのヘルスチェックを設定できます。 詳細については、「ヘルスチェック機能の設定」をご参照ください。

    LLMインテリジェントルーター

    サービス用にLLMインテリジェントルーターを設定できます。 使用可能なインテリジェントルーターがない場合は、[LLMインテリジェントルーターの作成] をクリックしてインテリジェントルーターを作成できます。 詳細については、「LLMゲートウェイを使用した推論効率の向上」をご参照ください。

    LLMインテリジェントルーターは、LLM推論サービスとバインドできる特殊なEASサービスです。 LLM推論サービスが複数のバックエンドインスタンスに対応する場合、インテリジェントルーターはバックエンドの負荷に基づいてリクエストを動的に分散します。 これにより、計算能力とメモリ使用量がバックエンドインスタンス間でバランスよく分散され、クラスターリソースの利用率が向上します。

  5. [構成エディター] セクションで、サービスの構成がコードエディターに表示されます。 上記の手順に含まれていない設定項目を追加できます。 詳細については、「EASCMDクライアントを使用するコマンドの実行」トピックの「サービスの作成」セクションをご参照ください。

    image

JSONデプロイのパラメーターの設定

サービスのデプロイに使用するJSONファイルを準備します。 詳細については、「モデルサービスのパラメーター」をご参照ください。 [JSONデプロイ] ページで、JSONエディターにJSONファイルの内容を入力し、[デプロイ] をクリックします。 image

シナリオベースのモデル展開のパラメーターの設定

次のセクションでは、さまざまなシナリオのパラメーターについて説明します。

AIペインティング-SD Web UIデプロイ

パラメーター

説明

基本情報

サービス名

サービスの名前です。

エディション

有効な値:

  • Standard Edition

    Standard Editionは、個々のユーザーが一般的なテストとアプリケーションを展開するのに適しており、webアプリケーションとAPIの呼び出しをサポートします。

  • APIエディション

    API Editionは、API操作を呼び出してビジネスを統合する必要があるシナリオに適しています。 システムは自動的にサービスを非同期推論サービスに変換します。 詳細については、「非同期推論サービス」をご参照ください。

  • クラスター版WebUI

    Cluster Edition WebUIは、複数のメンバーがwebアプリケーションを使用してイメージを生成するチームワークシナリオに適しています。 このエディションは、各ユーザーが独立したモデルと出力パスを持つことを保証します。 バックエンドコンピューティングリソースは、費用対効果を改善するために集中的に共有され、スケジュールされる。

  • サーバーレス版

    Serverless Editionサービスのデプロイは無料です。 画像の生成に必要な時間のみに基づいて課金されます。 サービスは、リクエストに基づいてサービスを自動的にスケーリングします。 Serverless Editionサービスは、web UIを使用してのみ呼び出すことができます。

    説明

    Serverless Editionサービスは、中国 (上海) および中国 (杭州) リージョンでのみデプロイできます。

モデル設定

(1) コミュニティからダウンロードしたオープンソースモデルまたは微調整したモデルを使用する場合、(2) 出力データをデータソースに保存する場合、(3) サードパーティのプラグインまたは構成をインストールする必要があります。 [追加] をクリックしてモデル設定を設定します。 有効な値:

  • マウントOSS: OSSバケット内の空のファイルディレクトリ。 バケットの作成方法の詳細については、「バケットの作成」をご参照ください。 空のディレクトリを作成する方法の詳細については、「ディレクトリの管理」をご参照ください。

  • マウントNAS

    • NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。

    • NASソースパス: ファイルが保存されているNASパス。

リソース設定

インスタンス数

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 費用対効果を高めるために、ml.gu7i.c16m60.1-gu30インスタンスタイプを使用することを推奨します。

VPC設定 (オプション)

[VPC]

パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

vSwitch

セキュリティグループ名

大言語モデル (LLM)

パラメーター

説明

基本情報

サービス名

サービスの名前です。

モデルソース

有効な値:

  • オープンソースモデル: モデルタイプドロップダウンリストからモデルを選択すると、モデルをアップロードすることなく、組み込みのLLMをすばやくロードおよびデプロイできます。

  • カスタム微調整モデル: 微調整モデルをマウントするためのモデル設定を構成し、モデルをデプロイするためのパラメーターを構成する必要があります。

モデルタイプ

モデルカテゴリを選択します。

モデル設定

このパラメーターは、モデルソースパラメーターをカスタム微調整モデルに設定した場合にのみ必要です。

有効な値:

  • マウントOSS: 微調整されたモデルが格納されているOSSバケットディレクトリ。

  • マウントNAS

    • NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。

    • NASソースパス: 微調整されたモデルが格納されているNASファイルシステムのソースパス。

  • マウントPAIモデル: モデル名とモデルバージョンを指定して登録モデルを選択します。 モデルの登録方法の詳細については、「モデルの登録と管理」をご参照ください。

リソース設定

インスタンス数

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 費用対効果を高めるために、ml.gu7i.c16m60.1-gu30インスタンスタイプを使用することを推奨します。

VPC設定 (オプション)

[VPC]

パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

vSwitch

セキュリティグループ名

RAGベースのLLMチャットボットの展開

パラメーター

説明

基本情報

サービス名

サービスの名前です。

モデルソース

有効な値:

  • オープンソースモデル: モデルタイプドロップダウンリストからモデルを選択すると、モデルをアップロードすることなく、組み込みのLLMをすばやくロードおよびデプロイできます。

  • カスタム微調整モデル: 微調整モデルをマウントするためのモデル設定を構成し、モデルをデプロイするためのパラメーターを構成する必要があります。

モデルタイプ

モデルカテゴリを選択します。

リソース設定

[インスタンス数]

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

  • モデルソースパラメーターをオープンソースモデルに設定した場合、システムはデフォルト値として選択されたモデルタイプに基づいてインスタンスタイプを自動的に選択します。

  • モデルソースパラメーターを [カスタム微調整モデル] に設定した場合、モデルに一致するインスタンスタイプを選択します。 詳細については、「」をご参照ください。別のオープンソースLLMに切り替えるにはどうすればよいですか? 「EASでLLMを迅速にデプロイする」トピックのセクション。

推論の加速

推論アクセラレーションは、A10またはGU30インスタンスにデプロイされているQwen、Llama2、ChatGLM、またはBaichuan2モデルに対して有効にできます。 次の推論アクセラレーションメソッドが提供されます。

  • BladeLLM推論アクセラレーション: BladeLLM推論アクセラレーションエンジンは、高い同時実行性と低いレイテンシを保証します。 BladeLLMを使用すると、費用対効果の高い方法でLLM推論を高速化できます。

  • オープンソースvLLM推論アクセラレーション

ベクトルデータベース设定

ベクトルデータベースとしてデータベースを選択します。 有効な値: FAISS、Elasticsearch、Milvus、Hologres、AnalyticDB。 ベクターデータベースを作成および構成する方法の詳細については、「手順1: ベクターデータベースの準備」および「手順2: RAGサービスのデプロイ」をご参照ください。

VPC設定 (オプション)

[VPC]

  • HologresまたはElasticsearchを使用する場合 ベクトルデータベースを構築するには、ベクトルデータベースがデプロイされているVPCを選択する必要があります。

  • Faissを使用してベクターデータベースを構築する場合、VPCを設定する必要はありません。

vSwitch

セキュリティグループ名

AIビデオ生成: ComfyUIベースのデプロイ

パラメーター

説明

基本情報

サービス名

モデルサービスの名前。

エディション

サービスのエディション。 有効な値:

  • Standard Edition: サービスが単一のインスタンスにデプロイされているときに、単一のユーザーがweb UIを使用して、またはAPI操作を使用してサービスを呼び出すシナリオに適しています。

  • API Edition: 同時実行性の高いシナリオに適しています。 システムは、サービスを非同期サービスとして自動的にデプロイします。 このエディションは、API操作を使用したサービス呼び出しのみをサポートします。

  • Cluster Edition WebUI: 複数のユーザーが同時にweb UIを使用してサービスを呼び出す場合に適しています。 このエディションは、web UIを使用したサービス呼び出しのみをサポートします。 Cluster Editionサービスの仕組みについては、「Cluster Editionサービスの原則」をご参照ください。

各エディションのシナリオについては、このトピックの「背景情報」をご参照ください。

モデル設定

微調整されたモデルをデプロイする場合は、ComfyUIプラグインをインストールするか、API操作を使用してAPI EditionまたはStandard Editionサービスを呼び出す場合は、[追加] をクリックしてモデルを構成します。 これにより、モデルとプラグインのアップロードと推論結果の取得が容易になります。 有効な値:

  • OSSのマウント: imageアイコンをクリックして、既存のOSSディレクトリを選択します。

  • NASのマウント: NASマウントターゲットとNASソースパスを設定します。

以降の手順で、カスタムモデルとComfyUIプラグインを特定のOSSまたはNASパスにアップロードできます。 詳細については、このトピックの「カスタムモデルとComfyUIプラグインをマウントする方法」を参照してください。

リソース設定

インスタンス数

[Standard Edition] を選択した場合、インスタンス数を1に設定することを推奨します。

リソース設定

GU30、A10、またはT4 GPUタイプを使用することを推奨します。 デフォルトでは、GPU-accelerated > ml.gu7i.c16m60.1-gu30インスタンスタイプを使用して費用対効果を確保します。

説明

ComfyUIはシングルGPUモードのみをサポートしています。つまり、タスクはシングルGPUインスタンスまたは複数のシングルGPUインスタンスで実行できます。 ComfyUIはマルチGPU同時動作をサポートしていません。

ModelScopeモデルの展開

パラメーター

説明

基本情報

サービス名

サービスの名前です。

モデルの選択

ドロップダウンリストからModelScopeモデルを選択します。

モデルバージョン

ドロップダウンリストからモデルバージョンを選択します。 デフォルトでは、最新バージョンが使用されます。

モデルタイプ

モデルを選択すると、システムはモデルタイプパラメータを自動的に設定します。

リソース設定

インスタンス数

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。

VPC設定 (オプション)

[VPC]

パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

vSwitch

セキュリティグループ名

ハグ顔モデル展開

パラメーター

説明

基本情報

サービス名

サービスの名前です。

モデルID

ハグ顔モデルのID。 例: distilbert-base-uncased-finetuned-sst-2-英語

モデルタイプ

ハグ顔モデルのタイプ。 例: テキスト分類。

モデルバージョン

ハグ顔モデルのバージョン。 例: main.

リソース設定

インスタンス数

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。

VPC設定 (オプション)

[VPC]

パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

vSwitch

セキュリティグループ名

トライトンの展開

パラメーター

説明

基本情報

サービス名

サービスの名前です。

モデル設定

展開するモデルがTritonの構造要件を満たしていることを確認します。 詳細については、「Triton Serverを使用したモデル展開」をご参照ください。 モデルを準備したら、次のいずれかの方法を選択してモデルをデプロイします。

  • OSSのマウント: モデルが保存されているOSSバケットディレクトリを選択します。

  • マウントNAS

    • NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。 汎用NASファイルシステムの作成方法の詳細については、「ファイルシステムの作成」をご参照ください。

    • NASソースパス: NASのモデルのソースパス。

  • マウントPAIモデル: モデル名とモデルバージョンを指定して登録モデルを選択します。 モデルの登録方法の詳細については、「モデルの登録と管理」をご参照ください。

リソース設定

インスタンス数

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースのみがサポートされています。

VPC設定 (オプション)

[VPC]

パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

vSwitch

セキュリティグループ名

TensorFlowサービングのデプロイ

パラメーター

説明

基本情報

サービス名

サービスの名前です。

デプロイ方法

次の配置方法がサポートされています。

  • Standard Model Deployment: 単一モデルサービスのデプロイに使用されます。

  • 構成ファイルの配置: マルチモデルサービスの配置に使用されます。

モデル設定

TensorFlow Servingには、デプロイされたモデルに固有の構造要件があります。 詳細については、「TensorFlow Servingを使用したモデル展開」をご参照ください。

  • [デプロイ方法] パラメーターを [標準モデルのデプロイ] に設定した場合、モデルファイルが保存されるOSSバケットディレクトリを設定する必要があります。

  • [配置方法] パラメーターを [構成ファイルの配置] に設定した場合、次のパラメーターを設定する必要があります。

    • OSS: モデルが保存されているOSSバケットディレクトリ。

    • マウントパス: サービスインスタンスのマウントパス。 マウントパスは、モデルファイルを読み取るために使用されます。

    • 設定ファイル: 設定ファイルが保存されているOSSパス。

リソース設定

インスタンス数

コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。

リソース設定

ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。

VPC設定 (オプション)

[VPC]

パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。

この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。

vSwitch

セキュリティグループ名

EASでオンラインモデルサービスを管理する

Elastic Algorithm Service (EAS) ページの [推論サービス] タブで、デプロイされたサービスを表示し、サービスを停止、開始、または削除できます。

警告

モデルサービスを停止または削除すると、モデルサービスに依存するリクエストは失敗します。 作業は慎重に行ってください。

  • サービスの詳細の表示

    • 管理するサービスの名前をクリックして、[サービスの詳細] ページに移動します。 [サービスの詳細] ページで、サービスの基本情報、インスタンス、および構成を表示できます。

    • [サービスの詳細] ページで、さまざまなタブをクリックして、サービスの監視、ログ、および展開イベントに関する情報を表示できます。

  • コンテナーログの表示

    EASは、サービスインスタンスレベルでログ集約とフィルタリングを実装します。 サービスインスタンスに障害が発生した場合、コンテナログに基づいてエラーメッセージをトラブルシューティングできます。

    1. サービスの名前をクリックして、[サービスの詳細] ページに移動します。

    2. [サービスインスタンス] セクションで、[操作] 列の [コンテナー] をクリックします。

    3. [コンテナー] ペインで、[操作] 列の [ログ] をクリックします。

  • サービスリソース構成の更新

    [サービスの詳細] タブで、[リソース情報] セクションの [リソース設定] をクリックします。 [リソース設定] ダイアログボックスで、サービスの実行に使用するリソースを更新します。 詳細については、「コンソールでのモデルのアップロードとデプロイ」をご参照ください。

  • デプロイされたモデルサービスのバージョンを追加する

    EAS-Online Model Servicesページで、更新するサービスを見つけ、[操作] 列の [サービスの更新] をクリックします。 詳細については、「コンソールでのモデルのアップロードとデプロイ」をご参照ください。

    警告

    モデルサービスのバージョンを追加すると, サービスが一時的に中断されます。 その結果、サービスに依存する要求は、サービスが回復するまで失敗する。 作業は慎重に行ってください。

    サービスを更新した後、[現在のバージョン] 列のバージョン番号をクリックして、[バージョン情報] を表示するか、サービスのバージョンを変更します。 image

  • リソースのスケール

    [EAS-Online Model Services] ページで、管理するサービスを見つけ、[操作] 列の [スケール] をクリックします。 [スケール] ダイアログボックスで、[インスタンス] の数を指定して、モデルサービスの実行に使用するインスタンスを調整します。

  • 自動スケーリングの有効化

    サービスの自動スケーリングを設定して、ビジネス要件に基づいてEASでオンラインモデルサービスを実行するために使用されるリソースをサービスが自動的に調整できるようにすることができます。 詳細については、「水平自動スケーリング機能の有効化または無効化」トピックの「方法1: コンソールでの水平自動スケーリング機能の管理」セクションをご参照ください。

関連ドキュメント