Platform for AI (PAI) のElastic Algorithm Service (EAS) を使用すると、トレーニング済みモデルを推論サービスまたはAIを利用したwebアプリケーションとして展開できます。 オープンソースコミュニティからトレーニングまたはトレーニングしたモデルを使用できます。 EASは、さまざまな方法で取得されるモデルを展開するための複数のメソッドを提供します。 EASは、PAIコンソールでモデルをオンラインサービスとして迅速に展開するために使用できるさまざまなシナリオベースの展開方法も提供します。 このトピックでは、PAIコンソールでモデルを展開し、EASオンラインサービスを管理する方法について説明します。
前提条件
訓練されたモデルが得られる。
背景情報
コンソールでモデルを展開し、EASオンラインサービスを管理できます。
次のいずれかの方法を使用してモデルをデプロイできます。
カスタム展開: カスタム展開を使用すると、モデルをより柔軟に展開できます。 画像、モデル、またはプロセッサを使用して、AIを利用したwebアプリケーションまたは推論サービスとしてモデルをデプロイできます。
シナリオベースのモデル展開: EASは、ModelScope、Hugging Face、Triton、TFServing、Stable Diffusion (AIペインティング用) 、事前トレーニング済みのラージランゲージモデル (LLM) など、さまざまなモデルに適したさまざまなシナリオ固有の展開ソリューションを提供します。。 EASは、これらの展開シナリオに簡易展開ソリューションを提供します。
サービスの詳細の表示、サービスリソース構成の更新、デプロイされたモデルサービスのバージョンの追加、リソースのスケーリングなど、デプロイされたモデルサービスをPAIコンソールで管理できます。
コンソールでのモデルのアップロードとデプロイ
Elastic Algorithm Service (EAS) ページで、トレーニングしたモデルまたはオープンソースコミュニティから取得したパブリックモデルをアップロードして、モデルをオンラインモデルサービスとして展開できます。
ステップ1: Elastic Algorithm Service (EAS) ページに移動
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、 を選択します。 Elastic Algorithm Service (EAS) ページが表示されます。
ステップ2: デプロイ方法の選択
On the推論サービスタブをクリックします。サービスのデプロイ.
表示されるページで、デプロイ方法を選択します。
デプロイ方法
説明
カスタムモデルの配置
カスタム配置
より柔軟な展開方法。 プロセッサを使用するか、プリセットイメージとサードパーティのコードライブラリを構成し、モデルとコードをマウントし、コマンドを実行することで、モデルをオンライン推論サービスとして迅速にデプロイできます。 詳細については、このトピックの「カスタムデプロイメントのパラメーターの設定」をご参照ください。
JSONデプロイ
モデルは、JSONファイルのコンテンツに基づいてデプロイされます。 詳細については、このトピックの「JSONデプロイメントのパラメーターの設定」をご参照ください。
シナリオベースのモデル展開
説明各シナリオのパラメーターの詳細については、このトピックの「シナリオベースのデプロイのパラメーターの設定」をご参照ください。
AIペインティング-SD Web UIデプロイ
この方法では、オープンソースのSD webアプリケーションに基づいてAIペイントサービスをすばやくデプロイし、webアプリケーションまたはAPI操作を使用してデプロイされたサービスを呼び出すことができます。 EASは、ユーザーとコンピューティングリソースを分離して、エンタープライズレベルのアプリケーションを実装します。
大言語モデル (LLM)
この方法では、webページとAPI操作を使用して呼び出すことができるwebアプリケーションとしてLLMをすばやくデプロイできます。 LangChainを使用して、アプリケーションをビジネスデータと統合し、エンタープライズナレッジベースを構築して、インテリジェントなダイアログやその他の自動化サービスを実装できます。 また、PAI-Bladeが提供する組み込みの推論アクセラレーションを使用して、コスト効率の高い方法で簡易モデルのデプロイを実装することもできます。
RAGベースのスマート対話展開
この方法では、LLMとRAG (Retrieval-Augmented Generation) 技術に基づいたインテリジェントな対話システムを展開できます。 このシステムは、Q&A、要約、およびカスタム知識ベースに依存する他の自然言語処理タスクに適しています。
AIビデオ生成: ComfyUIベースのデプロイ
この方法では、ComfyUIおよびStable video Diffusionモデルに基づいてAIビデオ生成用のwebアプリケーションをデプロイできます。 EASは、短いビデオプラットフォームやアニメーション制作などの業界向けに、AIを利用したテキストからビデオへの生成を迅速に実装するのに役立ちます。
ModelScopeモデルの展開
この方法では、オープンソースのModelScopeモデルをすばやくデプロイし、モデルサービスを開始できます。
ハグ顔モデル展開
この方法では、オープンソースのHugging Faceモデルをすばやくデプロイし、モデルサービスを開始できます。
トライトンの展開
この方法を使用すると、TensorRT、TensorFlow、PyTorch、ONNXなどのAIフレームワークを使用するモデルを、Triton Server推論サービスを使用してオンライン推論サービスとしてすばやくデプロイできます。
TensorFlowサービングの展開
この方法では、TensorFlow Servingエンジンを使用して、標準のSavedModel形式のモデルをオンラインサービスとしてすばやくデプロイできます。
手順3: サービスのデプロイ
デプロイ方法に基づいてパラメーターを設定します。 パラメーターを設定したら、[デプロイ] をクリックします。 サービスのステータスが実行中に変わると、サービスがデプロイされます。
カスタムデプロイメントのパラメーターの設定
サービスの作成ページでパラメーターを設定します。モデルサービス情報セクションにアクセスします。
サービス名: プロンプトに従ってサービス名を選択します。
展開方法: 次の展開方法がサポートされています。イメージを使用してサービスを展開、イメージを使用してWebアプリを展開、モデルとプロセッサを使用してサービスを展開します。
説明AIコンテンツの生成やビデオ処理などの複雑なモデルの推論シナリオでは、推論の完了に時間がかかります。 [非同期サービス] をオンにして、非同期推論サービスを実装することを推奨します。 詳細については、「非同期推論サービス」をご参照ください。 非同期推論サービスは、[デプロイ方法] パラメーターを [イメージを使用したサービスのデプロイ] または [モデルとプロセッサを使用したサービスのデプロイ] に設定した場合にのみ使用できます。
Imageを使用してサービスをデプロイする: イメージ、コード、およびモデルをマウントしてAI推論サービスを迅速にデプロイする場合は、このデプロイ方法を選択します。
イメージを使用してWebアプリをデプロイする: イメージ、コード、およびモデルをマウントしてwebアプリケーションをすばやくデプロイする場合は、このデプロイ方法を選択します。
モデルとプロセッサを使用したサービスのデプロイ: 組み込みプロセッサやカスタムプロセッサなどのモデルとプロセッサを使用してAI推論サービスをデプロイする場合は、このデプロイ方法を選択します。 詳細については、「組み込みプロセッサを使用したモデルサービスのデプロイ」および「カスタムプロセッサを使用したサービスのデプロイ」をご参照ください。
イメージを使用したサービスまたはwebアプリケーションのデプロイ
次の表では、デプロイ方法パラメーターを [イメージを使用したサービスのデプロイ] または [イメージを使用したWebアプリのデプロイ] に設定した場合のパラメーターについて説明します。
パラメーター
説明
画像の選択
有効な値:
PAIイメージ: Alibaba Cloudイメージを選択します。
カスタムイメージ: カスタムイメージを選択します。 カスタムイメージの作成方法の詳細については、「イメージの表示と追加」をご参照ください。
イメージアドレス: モデルサービスのデプロイに使用されるイメージのURL。 例:
registry.cn-shanghai.aliyuncs.com/xxx/image:tag
。 PAIが提供するイメージまたはカスタムイメージのアドレスを指定できます。 イメージアドレスの取得方法の詳細については、「イメージの表示と追加」をご参照ください。重要指定されたイメージは、デプロイするサービスと同じリージョンにある必要があります。
プライベートリポジトリのイメージを使用する場合は、[enter] をクリックし、イメージリポジトリのユーザー名とパスワードを指定します。
モデル設定の指定
[モデル設定の指定] をクリックしてモデルを設定します。 次のいずれかの方法でモデルファイルを設定できます。
OSSパスのマウント
ソースOSSバケットのパス。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたOSSパスからファイルを読み取るために使用されます。
マウントNASファイルシステム
NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。 汎用NASファイルシステムの作成方法の詳細については、「ファイルシステムの作成」をご参照ください。
NASソースパス: ファイルが保存されているNASパス。
マウントパス: サービスインスタンスのマウントパス。 マウントパスは、NASファイルシステムからファイルを読み取るために使用されます。
マウントPAIモデル
使用する既存のモデルのモデル名とモデルバージョンのパラメーターを設定します。 登録済みモデルの表示方法の詳細については、「モデルの登録と管理」をご参照ください。
マウントパス: サービスインスタンスのマウントパス。 マウントパスは、モデルファイルを読み取るために使用されます。
コード設定
[コード設定の指定] をクリックしてコードを設定します。 次のいずれかのマウント方法を使用して、サービス展開プロセスで必要なコードにアクセスできます。
OSSパスのマウント
ソースOSSバケットのパス。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたOSSパスからファイルを読み取るために使用されます。
マウントNASファイルシステム
NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。
NASソースパス: ファイルが保存されているNASパス。
マウントパス: サービスインスタンスのマウントパス。 マウントパスは、指定されたNASパスからファイルを読み取るために使用されます。
マウントGitパス
Git Repository Address: Gitリポジトリのアドレス。
マウントパス: サービスインスタンスのマウントパス。 パスは、Gitディレクトリからコードファイルを読み取るために使用されます。
マウントPAIデータセット
既存のデータセットを選択します。 利用可能なデータセットがない場合は、[データセットの作成] をクリックしてデータセットを作成できます。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIデータセットからファイルを読み取るために使用されます。
マウントPAIコード
既存のコードビルドを選択します。 使用できるコードビルドがない場合は、[コードビルドの作成] をクリックしてコードビルドを作成できます。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIコードビルドからファイルを読み取るために使用されます。
サードパーティのライブラリ
[サードパーティライブラリの指定] をクリックして、サードパーティライブラリを設定します。 有効な値:
サードパーティライブラリ: フィールドでサードパーティライブラリを指定します。
requirements.txtのパス: フィールドにrequirements.txtファイルのパスを指定します。 requirements.txtファイルにサードパーティライブラリのアドレスを含める必要があります。
環境変数
[環境変数の指定] をクリックして環境変数を設定します。
環境変数の名前と値を指定します。
変数名: 環境変数の名前。
変数値: 環境変数の値。
実行コマンド
イメージを実行するコマンド。 例:
python/run.py
また、イメージのデプロイ後にモデルサービスがリッスンするローカルHTTPポートであるポート番号も入力する必要があります。
重要EASエンジンはポート8080と9090でリッスンするため、ポート8080と9090を指定できません。
モデルとプロセッサを使用したサービスのデプロイ
次の表では、[デプロイ方法] パラメーターを [モデルとプロセッサを使用したサービスのデプロイ] に設定した場合のパラメーターについて説明します。
パラメーター
説明
モデルファイル
有効な値:
OSSパスのマウント
モデルファイルが保存されているOSSパスを選択します。
データのアップロード
現在のリージョンでOSSパスを選択します。
[ローカルファイルの参照] をクリックし、アップロードするオンプレミスモデルファイルを選択します。 モデルファイルを空白の領域に直接ドラッグすることもできます。
Publicly AccessibleダウンロードURL
[公開アクセス可能ダウンロードURL] を選択します。 次に、パラメータの下のフィールドに公開アクセス可能なURLを入力します。
モデルの選択
使用する既存のモデルのモデル名とモデルバージョンのパラメーターを設定します。 登録済みモデルの表示方法の詳細については、「モデルの登録と管理」をご参照ください。
プロセッサタイプ
プロセッサのタイプ。 ビジネス要件に基づいて、組み込みの公式プロセッサまたはカスタムプロセッサを選択できます。 組み込みの公式プロセッサの詳細については、「組み込みプロセッサ」をご参照ください。
モデルタイプ
このパラメーターは、プロセッサタイプパラメーターをEasyVision(CPU) 、EasyVision(GPU) 、EasyTransfer(CPU) 、EasyTransfer(GPU) 、EasyNLP、またはEasyCVに設定した場合にのみ必要です。 使用可能なモデルタイプは、プロセッサタイプによって異なります。 ビジネス要件に基づいて、プロセッサタイプとモデルタイプのパラメーターを設定できます。
プロセッサ言語
このパラメーターは、[プロセッサタイプ] パラメーターを [カスタムプロセッサ] に設定した場合にのみ使用できます。
有効な値: Cpp、Java、およびpython。
プロセッサパッケージ
このパラメーターは、[プロセッサタイプ] パラメーターを [カスタムプロセッサ] に設定した場合にのみ使用できます。 有効な値:
OSSファイルのインポート
[OSSファイルのインポート] を選択します。 次に、プロセッサパッケージが保存されているOSSパスを選択します。
ローカルファイルのアップロード
[ローカルファイルのアップロード] を選択します。
現在のリージョンでOSSパスを選択します。
フォルダアイコンをクリックして、アップロードするオンプレミスのプロセッサパッケージを選択します。 プロセッサパッケージを空白領域に直接ドラッグすることもできます。
パッケージが現在のリージョンのOSSパスにアップロードされます。 Processor Packageパラメーターは自動的に設定されます。
説明オンプレミスのプロセッサパッケージをアップロードすることで、モデルのデプロイ中にプロセッサの読み込み速度を高速化できます。
Download from Internet
[インターネットからダウンロード] を選択します。 次に、パブリックURLを入力します。
プロセッサマスターファイル
このパラメーターは、[プロセッサタイプ] パラメーターを [カスタムプロセッサ] に設定した場合にのみ使用できます。 プロセッサパッケージのメインファイルを指定します。
マウント設定
[マウント設定の指定] をクリックして、マウント方法を設定します。 次のいずれかのマウント方法を使用できます。
OSSパスのマウント
ソースOSSバケットのパス。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたOSSパスからファイルを読み取るために使用されます。
マウントNASファイルシステム
NASマウントターゲット: NASファイルシステムのマウントポイント。 EASサービスは、マウントポイントを使用してNASファイルシステムにアクセスします。
NASソースパス: ファイルが保存されているNASパス。
マウントパス: サービスインスタンスのマウントパス。 マウントパスは、指定されたNASパスからファイルを読み取るために使用されます。
マウントPAIデータセット
既存のデータセットを選択します。 利用可能なデータセットがない場合は、[データセットの作成] をクリックしてデータセットを作成できます。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIデータセットからファイルを読み取るために使用されます。
マウントPAIコード
既存のコードビルドを選択します。 使用できるコードビルドがない場合は、[コードビルドの作成] をクリックしてコードビルドを作成できます。
[マウントパス] セクションで、サービスインスタンスのマウントパスを指定します。 マウントパスは、指定されたPAIコードビルドからファイルを読み取るために使用されます。
環境変数
[環境変数の指定] をクリックして環境変数を設定します。
環境変数の名前と値を指定します。
変数名: 環境変数の名前。
変数値: 環境変数の値。
[サービスの作成] ページの [リソース配置情報] セクションで、パラメーターを設定します。 下表にパラメーターを示します。
パラメーター
説明
リソースグループタイプ
モデルをデプロイするリソースグループのタイプ。 パブリックリソースグループまたは専用リソースグループを使用してモデルをデプロイできます。 詳細については、「専用リソースグループの操作」をご参照ください。
説明少数のタスクを実行し、レイテンシの要件が高くない場合は、パブリックリソースグループを使用することを推奨します。
GPU共有
このパラメーターは、[リソースグループタイプ] パラメーターを専用リソースグループに設定した場合にのみ使用できます。 詳細については、「GPU共有」をご参照ください。
説明GPU共有機能は、ホワイトリスト内のユーザーのみが使用できます。 GPU共有機能を使用する場合は、チケットを起票してください。
インスタンス数
単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。
[リソースグループタイプ] パラメーターを専用リソースグループに設定した場合、サービスインスタンスごとにCPU、メモリ (MB) 、およびGPUパラメーターを設定する必要があります。
リソース設定モード
このパラメーターは、[リソースグループタイプ] パラメーターを [パブリックリソースグループ] に設定した場合にのみ使用できます。 このパラメータは、次の設定をサポートします。
一般
単一のCPUまたはGPUインスタンスタイプを選択できます。
コスト効率の高いリソース設定
複数のインスタンスタイプを設定したり、プリエンプティブルインスタンスを使用したりできます。 詳細については、「複数のインスタンスタイプの指定」および「プリエンプティブルインスタンスの作成と使用」をご参照ください。
プリエンプティブルインスタンスの保護期間: プリエンプティブルインスタンスの保護期間を1時間に指定できます。 これは、システムが1時間の保護期間内にインスタンスへのアクセスを保証することを意味します。
デプロイ: [共通] インスタンスと [プリエンプティブルインスタンス] を同時に設定できます。 リソースは、インスタンスタイプが設定されているシーケンスに基づいて開始されます。 最大5つのリソースタイプを追加できます。 プリエンプティブルインスタンスを使用する場合、プリエンプティブルインスタンスの入札価格を設定する必要があります。
Elasticリソースプール
このパラメーターは、[リソースグループタイプ] パラメーターを専用リソースグループに設定した場合にのみ使用できます。
[Elastic Resource Pool] をオンにし、[リソース設定モード] セクションの指示に基づいてリソースを設定できます。
Elastic Resource Poolを有効にし、サービスのデプロイに使用する専用リソースグループが完全に占有されている場合、スケールアウト中に従量課金インスタンスがパブリックリソースグループに自動的に追加されます。 追加されたインスタンスはパブリックリソースとして課金されます。 パブリックリソースグループのインスタンスは、スケールイン中に最初にリリースされます。 詳細については、「Elasticリソースプール」をご参照ください。
余分なシステムストレージ
このパラメーターは、[リソースグループタイプ] パラメーターを [パブリックリソースグループ] に設定した場合にのみ使用できます。
[Extra System Storage] をクリックして、EASサービス用に追加のシステムディスクを設定します。 単位は GB です。 有効な値: 0 ~ 2000 システムディスクに30 GBの無料クォータがあります。 フィールドに20を指定した場合、使用可能なストレージ容量は
50 GB
です。追加のシステムディスクは、容量と使用期間に基づいて課金されます。 詳細については、「EAS の課金」をご参照ください。
オプションです。 では、VPC設定セクションでは、VPC,vSwitch、およびセキュリティグループ名パラメータを使用して、パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。
この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたelastic network interface (ENI) を使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。
オプションです。 [サービス設定] セクションで、パラメーターを設定します。 下表に、各パラメーターを説明します。
パラメーター
説明
メモリキャッシング
この機能を有効にすると、EASサービスのモデルファイルがオンプレミスディレクトリにキャッシュされ、データの読み取りが高速化され、待ち時間が短縮されます。 詳細については、「ローカルディレクトリのメモリキャッシュの有効化」をご参照ください。
サービス応答タイムアウト期間の指定
サービス応答のタイムアウト期間。 デフォルト値: 15。 単位は秒です。
共有メモリ設定
共有メモリのサイズ。 単位は GB です。
スケーラブルなジョブモード
この機能を有効にして、推論サービスを弾性ジョブサービスとしてデプロイできます。 詳細については、「エラスティックジョブの概要」をご参照ください。
サービス呼び出しの保存
この機能を有効にすると、すべてのサービス要求と応答をMaxComputeテーブルまたはSimple Log service (SLS) に永続的に保存できます。 スイッチをオンにして、[保存方法] を選択します。
MaxCompute
MaxComputeプロジェクト: ドロップダウンリストから既存のプロジェクトを選択します。 利用可能なプロジェクトがない場合は、[MaxComputeプロジェクトの作成] をクリックしてプロジェクトを作成できます。 詳細については、「MaxComputeプロジェクトの作成」トピックの「MaxComputeコンソールでのMaxComputeプロジェクトの作成」をご参照ください。
MaxComputeテーブル: テーブルの名前を指定します。 サービスをデプロイすると、システムはMaxComputeプロジェクトにテーブルを自動的に作成します。
シンプルなLog Service
SLSプロジェクトの選択: リソースを分離および制御するSLSプロジェクトを選択します。 利用可能なプロジェクトがない場合は、[SLSプロジェクトの作成] をクリックしてプロジェクトを作成します。 詳細については、「プロジェクトの管理」をご参照ください。
logstore: SLSでログを収集、保存、およびクエリするログストアを指定します。 サービスをデプロイすると、システムはSLSプロジェクトで指定したログストアを自動的に作成します。
専用ゲートウェイ
[専用ゲートウェイ] をクリックし、ドロップダウンリストから専用ゲートウェイを選択します。 専用ゲートウェイを設定して、アクセス制御を強化し、サービスアクセスのセキュリティと効率を向上させることができます。 詳細については、「専用ゲートウェイの使用」をご参照ください。
ヘルスチェック
サービスのヘルスチェックを設定できます。 詳細については、「ヘルスチェック機能の設定」をご参照ください。
LLMインテリジェントルーター
サービス用にLLMインテリジェントルーターを設定できます。 使用可能なインテリジェントルーターがない場合は、[LLMインテリジェントルーターの作成] をクリックしてインテリジェントルーターを作成できます。 詳細については、「LLMゲートウェイを使用した推論効率の向上」をご参照ください。
LLMインテリジェントルーターは、LLM推論サービスとバインドできる特殊なEASサービスです。 LLM推論サービスが複数のバックエンドインスタンスに対応する場合、インテリジェントルーターはバックエンドの負荷に基づいてリクエストを動的に分散します。 これにより、計算能力とメモリ使用量がバックエンドインスタンス間でバランスよく分散され、クラスターリソースの利用率が向上します。
[構成エディター] セクションで、サービスの構成がコードエディターに表示されます。 上記の手順に含まれていない設定項目を追加できます。 詳細については、「EASCMDクライアントを使用するコマンドの実行」トピックの「サービスの作成」セクションをご参照ください。
JSONデプロイのパラメーターの設定
サービスのデプロイに使用するJSONファイルを準備します。 詳細については、「モデルサービスのパラメーター」をご参照ください。 [JSONデプロイ] ページで、JSONエディターにJSONファイルの内容を入力し、[デプロイ] をクリックします。
シナリオベースのモデル展開のパラメーターの設定
次のセクションでは、さまざまなシナリオのパラメーターについて説明します。
AIペインティング-SD Web UIデプロイ
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
エディション | 有効な値:
| |
モデル設定 | (1) コミュニティからダウンロードしたオープンソースモデルまたは微調整したモデルを使用する場合、(2) 出力データをデータソースに保存する場合、(3) サードパーティのプラグインまたは構成をインストールする必要があります。 [追加] をクリックしてモデル設定を設定します。 有効な値: | |
リソース設定 | インスタンス数 | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 | ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 費用対効果を高めるために、ml.gu7i.c16m60.1-gu30インスタンスタイプを使用することを推奨します。 | |
VPC設定 (オプション) | [VPC] | パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。 この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。 |
vSwitch | ||
セキュリティグループ名 |
大言語モデル (LLM)
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
モデルソース | 有効な値:
| |
モデルタイプ | モデルカテゴリを選択します。 | |
モデル設定 | このパラメーターは、モデルソースパラメーターをカスタム微調整モデルに設定した場合にのみ必要です。 有効な値:
| |
リソース設定 | インスタンス数 | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 | ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 費用対効果を高めるために、ml.gu7i.c16m60.1-gu30インスタンスタイプを使用することを推奨します。 | |
VPC設定 (オプション) | [VPC] | パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。 この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。 |
vSwitch | ||
セキュリティグループ名 |
RAGベースのLLMチャットボットの展開
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
モデルソース | 有効な値:
| |
モデルタイプ | モデルカテゴリを選択します。 | |
リソース設定 | [インスタンス数] | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 |
| |
推論の加速 | 推論アクセラレーションは、A10またはGU30インスタンスにデプロイされているQwen、Llama2、ChatGLM、またはBaichuan2モデルに対して有効にできます。 次の推論アクセラレーションメソッドが提供されます。
| |
ベクトルデータベース设定 | ベクトルデータベースとしてデータベースを選択します。 有効な値: FAISS、Elasticsearch、Milvus、Hologres、AnalyticDB。 ベクターデータベースを作成および構成する方法の詳細については、「手順1: ベクターデータベースの準備」および「手順2: RAGサービスのデプロイ」をご参照ください。 | |
VPC設定 (オプション) | [VPC] |
|
vSwitch | ||
セキュリティグループ名 |
AIビデオ生成: ComfyUIベースのデプロイ
パラメーター | 説明 | |
基本情報 | サービス名 | モデルサービスの名前。 |
エディション | サービスのエディション。 有効な値:
各エディションのシナリオについては、このトピックの「背景情報」をご参照ください。 | |
モデル設定 | 微調整されたモデルをデプロイする場合は、ComfyUIプラグインをインストールするか、API操作を使用してAPI EditionまたはStandard Editionサービスを呼び出す場合は、[追加] をクリックしてモデルを構成します。 これにより、モデルとプラグインのアップロードと推論結果の取得が容易になります。 有効な値:
以降の手順で、カスタムモデルとComfyUIプラグインを特定のOSSまたはNASパスにアップロードできます。 詳細については、このトピックの「カスタムモデルとComfyUIプラグインをマウントする方法」を参照してください。 | |
リソース設定 | インスタンス数 | [Standard Edition] を選択した場合、インスタンス数を1に設定することを推奨します。 |
リソース設定 | GU30、A10、またはT4 GPUタイプを使用することを推奨します。 デフォルトでは、 インスタンスタイプを使用して費用対効果を確保します。説明 ComfyUIはシングルGPUモードのみをサポートしています。つまり、タスクはシングルGPUインスタンスまたは複数のシングルGPUインスタンスで実行できます。 ComfyUIはマルチGPU同時動作をサポートしていません。 |
ModelScopeモデルの展開
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
モデルの選択 | ドロップダウンリストからModelScopeモデルを選択します。 | |
モデルバージョン | ドロップダウンリストからモデルバージョンを選択します。 デフォルトでは、最新バージョンが使用されます。 | |
モデルタイプ | モデルを選択すると、システムはモデルタイプパラメータを自動的に設定します。 | |
リソース設定 | インスタンス数 | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 | ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 | |
VPC設定 (オプション) | [VPC] | パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。 この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。 |
vSwitch | ||
セキュリティグループ名 |
ハグ顔モデル展開
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
モデルID | ハグ顔モデルのID。 例: | |
モデルタイプ | ハグ顔モデルのタイプ。 例: テキスト分類。 | |
モデルバージョン | ハグ顔モデルのバージョン。 例: main. | |
リソース設定 | インスタンス数 | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 | ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 | |
VPC設定 (オプション) | [VPC] | パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。 この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。 |
vSwitch | ||
セキュリティグループ名 |
トライトンの展開
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
モデル設定 | 展開するモデルがTritonの構造要件を満たしていることを確認します。 詳細については、「Triton Serverを使用したモデル展開」をご参照ください。 モデルを準備したら、次のいずれかの方法を選択してモデルをデプロイします。
| |
リソース設定 | インスタンス数 | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 | ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースのみがサポートされています。 | |
VPC設定 (オプション) | [VPC] | パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。 この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。 |
vSwitch | ||
セキュリティグループ名 |
TensorFlowサービングのデプロイ
パラメーター | 説明 | |
基本情報 | サービス名 | サービスの名前です。 |
デプロイ方法 | 次の配置方法がサポートされています。
| |
モデル設定 | TensorFlow Servingには、デプロイされたモデルに固有の構造要件があります。 詳細については、「TensorFlow Servingを使用したモデル展開」をご参照ください。
| |
リソース設定 | インスタンス数 | コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。 単一インスタンスのデプロイによるリスクを防ぐため、複数のサービスインスタンスを指定することを推奨します。 |
リソース設定 | ビジネス要件に基づいて、モデルデプロイのインスタンスタイプを選択します。 パブリックリソースグループのみがサポートされています。 | |
VPC設定 (オプション) | [VPC] | パブリックリソースグループにデプロイされたEASサービスのVPC直接接続を有効にします。 この機能を有効にすると、VPCに存在するECSインスタンスは、作成されたENIを使用して、パブリックリソースグループにデプロイされたEASサービスにアクセスできます。 さらに、EASサービスは、VPCに存在する他のクラウドサービスにアクセスできます。 |
vSwitch | ||
セキュリティグループ名 |
EASでオンラインモデルサービスを管理する
Elastic Algorithm Service (EAS) ページの [推論サービス] タブで、デプロイされたサービスを表示し、サービスを停止、開始、または削除できます。
モデルサービスを停止または削除すると、モデルサービスに依存するリクエストは失敗します。 作業は慎重に行ってください。
サービスの詳細の表示
管理するサービスの名前をクリックして、[サービスの詳細] ページに移動します。 [サービスの詳細] ページで、サービスの基本情報、インスタンス、および構成を表示できます。
[サービスの詳細] ページで、さまざまなタブをクリックして、サービスの監視、ログ、および展開イベントに関する情報を表示できます。
コンテナーログの表示
EASは、サービスインスタンスレベルでログ集約とフィルタリングを実装します。 サービスインスタンスに障害が発生した場合、コンテナログに基づいてエラーメッセージをトラブルシューティングできます。
サービスの名前をクリックして、[サービスの詳細] ページに移動します。
[サービスインスタンス] セクションで、[操作] 列の [コンテナー] をクリックします。
[コンテナー] ペインで、[操作] 列の [ログ] をクリックします。
サービスリソース構成の更新
[サービスの詳細] タブで、[リソース情報] セクションの [リソース設定] をクリックします。 [リソース設定] ダイアログボックスで、サービスの実行に使用するリソースを更新します。 詳細については、「コンソールでのモデルのアップロードとデプロイ」をご参照ください。
デプロイされたモデルサービスのバージョンを追加する
EAS-Online Model Servicesページで、更新するサービスを見つけ、[操作] 列の [サービスの更新] をクリックします。 詳細については、「コンソールでのモデルのアップロードとデプロイ」をご参照ください。
警告モデルサービスのバージョンを追加すると, サービスが一時的に中断されます。 その結果、サービスに依存する要求は、サービスが回復するまで失敗する。 作業は慎重に行ってください。
サービスを更新した後、[現在のバージョン] 列のバージョン番号をクリックして、[バージョン情報] を表示するか、サービスのバージョンを変更します。
リソースのスケール
[EAS-Online Model Services] ページで、管理するサービスを見つけ、[操作] 列の [スケール] をクリックします。 [スケール] ダイアログボックスで、[インスタンス] の数を指定して、モデルサービスの実行に使用するインスタンスを調整します。
自動スケーリングの有効化
サービスの自動スケーリングを設定して、ビジネス要件に基づいてEASでオンラインモデルサービスを実行するために使用されるリソースをサービスが自動的に調整できるようにすることができます。 詳細については、「水平自動スケーリング機能の有効化または無効化」トピックの「方法1: コンソールでの水平自動スケーリング機能の管理」セクションをご参照ください。
関連ドキュメント
サービスのデプロイ後、オンラインデバッグを使用して、サービスが期待どおりに実行されるかどうかを確認できます。 詳細については、「オンラインサービスデバッグ」をご参照ください。
シナリオベースのデプロイ方法を使用してモデルをデプロイした後、サービスを呼び出してモデルのパフォーマンスを確認できます。 詳細については、「EASユースケース」をご参照ください。
EASでモデルサービスを展開する方法の詳細については、「Machine Learning Designerを使用してモデルサービスを展開する」または「EASCMDまたはDSWを使用してモデルサービスを展開する」をご参照ください。