このトピックでは、Platform for AI (PAI) のElastic Algorithm Service (EAS) でLlama 3モデルを迅速にデプロイし、デプロイされたwebアプリケーションを使用する方法について説明します。
背景情報
Llama 3は、さまざまなシナリオに適した8Bおよび70Bサイズのモデルの事前トレーニングおよび命令調整バージョンを提供します。 ラマ3はラマ2の全体的なアーキテクチャを継承しますが、コンテキストの長さを4Kから8Kに増やします。 特定のパフォーマンス評価では、事前にトレーニングされ、指導調整されたバージョンのラマ3モデルは、主題の能力、推論、知識、理解などのさまざまな機能において、前世代に比べて大幅な改善を示しました。
EASでのモデルサービスのデプロイ
Elastic Algorithm Service (EAS) ページに移動します。
PAIコンソールにログインします。
左側のナビゲーションペインで、[ワークスペース] をクリックします。 [ワークスペース] ページで、モデルを配置するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[モデル展開] > [Elastic Algorithm Service (EAS)] を選択し、[Elastic Algorithm Service (EAS)] ページに移動します。
[Elastic Algorithm Service (EAS)] ページで、[サービスのデプロイ] をクリックします。 [シナリオベースのモデル展開] セクションで、[LLM展開] をクリックします。
[LLMデプロイ] ページで、パラメーターを設定します。 次の表に、主要なパラメーターを示します。 他のパラメーターにはデフォルト値を使用します。
パラメーター
説明
サービス名
サービスの名前です。 この例では、chat_llama3_demoが使用されています。
モデルソース
[オープンソースモデル] を選択します。
モデルタイプ
llama3-8bを選択します。
リソース設定
中国 (北京) リージョンのインスタンスタイプパラメーターにml.gu7i.c8m30.1-gu30を選択することを推奨します。
説明上記のインスタンスタイプが使用できない場合は、ecs.gn6i-c24g1.12xlargeインスタンスタイプを使用することもできます。
[デプロイ] をクリックします。 モデルの展開には約3分かかります。
[サービスステータス] が [実行中] に変わると、サービスがデプロイされます。
webアプリケーションを使用したモデル推論の実行
管理するサービスを見つけて、[サービスタイプ] 列の [Webアプリの表示] をクリックします。
webアプリケーションを使用してモデル推論を実行します。
入力テキストボックスに、
Give me a plan for learning the basics of personal finance
などのプロンプトを入力します。 次に、[送信] をクリックします。
関連ドキュメント
ChatLLM-WebUIのバージョンの詳細については、「ChatLLM WebUIのリリースノート」をご参照ください。