すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:EASでLlama 3モデルをすばやく展開

最終更新日:Sep 18, 2024

このトピックでは、Platform for AI (PAI) のElastic Algorithm Service (EAS) でLlama 3モデルを迅速にデプロイし、デプロイされたwebアプリケーションを使用する方法について説明します。

背景情報

Llama 3は、さまざまなシナリオに適した8Bおよび70Bサイズのモデルの事前トレーニングおよび命令調整バージョンを提供します。 ラマ3はラマ2の全体的なアーキテクチャを継承しますが、コンテキストの長さを4Kから8Kに増やします。 特定のパフォーマンス評価では、事前にトレーニングされ、指導調整されたバージョンのラマ3モデルは、主題の能力、推論、知識、理解などのさまざまな機能において、前世代に比べて大幅な改善を示しました。

EASでのモデルサービスのデプロイ

  1. Elastic Algorithm Service (EAS) ページに移動します。

    1. PAIコンソールにログインします。

    2. 左側のナビゲーションペインで、[ワークスペース] をクリックします。 [ワークスペース] ページで、モデルを配置するワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、[モデル展開] > [Elastic Algorithm Service (EAS)] を選択し、[Elastic Algorithm Service (EAS)] ページに移動します。 image

  2. [Elastic Algorithm Service (EAS)] ページで、[サービスのデプロイ] をクリックします。 [シナリオベースのモデル展開] セクションで、[LLM展開] をクリックします。 image

  3. [LLMデプロイ] ページで、パラメーターを設定します。 次の表に、主要なパラメーターを示します。 他のパラメーターにはデフォルト値を使用します。

    パラメーター

    説明

    サービス名

    サービスの名前です。 この例では、chat_llama3_demoが使用されています。

    モデルソース

    [オープンソースモデル] を選択します。

    モデルタイプ

    llama3-8bを選択します。

    リソース設定

    中国 (北京) リージョンのインスタンスタイプパラメーターにml.gu7i.c8m30.1-gu30を選択することを推奨します。

    説明

    上記のインスタンスタイプが使用できない場合は、ecs.gn6i-c24g1.12xlargeインスタンスタイプを使用することもできます。

    image

  4. [デプロイ] をクリックします。 モデルの展開には約3分かかります。

    [サービスステータス][実行中] に変わると、サービスがデプロイされます。

webアプリケーションを使用したモデル推論の実行

  1. 管理するサービスを見つけて、[サービスタイプ] 列の [Webアプリの表示] をクリックします。 ab4a0f8d6e810dd12c22142d271499d0

  2. webアプリケーションを使用してモデル推論を実行します。

    入力テキストボックスに、Give me a plan for learning the basics of personal financeなどのプロンプトを入力します。 次に、[送信] をクリックします。 image

関連ドキュメント

ChatLLM-WebUIのバージョンの詳細については、「ChatLLM WebUIのリリースノート」をご参照ください。