QuickStartを使用したLlama 2モデルのデプロイ - Platform For AI

Platform for AI (PAI) コンソールのQuickStartモジュールは、機械学習モデルをトレーニングおよびデプロイするためのコードなしメソッドを提供します。 QuickStartを使用すると、Llama 2モデルをオンラインサービスとしてデプロイでき、web UIまたはAPIを呼び出すことでアクセスできます。 QuickStartは、デプロイ前のLlama 2モデルのカスタマイズもサポートしています。カスタムデータセットを使用して、ビジネス要件に基づいてLlama 2モデルを微調整できます。

背景情報

Llama 2は、メタによって開発され、主に英語のデータセットで事前トレーニングされた生成テキストモデルのコレクションです。ラマ2モデルには、70億 (7b) 、130億 (13b) 、700億 (70b) のさまざまなパラメータサイズがあります。各カテゴリには、Llama-2-chatと呼ばれるバリエーションがあり、ダイアログシナリオのパフォーマンスを向上させるために微調整されています。

PAIによって提供されるllama-2-7b-chatモデルは、ハギングフェイスによって提供されるLlama-2-7b-chatモデルの適応です。 llama-2-7b-chatは、Transformerアーキテクチャに基づいて構築され、多様なオープンソースデータセットを使用してトレーニングされた大規模言語モデル (LLM) です。このモデルは、幅広い一般的な英語の対話シナリオで使用できます。

このトピックでは、llama-2-7b-chatを例として使用して、QuickStartを使用してElastic Algorithm service (EAS) にモデルをサービスとして展開し、サービスを呼び出す方法について説明します。

制限事項

QuickStartは、中国 (北京) 、中国 (上海) 、中国 (杭州) 、中国 (深セン) 、中国 (ウランカブ) 、シンガポールの各リージョンでご利用いただけます。

説明

中国 (Ulanqab) リージョンでQuickStartを使用するには、アカウントマネージャーに連絡してください。

課金

カスタムデータセットを使用してQuickStartでモデルを微調整する場合、微調整されたモデルを格納するために使用されるObject Storage Service (OSS) ストレージに対して課金されます。詳細については、「課金の概要」をご参照ください。
EASでのモデル展開に対して課金されます。微調整機能を使用する場合、ディープラーニングコンテナ (DLC) でのモデルトレーニングに対しても課金されます。詳細については、「EASの課金」および「一般的なコンピューティングリソースの課金」をご参照ください。

前提条件

PAIが有効化され、デフォルトのワークスペースが作成されます。詳細については、「PAIの有効化とデフォルトワークスペースの作成」をご参照ください。
OSSが有効化され、バケットが作成されました。
説明
OSSバケットを作成するときは、バケットとPAIが同じリージョンにあることを確認してください。作成後にバケットのリージョンを変更することはできません。
ラマモデルの使用条件が読まれ、受け入れられます。

手順

llama-2-7b-chatモデルは、ほとんどの非専門的なシナリオに適しています。ビジネスシナリオに合わせてモデルを調整したり、モデルにドメイン固有の知識を追加したりする場合は、モデルを微調整してパフォーマンスを向上させることができます。

微調整を検討する前に、llama-2-7b-chatを含むLLMは会話のやり取りを通じて基本的な知識を習得できることに注意してください。 QuickStartでの微調整は、低ランク適応大言語モデル (LoRA) に基づいており、監視微調整 (SFT) などの他の方法と比較して、トレーニングコストと時間を大幅に削減します。

微調整なしでモデルをデプロイする

PAI コンソールにログインします。左側のナビゲーションウィンドウで、[QuickStart] をクリックします。
ワークスペースを選択し、[クイックスタートの入力] をクリックします。
モデルリストページで、検索ボックスにllama-2-7b-chatを入力し、検索をクリックします。
説明
ビジネス要件に基づいて別のモデルを選択できます。 llama-2-7b-chatモデルには、少なくとも64 GiBのメモリと24 GiBのGPUメモリが必要です。ワークスペースのコンピューティングリソースが十分であることを確認します。そうしないと、デプロイが失敗する可能性があります。
llama-2-7b-chatカードをクリックします。モデルの詳細ページで、[デプロイ] をクリックします。
[デプロイ] パネルの下部で、[デプロイ] をクリックします。
[課金通知] ダイアログボックスで、[OK] をクリックします。
[サービスの詳細] タブが表示されます。サービスのステータスが [稼働中] に変わると、モデルは推論サービスとしてデプロイされます。
モデルのデプロイ後、推論サービスを呼び出すことができます。
1. [サービスの詳細] タブで、[Webアプリケーション] セクションに移動し、[Webアプリケーションの表示] をクリックします。
2. 次のメソッドを使用して推論サービスを呼び出します。
  - web UIを使用する: [チャット] タブで、ダイアログボックスに文を入力し、[送信] をクリックして会話を開始します。
  - APIの使用: [チャット] タブの下部にある [API経由で使用] をクリックして、API呼び出しの詳細を表示します。

モデルの微調整とデプロイ

PAI コンソールにログインします。左側のナビゲーションウィンドウで、[QuickStart] をクリックします。
ワークスペースを選択し、[クイックスタートの入力] をクリックします。
モデルリストページで、検索ボックスにllama-2-7b-chatを入力し、検索をクリックします。
説明
ビジネス要件に基づいて別のモデルを選択できます。 llama-2-7b-chatモデルには、少なくとも64 GiBのメモリと24 GiBのGPUメモリが必要です。ワークスペースのコンピューティングリソースが十分であることを確認します。そうしないと、デプロイが失敗する可能性があります。
llama-2-7b-chatカードをクリックします。モデルの詳細ページで、[微調整] をクリックします。

微調整パラメータを設定します。

デフォルトでは、QuickStartはコンピューティングリソースとハイパーパラメーターの最も一般的な設定を使用します。ビジネス要件に基づいて設定を変更できます。この例で使用されるパラメーターを次の表に示します。

パラメーター

説明

ジョブの設定

出力パス

生成されたモデルファイルが保存されているOSSバケットのパス。

説明

[ワークスペースの詳細] ページでデフォルトのストレージパスを設定した場合、そのパスは [出力パス] パラメーターの値として自動的に指定されます。ワークスペースのデフォルトのストレージパスを設定する方法については、「ワークスペースの管理」をご参照ください。

データセットの設定

トレーニングデータセット

QuickStartによって提供されるデフォルトのトレーニングデータセットを使用できます。カスタムデータセットを使用する場合は、必要な形式でトレーニングデータを準備し、次のオプションを使用してデータセットをアップロードします。

データセットの選択: 詳細については、「データセットの作成と管理」をご参照ください。
OSSファイルまたはディレクトリ: 詳細については、「OSSの使用を開始する」をご参照ください。

トレーニングデータはJSON形式である必要があります。各データレコードは、質問、回答、およびIDで構成され、それぞれinstruction、output、およびidフィールドで指定されます。例：

[
    {
        "instruction": "Does the following text contain a global topic? Why do Americans rarely hold military parades?",
        "output": "Yes",
        "id": 0
    },
    {
        "instruction": "Does the following text contain a global topic? Breaking news! The timetable for the official vehicle reform of public institutions is released! ",
        "output": "No",
        "id": 1
    }
]

トレーニングデータセットに加えて、個別の検証データセットを準備することをお勧めします。検証データセットは、モデル性能を評価し、微調整パラメータを最適化するために使用されます。

[微調整] をクリックして、トレーニングジョブを送信します。
[課金通知] ダイアログボックスで、[OK] をクリックします。
[タスクの詳細] タブが表示されます。 [ジョブステータス] が [成功] に変わると、モデルのトレーニングが完了します。
トレーニング済みモデルは、指定したOSSパスに保存されます。 [基本情報] セクションの [出力パス] フィールドでOSSパスを確認できます。
説明
デフォルトのトレーニングデータセットと、ハイパーパラメータおよびコンピューティングリソースのデフォルト設定を使用すると、トレーニングジョブは1.5時間で完了します。カスタムトレーニングデータと設定を使用する場合、トレーニング期間は異なる場合があります。ほとんどのトレーニングジョブは数時間以内に完了できます。
微調整されたモデルを展開します。
微調整されたモデルを配置する手順は、微調整されていないモデルを配置する手順と同じです。詳細については、このトピックの「微調整なしでモデルをデプロイする」を参照してください。

次に何をすべきか

QuickStartページで、[ジョブ管理] をクリックして、トレーニングジョブとモデルの展開の詳細を表示できます。