Pai-Megatron-Patchを使用してモデルトレーニングを加速する前に、Pai-Megatron-Patchイメージをインストールする必要があります。 このトピックでは、Pai-Megatron-Patchイメージのインストールの制限と手順について説明します。
制限事項
Pai-Megatron-Patchイメージは、GPUアクセラレーションインスタンスにのみインストールできます。
GPUドライバーのバージョンは460.32以降です。
手順
Pai-Megatron-PatchイメージをDLCにインストールする
Platform for AI (PAI) のDeep Learning Containers (DLC) は、深層学習モデルをトレーニングできるクラウドネイティブのオールインワンプラットフォームです。 DLCは、柔軟で安定した、使いやすい、高性能なトレーニング環境を提供します。 DLCは、大規模な分散深層学習アルゴリズムやカスタムアルゴリズムフレームワークなど、さまざまなアルゴリズムをサポートしています。 これにより、開発者や企業はコストを削減し、効率を向上させます。
DLCを使用すると、Pai-Megatron-Patchイメージを含むカスタムイメージをインストールできます。 Pai-Megatron-PatchイメージのURLのみをDLCに渡す必要があります。 次に、システムは自動的にイメージをインストールします。 イメージのインストール後、DLCのPai-Megatron-Patchに基づいて、複数のマルチGPUサーバーで超大規模な分散トレーニングを実行できます。
Pai-Megatron-Patchイメージをインストールするには、次の手順を実行します。
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
[ワークスペース] ページの左側のナビゲーションウィンドウで、[モデルの開発とトレーニング] > [ディープラーニングコンテナ (DLC)] を選択します。 [ジョブの作成] をクリックします。
表示されるページで、パラメーターを設定します。 以下の説明は、主要なパラメータの構成を提供する。 ビジネス要件に基づいて他のパラメーターを設定できます。 パラメーターの詳細については、「トレーニングジョブの送信」をご参照ください。
環境情報: [ノードイメージ] を [イメージアドレス] に設定し、表示されるフィールドに画像のアドレスを入力します。 画像アドレスはpai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llmです。
リソース情報:
フレームワーク: [PyTorch] を選択します。
ジョブリソース: [インスタンスタイプ] 列でをクリックし、GPUノードを選択し、ビジネス要件に基づいてノード仕様を選択します。
[OK] をクリックします。
DSWにPai-Megatron-Patchイメージをインストールする
Data Science Workshop (DSW) は、深層学習アルゴリズムの開発に使用されるクラウド内の開発環境です。 JupyterLabはDSWに統合されており、DSWインスタンスがカスタム開発用のプラグインを提供できるようにします。 ノートブックを起動して、O&M設定を実行することなく、Pythonコードの書き込み、デバッグ、実行を行うことができます。 DSWは、オープンソースの深層学習フレームワークをサポートし、Alibaba Cloudによって開発された最適化されたTensorFlowフレームワークを提供します。 コンパイルを最適化してトレーニングパフォーマンスを向上させることができます。
DSWでは、カスタムイメージをインストールすることもできます。 Pai-Megatron-PatchイメージのURLのみをDSWに渡す必要があります。 次に、システムは自動的にイメージをインストールします。 イメージがインストールされたら、DSWのPai-Megatron-Patchに基づいてトレーニングを加速できます。
Pai-Megatron-Patchイメージをインストールするには、次の手順を実行します。
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
ワークスペースページの左側のナビゲーションウィンドウで、[モデルの開発とトレーニング] > [インタラクティブモデリング (DSW)] を選択します。 [インスタンスの作成] をクリックします。
表示されるページで、パラメーターを設定します。 以下の説明は、主要なパラメータの構成を提供する。 ビジネス要件に基づいて他のパラメーターを設定できます。 パラメーターの詳細については、「DSWインスタンスの作成」をご参照ください。
リソースクォータ: [パブリックリソースグループ (従量課金)] を選択します。
インスタンスタイプ: をクリックして、ビジネス要件に基づいてGPUインスタンスタイプを選択します。
画像: Pai-Megatron-Patch画像のアドレスをフィールドに入力します。 住所は
pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
です。
[はい] をクリックします 。 DSWインスタンスが作成されます。
Pai-Megatron-パッチを使用する
Pai-Megatron-Patchイメージをインストールしたら、Pai-Megatron-Patchのexamplesフォルダーでサンプルコードを表示して使用できます。