このトピックでは、モデルトレーニングを高速化するために、DLC または DSW に Pai-Megatron-Patch イメージをインストールする方法について説明します。
制限事項
-
Pai-Megatron-Patch には GPU インスタンスが必要です。
-
GPU ドライバーのバージョンは 460.32 以降である必要があります。
操作手順
DLC での Pai-Megatron-Patch イメージのインストール
Deep Learning Containers (DLC) は、カスタムイメージ、分散トレーニング、および複数のフレームワークをサポートする、クラウドネイティブなディープラーニングトレーニングプラットフォームです。
DLC では、Pai-Megatron-Patch のデプロイメント用にカスタムイメージをロードできます。インストール後、マルチ GPU サーバーで大規模な分散トレーニングを実行できます。
次の手順を実行します。
-
PAI コンソールにログインします。
-
左側のナビゲーションウィンドウで、[ワークスペースリスト] をクリックします。ワークスペースリストページで、対象のワークスペースをクリックします。
-
左側のナビゲーションウィンドウで、[モデル開発とトレーニング] > [Deep Learning Containers (DLC)] を選択し、[ジョブの作成] をクリックします。
-
次のパラメーターを設定します。その他のパラメーターについては、「トレーニングジョブの作成」をご参照ください。
-
環境情報: [ノードイメージ] を [イメージアドレス] に設定し、次のアドレスを入力します:
pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm -
[リソース情報]:
-
[フレームワーク] を [PyTorch] に設定します。
-
ジョブリソース: [リソース仕様] 列にある
をクリックし、GPU 高速化ノードタイプと仕様を選択します。
-


-
-
[OK] をクリックします。
DSW での Pai-Megatron-Patch イメージのインストール
Data Science Workshop (DSW) は、JupyterLab を統合し、運用保守設定なしでカスタムプラグインをサポートする、クラウドベースのディープラーニング開発環境です。
DSW もカスタムイメージをサポートしています。インストール後、Pai-Megatron-Patch のトレーニング高速化プログラムをデバッグできます。
次の手順を実行します。
-
PAI コンソールにログインします。
-
左側のナビゲーションウィンドウで、[ワークスペースリスト] をクリックします。ワークスペースリストページで、対象のワークスペースをクリックします。
-
左側のナビゲーションウィンドウで、[モデル開発とトレーニング] > [Data Science Workshop (DSW)] を選択し、[インスタンスの作成] をクリックします。
-
次のパラメーターを設定します。その他のパラメーターについては、「DSW インスタンスの作成」をご参照ください。
-
[リソースクォータ]: [パブリックリソース (従量課金)] を選択します。
-
[リソース仕様]:
をクリックし、GPU インスタンスの仕様を選択します。 -
イメージ: 以下のアドレスを入力します:
pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm

-
-
[OK] をクリックして DSW インスタンスを作成します。
インストール後の使用方法
インストール後、Pai-Megatron-Patch の examples フォルダにあるサンプルをご参照ください。