Alibaba Cloud Machine Learning Platform for AI (PAI) は、AIの開発とトレーニングのためのLingjunリソースを提供します。 購入したLingjunリソースのリソースクォータを作成して、高性能なAIトレーニングとコンピューティングを実行できます。 このトピックでは、リソースクォータを作成、管理、および使用する方法について説明します。
前提条件
Lingjunリソースの専用リソースグループが作成され、Lingjunリソースが購入されます。 詳細については、「リソースグループの作成とLingjunリソースの購入」をご参照ください。
仮想プライベートクラウド (VPC) 、vSwitch、およびセキュリティグループが作成されます。 詳細については、「VPCの作成と管理」および「セキュリティグループの作成」をご参照ください。
リソースクォータの作成
リソースクォータを作成して、リソースプール内のリソースを割り当てることができます。 リソースクォータを作成するには、次の手順を実行します。
PAIコンソールにログインします。 左側のナビゲーションウィンドウで、[AIコンピューティングリソース]> [リソースクォータ] を選択します。
[Intelligent Computing Lingjun resources] タブで、[Resource Quotaの追加] をクリックします。
[リソースクォータの追加] ページで、パラメーターを設定し、[送信] をクリックします。
パラメーター
説明
名前
リソースクォータの名前。
スケジューリングポリシー
スケジューリングポリシー。 適切なスケジューリングポリシーを選択して、コンピューティングリソースの使用率を向上させます。 有効な値:
インテリジェント
バランス
ラウンドロビン
FIFO
ワークスペースの関連付け
リソースクォータが関連付けられているワークスペース。
説明
異なるリソースクォータを区別するために使用される説明。
ソースタイプ
リソースクォータに割り当てられるリソースのソースのタイプ。 有効な値:
Dedicated Resource Group: 専用リソースグループのリソースをリソースクォータに割り当てます。
既存のリソースクォータ: 既存のリソースクォータからリソースクォータにリソースを割り当てます。
ソース
リソースクォータに割り当てられるリソースのソース。 [ソース] ドロップダウンリストから、専用リソースグループまたは既存のリソースクォータを選択します。
仕様 /リソース
[追加] をクリックします。 表示されるパネルで、専用リソースグループまたは既存のリソースクォータから割り当てるリソースの仕様とノード数を指定します。
[VPC]
ドロップダウンリストからVPC、vSwitch、およびセキュリティグループを選択します。
説明Lingjunリソースがインターネットにアクセスする必要がある場合は、選択したVPCにインターネットNATゲートウェイを設定し、EIP (elastic IP address) をインターネットNATゲートウェイに関連付ける必要があります。 インターネットへのアクセスに使用するVPCを選択することを推奨します。 詳細については、「インターネットNATゲートウェイのSNAT機能を使用したインターネットへのアクセス」をご参照ください。
[セキュリティグループ]
vSwitch
リソースクォータの管理
リソースクォータを作成したら、リソースクォータの名前をクリックして、基本情報とリソース使用情報を表示できます。 リソース割り当てを最適化するために、リソースクォータをスケーリングしたり、子レベルのリソースクォータを作成したりすることもできます。 詳細については、「リソースクォータの管理」をご参照ください。
リソースクォータの使用
リソースのクォータをワークスペースに関連付ける
リソースクォータを使用してAI開発およびトレーニングジョブを実行する前に、リソースクォータをワークスペースに関連付ける必要があります。 詳細については、「概要」をご参照ください。
AIの開発とトレーニングのためにワークスペースに関連付けられているリソースクォータを使用する
イメージを選択します。
Lingjunリソースのリソースクォータを使用してDeep Learning Containers (DLC) のトレーニングジョブを送信するには、サーバー、ネットワーク、ドライバー、トレーニングフレームワークなどのハードウェアとソフトウェアの統合が必要です。 したがって、公式PAIイメージを使用するか、公式PAIイメージに基づいてイメージを作成することを推奨します。
説明カスタムイメージを使用する場合、高性能Lingjunリソースを最大限に活用するために、ドライバ、フレームワーク、およびソフトウェアを適切なバージョンに更新する必要がある場合があります。
イメージ名
フレームワーク
インスタンスタイプ
CUDAバージョン
オペレーティングシステム
サポート対象リージョン
プログラミング言语とバージョン
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
メガトロン-LM 23.06
DeepSpeed 0.9.5
トランスフォーマー4.29.2
ニモ1.19.0
GPU
121
ubuntu22.04
中国 (ウランチャブ)
Python3.10
メガトロン-トレーニング: 23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
メガトロン-LM 23.06
DeepSpeed 0.9.5
トランスフォーマー4.29.2
ニモ1.19.0
GPU
121
ubuntu22.04
中国 (ウランチャブ)
Python3.10
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
メガトロン-LM 23.06
DeepSpeed 0.9.5
トランスフォーマー4.29.2
ニモ1.19.0
GPU
121
ubuntu22.04
中国 (ウランチャブ)
Python3.10
Lingjunリソースのリソースクォータを使用してDLCトレーニングジョブを送信します。 詳細については、「トレーニングジョブの送信」をご参照ください。
Lingjunリソースに基づいてData Science Workshop (DSW) インスタンスを作成します。 詳細については、「DSWインスタンスの作成」をご参照ください。
Elastic Algorithm Service (EAS) を使用してサービスを展開します。 詳細については、「PAIコンソールでのモデルサービスのデプロイ」をご参照ください。