すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Lingjunリソースの割り当て

最終更新日:Jul 22, 2024

Alibaba Cloud Machine Learning Platform for AI (PAI) は、AIの開発とトレーニングのためのLingjunリソースを提供します。 購入したLingjunリソースのリソースクォータを作成して、高性能なAIトレーニングとコンピューティングを実行できます。 このトピックでは、リソースクォータを作成、管理、および使用する方法について説明します。

前提条件

リソースクォータの作成

リソースクォータを作成して、リソースプール内のリソースを割り当てることができます。 リソースクォータを作成するには、次の手順を実行します。

  1. PAIコンソールにログインします。 左側のナビゲーションウィンドウで、[AIコンピューティングリソース]> [リソースクォータ] を選択します。

  2. [Intelligent Computing Lingjun resources] タブで、[Resource Quotaの追加] をクリックします。

  3. [リソースクォータの追加] ページで、パラメーターを設定し、[送信] をクリックします。

    パラメーター

    説明

    名前

    リソースクォータの名前。

    スケジューリングポリシー

    スケジューリングポリシー。 適切なスケジューリングポリシーを選択して、コンピューティングリソースの使用率を向上させます。 有効な値:

    • インテリジェント

    • バランス

    • ラウンドロビン

    • FIFO

    ワークスペースの関連付け

    リソースクォータが関連付けられているワークスペース。

    説明

    異なるリソースクォータを区別するために使用される説明。

    ソースタイプ

    リソースクォータに割り当てられるリソースのソースのタイプ。 有効な値:

    • Dedicated Resource Group: 専用リソースグループのリソースをリソースクォータに割り当てます。

    • 既存のリソースクォータ: 既存のリソースクォータからリソースクォータにリソースを割り当てます。

    ソース

    リソースクォータに割り当てられるリソースのソース。 [ソース] ドロップダウンリストから、専用リソースグループまたは既存のリソースクォータを選択します。

    仕様 /リソース

    [追加] をクリックします。 表示されるパネルで、専用リソースグループまたは既存のリソースクォータから割り当てるリソースの仕様とノード数を指定します。

    [VPC]

    ドロップダウンリストからVPC、vSwitch、およびセキュリティグループを選択します。

    説明

    Lingjunリソースがインターネットにアクセスする必要がある場合は、選択したVPCにインターネットNATゲートウェイを設定し、EIP (elastic IP address) をインターネットNATゲートウェイに関連付ける必要があります。 インターネットへのアクセスに使用するVPCを選択することを推奨します。 詳細については、「インターネットNATゲートウェイのSNAT機能を使用したインターネットへのアクセス」をご参照ください。

    [セキュリティグループ]

    vSwitch

リソースクォータの管理

リソースクォータを作成したら、リソースクォータの名前をクリックして、基本情報とリソース使用情報を表示できます。 リソース割り当てを最適化するために、リソースクォータをスケーリングしたり、子レベルのリソースクォータを作成したりすることもできます。 詳細については、「リソースクォータの管理」をご参照ください。

リソースクォータの使用

  • リソースのクォータをワークスペースに関連付ける

    リソースクォータを使用してAI開発およびトレーニングジョブを実行する前に、リソースクォータをワークスペースに関連付ける必要があります。 詳細については、「概要」をご参照ください。

  • AIの開発とトレーニングのためにワークスペースに関連付けられているリソースクォータを使用する

    • イメージを選択します。

      Lingjunリソースのリソースクォータを使用してDeep Learning Containers (DLC) のトレーニングジョブを送信するには、サーバー、ネットワーク、ドライバー、トレーニングフレームワークなどのハードウェアとソフトウェアの統合が必要です。 したがって、公式PAIイメージを使用するか、公式PAIイメージに基づいてイメージを作成することを推奨します。

      説明

      カスタムイメージを使用する場合、高性能Lingjunリソースを最大限に活用するために、ドライバ、フレームワーク、およびソフトウェアを適切なバージョンに更新する必要がある場合があります。

      イメージ名

      フレームワーク

      インスタンスタイプ

      CUDAバージョン

      オペレーティングシステム

      サポート対象リージョン

      プログラミング言语とバージョン

      deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • メガトロン-LM 23.06

      • DeepSpeed 0.9.5

      • トランスフォーマー4.29.2

      • ニモ1.19.0

      GPU

      121

      ubuntu22.04

      中国 (ウランチャブ)

      Python3.10

      メガトロン-トレーニング: 23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • メガトロン-LM 23.06

      • DeepSpeed 0.9.5

      • トランスフォーマー4.29.2

      • ニモ1.19.0

      GPU

      121

      ubuntu22.04

      中国 (ウランチャブ)

      Python3.10

      nemo-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • メガトロン-LM 23.06

      • DeepSpeed 0.9.5

      • トランスフォーマー4.29.2

      • ニモ1.19.0

      GPU

      121

      ubuntu22.04

      中国 (ウランチャブ)

      Python3.10

    • Lingjunリソースのリソースクォータを使用してDLCトレーニングジョブを送信します。 詳細については、「トレーニングジョブの送信」をご参照ください。

    • Lingjunリソースに基づいてData Science Workshop (DSW) インスタンスを作成します。 詳細については、「DSWインスタンスの作成」をご参照ください。

    • Elastic Algorithm Service (EAS) を使用してサービスを展開します。 詳細については、「PAIコンソールでのモデルサービスのデプロイ」をご参照ください。