Platform for AI (PAI) AI コンピューティングエンジンの中核コンポーネントとして、Lingjun リソースは大規模かつ高密度の計算能力を提供します。これらは、パフォーマンス専有型 AI トレーニングと計算のヘテロジニアスコンピューティング要求を満たすように設計されており、AI の開発、トレーニング、およびサービスデプロイのための DSW、DLC、および EAS モジュールをサポートしています。このトピックでは、リソースグループを作成し、Lingjun リソースを購入する方法について説明します。
特徴
Lingjun リソースは、Alibaba Cloud が開発した新世代のインテリジェントコンピューティングリソースです。RDMA 高速ネットワークアーキテクチャ、パフォーマンス専有型通信ライブラリ、パフォーマンス専有型アクセラレーションソフトウェア、および GPU 仮想化ソリューションを提供し、パフォーマンス専有型コンピューティングの要求に応えます。
Platform for AI (PAI) は、フルマネージド Lingjun リソースを提供しており、PAI コンソール内で完全に購入および管理できます。すでに個別の Lingjun ハードウェアを購入している場合は、これらをセミマネージドリソースとして PAI コンソールに追加してトレーニングタスクに使用することもできます。
制限事項
サポートされるリージョン
現在、中国 (ウランチャブ)、シンガポール、中国 (深圳)、中国 (北京)、中国 (上海)、および 中国 (杭州) リージョンのみがサポートされています。
サポートされるユーザー
Lingjun リソースは、サブスクリプションおよび従量課金の課金方法をサポートしています。これらのリソースは、ホワイトリストに登録されたユーザーのみが利用できます。アクセスをリクエストするには、ビジネス担当者にお問い合わせください。
サポートされるタスクタイプ
Lingjun リソースは、TensorFlow、PyTorch、ElasticBatch、XGBoost、OneFlow、MPIJob、Slurm、および Ray のタイプのトレーニングタスクのみをサポートします。
アカウントと権限の要件
Alibaba Cloud アカウント (推奨): プライマリアカウントを使用して、追加の権限を付与することなく、すべての操作を実行できます。
RAM ユーザー: Alibaba Cloud アカウントを使用して、リソースプールを管理する権限を付与するか、AliyunPAIFullAccess 権限を付与する必要があります。
重要AliyunPAIFullAccess 権限は、すべての PAI リソースと特徴に対する完全制御を付与します。この権限は注意して付与してください。広範すぎる権限に関連するセキュリティリスクを回避するため、これらの操作には Alibaba Cloud アカウントを使用してください。
依存するクラウドプロダクト
Lingjun リソースの作成、購入、および使用は、他のクラウドプロダクトに依存します。開始する前に、これらの依存関係を理解し、必要なクラウドプロダクトを準備する必要があります。
(必須) Virtual Private Cloud (VPC)
Lingjun リソースを割り当てる際には、同じリージョン内の Virtual Private Cloud (VPC) にバインドし、vSwitch とセキュリティグループを設定する必要があります。これにより、Lingjun リソースと他のクラウドプロダクト間のネットワーク接続が確保されます。
(任意) Internet NAT Gateway と Elastic IP Address (EIP)
パブリックインターネットにアクセスする (たとえば、パブリックリポジトリのカスタムイメージを使用する) には、Internet NAT Gateway の SNAT 機能を有効にして設定し、Elastic IP Address (EIP) をバインドします。
詳細については、「インターネット NAT ゲートウェイの SNAT 機能を使用してインターネットにアクセスする」をご参照ください。
(任意) インテリジェントコンピューティング用の OSS、NAS、または Cloud Parallel File Storage (CPFS)
Lingjun リソースを使用して DLC タスクを送信する場合、インテリジェントコンピューティング用の OSS、NAS、または Cloud Parallel File Storage (CPFS) からデータセットを提供する必要があります。必要なストレージリソースを準備し、事前にデータセットを作成してください。詳細については、「準備: データセットの準備」をご参照ください。
リソースグループの作成と Lingjun リソースの購入
Lingjun リソースは、サブスクリプション (前払い) と従量課金 (後払い) の 2 つの課金方法で利用できます。リソースグループを作成した後、ニーズに応じて Lingjun リソースを柔軟に購入できます。Lingjun リソースの課金の詳細については、「AI コンピューティングリソースの課金」をご参照ください。
Lingjun リソースは、基盤となる計算リソースを異なる HZ (高速相互接続ゾーン) に分割します。同じ HZ 内のリソースは、高速ネットワークを介して通信できます。計算リソースの購入、割り当て、および使用時に、高速ネットワークアフィニティをカスタマイズできます。
リソースグループの作成
PAI コンソールにログインし、AI コンピューティングリソース > リソースプール ページに移動します。
[Lingjun リソース] タブで、[リソースグループの作成] をクリックします。
[リソースグループの作成] ダイアログボックスで、次のパラメーターを設定し、[OK] をクリックします。
パラメーター
説明
タイプ
[専用リソースグループ] を選択します。
リソースグループ名
インターフェイスに表示される要件を満たすリソースグループの名前を入力します。
サブスクリプションリソースの購入
[Lingjun リソース] タブで、リストからリソースグループを見つけ、[アクション] 列の をクリックします。

または、リソースグループ名をクリックします。リソースグループの詳細ページの右上隅で、 をクリックします。

購入ページでは、リソースグループ ID とリージョンが自動的に選択されます。必要に応じて [ノード仕様]、[数量]、および [サブスクリプション期間] を選択し、[今すぐ購入] をクリックします。
次のセクションでは、購入プロセス中に発生する可能性のある一般的なエラーについて説明します。Lingjun リソースの購入時に「現在のリソースグループの情報が注文に含まれていません」というエラーが表示されるのはなぜですか?
原因: このエラーは、購入ページで選択したリージョンがリソースグループのリージョンと一致しないために発生します。これは、購入プロセスを開始した後にリージョンを切り替えた場合に発生する可能性があります。
解決策: リソースグループが作成されたリージョンに切り替えてください。
「指定されたインスタンスタイプはゾーンで在庫切れです」というエラーを解決するにはどうすればよいですか?
原因: 選択したインスタンスタイプは、現在のリージョンの在庫不足のため、一時的に利用できません。
解決策: 別のノード仕様を選択してください。
「現在の種類のインスタンスは一時的にサポートされていません」というエラーはどういう意味ですか?
原因: このエラーは、選択したインスタンスタイプが現在のリージョンで販売されていないことを示します。これは、一時的な在庫切れとは異なります。
解決策: このリージョンでサポートされている別のノード仕様を選択してください。
支払いが完了すると、購入したリソースが注文リストページに表示されます。
システムは自動的に購入を各ノードの個別の注文に分割します。これにより、各ノードのサブスクリプションを個別に管理できます (たとえば、更新やサブスクリプションの解除など)。
従量課金リソースの購入
この機能は現在、許可リストに登録されたユーザーのみが利用できます。アクセスをリクエストするには、営業担当者にお問い合わせください。
[Lingjun リソース] タブで、リストからリソースグループを見つけ、[アクション] 列の をクリックします。

または、リソースグループ名をクリックします。リソースグループの詳細ページの右上隅で、 をクリックします。

[新規従量課金注文] ページでは、[リージョン]、[リソースタイプ]、および [リソースグループ] がデフォルトで選択されています。必要に応じて [リソース仕様] を選択し、購入するノードの [数量] を設定します。パラメーターを設定した後、[OK] をクリックします。

購入が完了したら、課金方法でフィルターして、サブスクリプションまたは従量課金の注文を表示できます。
重要不要になった従量課金の Lingjun リソースに対する不要な料金を避けるため、[注文情報] ページに移動し、[アクション] 列の [停止] をクリックします。ノードを停止すると、その上で実行されているタスクはすべて失敗します。注意して進めてください。
関連ドキュメント
リソースグループを作成し、計算リソースを購入した後、次の操作を実行できます。
リソースグループの詳細ページで、リソースグループの情報と購入したリソースを表示および管理します。詳細については、「リソースの管理」をご参照ください。
リソースクォータを設定して、これらのリソースをトレーニングタスクに割り当てます。詳細については、「リソースクォータの作成」をご参照ください。