すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:一般的な環境変数

最終更新日:May 09, 2025

プラットフォーム AI (PAI) の Deep Learning Containers (DLC) でトレーニングジョブを送信すると、システムはコードで使用できる複数の一般的な環境変数を自動的に挿入します。このトピックでは、DLC で提供される環境変数について説明します。

共通の環境変数

凌群 AI コンピューティングサービス (凌群) で使用される環境変数の詳細については、「RDMA: 分散トレーニング用のパフォーマンス専有型ネットワーク」トピックの「パフォーマンス専有型ネットワーク変数の構成」セクションをご参照ください。

PyTorch 環境変数

分散 PyTorch トレーニングジョブでは、マスターノードとワーカーノードは異なる役割を果たします。ノード間の通信を許可するには、ノード間に接続を確立する必要があります。 DLC は、マスターノードのアドレスやポート番号などの必要な情報を伝達するための環境変数を提供します。次の表に、DLC での PyTorch トレーニングジョブの一般的な環境変数を示します。

環境変数

説明

MASTER_ADDR

マスターノードのサービスアドレス。例: dlc18isgeayd****-master-0

MASTER_PORT

マスターノードのポート。例: 23456。

WORLD_SIZE

分散トレーニングジョブのノードの総数。たとえば、1 つのマスターノードと 1 つのワーカーノードを含むタスクを送信する場合、WORLD_SIZE パラメーターは 2 に設定されます。

RANK

ノードのインデックス。たとえば、1 つのマスターノードと 2 つのワーカーノードを含むジョブを送信する場合、マスターノード、ワーカーノード 0、およびワーカーノード 1 の RANK パラメーターは、それぞれ 0、1、および 2 に設定されます。

NPROC_PER_NODE

各ワーカーノードの GPU の数。たとえば、ワーカーノードの GPU 仕様に GU7E タイプの GPU が 8 つ含まれている場合、このパラメーターの値は 8 です。

TensorFlow 環境変数

分散 TensorFlow トレーニングジョブは、TF_CONFIG 環境変数を使用して分散ネットワークトポロジを構築します。次の表に、DLC での TensorFlow トレーニングジョブの一般的な環境変数を示します。

環境変数

説明

TF_CONFIG

TensorFlow トレーニングジョブの分散ネットワークトポロジ。例:

{
  "cluster": {
    "worker": [
      "dlc1y3madghd****-worker-0.t1612285282502324.svc:2222",
      "dlc1y3madghd****-worker-1.t1612285282502324.svc:2222"
    ]
  },
  "task": {
    "type": "worker",
    "index": 0
  },
  "environment": "cloud"
}