プラットフォーム AI (PAI) の Deep Learning Containers (DLC) でトレーニングジョブを送信すると、システムはコードで使用できる複数の一般的な環境変数を自動的に挿入します。このトピックでは、DLC で提供される環境変数について説明します。
共通の環境変数
凌群 AI コンピューティングサービス (凌群) で使用される環境変数の詳細については、「RDMA: 分散トレーニング用のパフォーマンス専有型ネットワーク」トピックの「パフォーマンス専有型ネットワーク変数の構成」セクションをご参照ください。
PyTorch 環境変数
分散 PyTorch トレーニングジョブでは、マスターノードとワーカーノードは異なる役割を果たします。ノード間の通信を許可するには、ノード間に接続を確立する必要があります。 DLC は、マスターノードのアドレスやポート番号などの必要な情報を伝達するための環境変数を提供します。次の表に、DLC での PyTorch トレーニングジョブの一般的な環境変数を示します。
環境変数 | 説明 |
MASTER_ADDR | マスターノードのサービスアドレス。例: |
MASTER_PORT | マスターノードのポート。例: 23456。 |
WORLD_SIZE | 分散トレーニングジョブのノードの総数。たとえば、1 つのマスターノードと 1 つのワーカーノードを含むタスクを送信する場合、WORLD_SIZE パラメーターは 2 に設定されます。 |
RANK | ノードのインデックス。たとえば、1 つのマスターノードと 2 つのワーカーノードを含むジョブを送信する場合、マスターノード、ワーカーノード 0、およびワーカーノード 1 の RANK パラメーターは、それぞれ 0、1、および 2 に設定されます。 |
NPROC_PER_NODE | 各ワーカーノードの GPU の数。たとえば、ワーカーノードの GPU 仕様に GU7E タイプの GPU が 8 つ含まれている場合、このパラメーターの値は 8 です。 |
TensorFlow 環境変数
分散 TensorFlow トレーニングジョブは、TF_CONFIG 環境変数を使用して分散ネットワークトポロジを構築します。次の表に、DLC での TensorFlow トレーニングジョブの一般的な環境変数を示します。
環境変数 | 説明 |
TF_CONFIG | TensorFlow トレーニングジョブの分散ネットワークトポロジ。例: |