Platform for AI (PAI) のDeep Learning Containers (DLC) でトレーニングジョブを送信すると、コードで使用できる複数の一般的な環境変数が自動的に挿入されます。 このトピックでは、DLCで提供される環境変数について説明します。
共通環境変数
Lingjun AI Computing Service (Lingjun) で使用される環境変数の詳細については、「RDMA: high-performance networks For distributed training」トピックの「高性能ネットワーク変数の設定」を参照してください。
PyTorch環境変数
分散PyTorchトレーニングタスクでは、マスターノードとワーカーノードが異なる役割を果たします。 通信を許可するには、ノード間の接続を確立する必要があります。 DLCは、マスターノードのアドレスやポート番号など、必要な情報を通信するための環境変数を提供します。 次の表に、DLCのPyTorchトレーニングタスクの一般的な環境変数を示します。
環境変数 | 説明 |
MASTER_ADDR | マスターノードのサービスアドレス。 例: |
マスター_ポート | マスターノードのポート。 例: 23456。 |
WORLD_サイズ | 分散トレーニングタスクのノードの総数。 たとえば、1つのマスターノードと1つのワーカーノードを含むタスクを送信した場合、WORLD_SIZEパラメーターは2に設定されます。 |
ランク | ノードのインデックス。 たとえば、1つのマスターノードと2つのワーカーノードを含むジョブを送信した場合、マスターノード、ワーカーノード-0、ワーカーノード-1のRANKパラメーターは、それぞれ0、1、2に設定されます。 |
TensorFlow環境変数
分散TensorFlowトレーニングタスクは、TF_CONFIG環境変数を使用して分散ネットワークトポロジを構築します。 次の表に、DLCのTensorFlowトレーニングタスクの一般的な環境変数を示します。
環境変数 | 説明 |
TF_CONFIG | TensorFlowトレーニングタスクの分散ネットワークトポロジ。 例:
|