すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:一般的な環境変数

最終更新日:Jul 22, 2024

Platform for AI (PAI) のDeep Learning Containers (DLC) でトレーニングジョブを送信すると、コードで使用できる複数の一般的な環境変数が自動的に挿入されます。 このトピックでは、DLCで提供される環境変数について説明します。

共通環境変数

Lingjun AI Computing Service (Lingjun) で使用される環境変数の詳細については、「RDMA: high-performance networks For distributed training」トピックの「高性能ネットワーク変数の設定」を参照してください。

PyTorch環境変数

分散PyTorchトレーニングタスクでは、マスターノードとワーカーノードが異なる役割を果たします。 通信を許可するには、ノード間の接続を確立する必要があります。 DLCは、マスターノードのアドレスやポート番号など、必要な情報を通信するための環境変数を提供します。 次の表に、DLCのPyTorchトレーニングタスクの一般的な環境変数を示します。

環境変数

説明

MASTER_ADDR

マスターノードのサービスアドレス。 例: dlc18isgeayd ****-master-0

マスター_ポート

マスターノードのポート。 例: 23456。

WORLD_サイズ

分散トレーニングタスクのノードの総数。 たとえば、1つのマスターノードと1つのワーカーノードを含むタスクを送信した場合、WORLD_SIZEパラメーターは2に設定されます。

ランク

ノードのインデックス。 たとえば、1つのマスターノードと2つのワーカーノードを含むジョブを送信した場合、マスターノード、ワーカーノード-0、ワーカーノード-1のRANKパラメーターは、それぞれ0、1、2に設定されます。

TensorFlow環境変数

分散TensorFlowトレーニングタスクは、TF_CONFIG環境変数を使用して分散ネットワークトポロジを構築します。 次の表に、DLCのTensorFlowトレーニングタスクの一般的な環境変数を示します。

環境変数

説明

TF_CONFIG

TensorFlowトレーニングタスクの分散ネットワークトポロジ。 例:

{
  "cluster": {
    "worker": [
      "dlc1y3madghd****-worker-0.t1612285282502324.svc:2222",
      "dlc1y3madghd****-worker-1.t1612285282502324.svc:2222"
    ]
  },
  "task": {
    "type": "worker",
    "index": 0
  },
  "environment": "cloud"
}