全部產品
Search
文件中心

Platform For AI:通用環境變數列表

更新時間:Jul 13, 2024

提交DLC訓練任務時,PAI會自動注入多個通用環境變數,便於您在代碼中直接使用。本文為您介紹DLC系統中預設提供的環境變數列表。

公用環境變數

基於靈駿智算的環境變數,關於環境變數的說明,請參見配置高效能網路變數

PyTorch環境變數

在PyTorch分布式訓練架構中,Master和Worker扮演不同的角色並需要相互建立串連以進行通訊。在DLC中,一系列環境變數被用於同步關鍵資訊,例如將Master的地址和連接埠號碼傳遞給Worker。DLC為PyTorch訓練配置的一些通用環境變數如下:

環境變數名

描述

MASTER_ADDR

Master節點地址。例如:dlc18isgeayd****-master-0,通常為Master節點的Service地址。

MASTER_PORT

Master節點連接埠。例如:23456。

WORLD_SIZE

分布式作業的節點總數。例如,若提交一個包含1個Master和1個Worker的作業,則WORLD_SIZE設定為2。

RANK

節點的Index。例如,若提交一個包含1個Master和2個Worker的作業,則Master上設定的RANK為0,Worker-0設定的RANK為1, Worker-1設定的RANK為2。

TensorFlow環境變數

TensorFlow分布式作業通過TF_CONFIG環境變數來構建分布式的網路拓撲資訊。DLC為TensorFlow訓練配置的通用環境變數如下:

環境變數名

描述

TF_CONFIG

TensorFlow分布式網路拓撲資訊,樣本如下:

{
  "cluster": {
    "worker": [
      "dlc1y3madghd****-worker-0.t1612285282502324.svc:2222",
      "dlc1y3madghd****-worker-1.t1612285282502324.svc:2222"
    ]
  },
  "task": {
    "type": "worker",
    "index": 0
  },
  "environment": "cloud"
}