提交DLC訓練任務時,PAI會自動注入多個通用環境變數,便於您在代碼中直接使用。本文為您介紹DLC系統中預設提供的環境變數列表。
公用環境變數
基於靈駿智算的環境變數,關於環境變數的說明,請參見配置高效能網路變數。
PyTorch環境變數
在PyTorch分布式訓練架構中,Master和Worker扮演不同的角色並需要相互建立串連以進行通訊。在DLC中,一系列環境變數被用於同步關鍵資訊,例如將Master的地址和連接埠號碼傳遞給Worker。DLC為PyTorch訓練配置的一些通用環境變數如下:
環境變數名 | 描述 |
MASTER_ADDR | Master節點地址。例如: |
MASTER_PORT | Master節點連接埠。例如:23456。 |
WORLD_SIZE | 分布式作業的節點總數。例如,若提交一個包含1個Master和1個Worker的作業,則WORLD_SIZE設定為2。 |
RANK | 節點的Index。例如,若提交一個包含1個Master和2個Worker的作業,則Master上設定的RANK為0,Worker-0設定的RANK為1, Worker-1設定的RANK為2。 |
TensorFlow環境變數
TensorFlow分布式作業通過TF_CONFIG環境變數來構建分布式的網路拓撲資訊。DLC為TensorFlow訓練配置的通用環境變數如下:
環境變數名 | 描述 |
TF_CONFIG | TensorFlow分布式網路拓撲資訊,樣本如下:
|