提交DLC训练任务时,PAI会自动注入多个通用环境变量,便于您在代码中直接使用。本文为您介绍DLC系统中默认提供的环境变量列表。
公共环境变量
基于灵骏智算的环境变量,关于环境变量的说明,请参见配置高性能网络变量。
PyTorch环境变量
在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。在DLC中,一系列环境变量被用于同步关键信息,例如将Master的地址和端口号传递给Worker。DLC为PyTorch训练配置的一些通用环境变量如下:
环境变量名 | 描述 |
MASTER_ADDR | Master节点地址。例如: |
MASTER_PORT | Master节点端口。例如:23456。 |
WORLD_SIZE | 分布式作业的节点总数。例如,若提交一个包含1个Master和1个Worker的作业,则WORLD_SIZE设置为2。 |
RANK | 节点的Index。例如,若提交一个包含1个Master和2个Worker的作业,则Master上设置的RANK为0,Worker-0设置的RANK为1, Worker-1设置的RANK为2。 |
TensorFlow环境变量
TensorFlow分布式作业通过TF_CONFIG环境变量来构建分布式的网络拓扑信息。DLC为TensorFlow训练配置的通用环境变量如下:
环境变量名 | 描述 |
TF_CONFIG | TensorFlow分布式网络拓扑信息,示例如下:
|