阿里雲PAI為您提供靈駿智算資源,可用於AI開發和訓練,如果您希望進行高效能AI訓練、高效能運算,可以通過配置資源配額來使用靈駿智算資源。本文為您介紹如何新增、管理以及使用資源配額。
前提條件
已建立靈駿智算資源專有資源群組併購買了計算資源。具體操作,請參見建立資源群組併購買靈駿智算資源。
已建立一個Virtual Private Cloud、交換器和安全性群組。詳情請參見建立和管理專用網路和建立安全性群組。
新增資源配額
通過新增資源配額來合理分配資源集區中的資源。具體操作步驟如下:
登入並進入PAI控制台的AI計算資源 > 資源配額頁面。
在靈駿智算資源頁簽中,單擊新增資源配額。
在新增資源配額頁面中,配置以下參數,完成後單擊提交。
參數
描述
名稱
根據介面提示設定資源配額的名稱。
調度策略
選擇合適的調度策略,提高算力資源的利用率,取值如下:
智能策略
均衡策略
遍曆策略
FIFO策略
關於各個調度策略的原理介紹,請參見調度策略。
關聯工作空間
選擇所屬的工作空間後,該資源配額將與該工作空間綁定。
描述
對資源配額進行簡單的描述,以區分不同的資源配額。
來源類型
支援以下兩種配置:
專有資源群組:選擇資源集區中的資源群組,將從該資源群組中分配資源。
已有資源配額:從已有的資源配額中分配資源。
來源
選擇已建立的專有資源群組或資源配額。
規格/資源
單擊添加,從已有的資源配額或專有資源群組中選擇合適的資源規格和節點數量。
專用網路
在下拉框中選擇已建立好的VPC、交換器和安全性群組。
說明後續如果您有訪問公網的需求,還需對此處綁定的VPC進行公網NAT Gateway的配置並綁定EIP,因此建議選擇的VPC為您後續用於訪問公網的VPC。配置公網NAT Gateway的SNAT功能操作詳情可參見使用公網NAT GatewaySNAT功能訪問互連網。
安全性群組
交換器
管理資源配額
建立資源配額後,您可以單擊資源配額名稱,來查看資源配額詳情、監控指標等,並進行管理操作。還可以通過擴縮容、新增子級資源配額來最佳化資源配置。具體操作,請參見管理資源配額。
使用資源配額
綁定工作空間
只有將資源配額綁定到指定的工作空間後,才能使用其進行AI開發、訓練任務和服務部署。具體操作,請參見資源配額(Quota)功能介紹。
使用已綁定工作空間的資源配額進行AI開發、訓練和服務部署。
鏡像選擇
使用PAI靈駿資源配額進行分布式訓練(DLC)時,涉及伺服器、網路、驅動、訓練架構等軟硬體的協同,因此建議您直接使用PAI官方鏡像, 或基於PAI官方鏡像構建鏡像。
說明使用您自有的鏡像時,可能需要額外進行驅動、架構、軟體版本的適配,才能充分應用靈駿智算資源的高效能。
鏡像名稱
架構
機型
CUDA
作業系統
地區
開發語言&版本
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
華北6(烏蘭察布)
Python3.10
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
華北6(烏蘭察布)
Python3.10
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
華北6(烏蘭察布)
Python3.10
提交DLC訓練任務選擇靈駿資源配額。具體操作,請參見建立訓練任務。
基於靈駿智算資源在DSW中開發模型。具體操作,請參見建立DSW執行個體。
部署EAS服務。具體操作,請參見服務部署:控制台。