在大模型時代,AI算力需求旺盛。因此,PAI特別推出了競價任務功能,提供了一定數目的算力資源,通過競價方式提供給客戶,來緩解客戶算力緊張的情況。相較於普通的公用資源執行個體(隨用隨付執行個體),競價資源通常在價格上有一定幅度的折扣,協助您以較低成本擷取所需的AI算力,從而降低任務運行所需的資源成本。在使用靈駿智算類型的資源建立DLC任務時,您可以通過選擇競價資源來使用該功能。
使用限制
使用競價任務功能前,請聯絡您的商務經理添加白名單。
僅支援在華北6(烏蘭察布)、新加坡地區使用競價任務功能。
僅靈駿智算資源提供競價任務功能。
競價任務有如下功能限制:
不支援轉換為訂用帳戶執行個體。
不支援變更執行個體規格和頻寬。
不支援備案服務。
不支援大客戶折扣。
競價資源特點
競價資源的市場價格會隨供需變化而浮動,相對於隨用隨付執行個體能最高節約90%的執行個體成本。
由於競價資源為阿里雲所有使用者共同搶佔,不是穩定承諾可用的計算資源,因此使用競價資源運行DLC任務時,需關注以下注意事項。
資源申請:使用競價資源的DLC任務提交後,即開始為使用者搶佔執行個體資源,當阿里雲的競價資產庫存不足時,有可能存在不能立即搶佔到執行個體資源的情況,此時會持續為您申請競價資源,在此階段任務會表現為等待狀態。
資源回收:競價資源存在中斷回收機制,與市場價格、執行個體庫存以及建立任務時設定的單台執行個體上限價格、執行個體使用時間長度有關。當您申請到競價資源後,DLC任務即開始建立並運行。當競價資源出價小於系統平均價格或資產庫存不足時,會被回收。此時DLC任務資源可能會在沒有任何提示的情況下被回收,任務表現為失敗結束。為了確保您的競價任務能夠持續穩定運行,您可以:
在提交競價任務時開啟自動容錯(AIMaster)開關。開啟開關後,您的任務將自動進入競價隊列,再次參與競價,從而有機會再次運行起來。詳情請參見AIMaster:彈性自動容錯引擎。
使用EasyCkpt架構進行PyTorch大模型訓練。該訓練任務可以進行頻繁的Checkpoint儲存,支援中斷和繼續訓練。詳情請參見EasyCkpt:AI大模型高效能狀態儲存恢複。
計費規則
價格說明:
PAI競價任務的出價模式是設定您的最高價(SpotWithPriceLimit)。當DLC任務使用競價資源時,由於競價資源的市場價格會隨供需變化而浮動,因此使用相同的資源提交多個任務,其固定時間的賬單價格可能是相同的。競價資源支援使用的資源規格及出價範圍如下:
競價資源的價格會隨市場供需關係即時變化,最高出價是基於資源規格的原價,從1折到9折的離散選項。競價資源的實際市場價格和最高出價以控制台顯示為準。
資源規格 | 市場價格區間(USD/時) | 最高出價區間(USD/時) | 地區 |
ml.gu7ef.8xlarge-gu100 | 5.700~57.000 | 5.7000~51.300 | 華北6(烏蘭察布) |
ml.gu7xf.8xlarge-gu108 | 5.040~50.400 | 5.040~45.360 | |
ml.gu8xf.8xlarge-gu108 | 12.240~122.400 | 12.240~110.160 | |
ml.gu8ef.8xlarge-gu100 | 23.220~232.200 | 23.220~208.980 | 新加坡 |
查看賬單:
任務執行成功後,您可以在次日訪問費用中心頁面,查看使用競價資源執行該任務產生的費用明細。類似於PAI-DLC後付費,您可以在阿里雲賬單系統中查詢競價資源的訂單,可見使用競價資源的費用更低、更經濟。查看賬單明細的操作步驟,請參見查看賬單明細。
應用情境
適用情境:
建議以下情境使用競價資源來降低成本:
已耗用時間比較短的計算任務。
Debug狀態的計算任務。
能夠容忍過程中失敗的計算任務。
支援可中斷和繼續訓練的計算任務。例如使用EasyCkpt架構進行PyTorch大模型訓練的情境,能頻繁進行Checkpoint儲存並從Checkpoint中恢複,詳情請參見EasyCkpt:AI大模型高效能狀態儲存恢複。
不適用情境:
對穩定性要求極高的服務,請勿選擇競價資源。
操作步驟
使用靈駿智算資源提交DLC任務時使用競價資源,具體操作步驟如下:
進入建立任務頁面,詳情請參見步驟一:進入建立任務頁面。
配置以下關鍵參數,其他參數配置說明,請參見建立訓練任務。
參數
描述
資源資訊
資源類型
選擇靈駿智算。
資源來源
選擇競價資源。
任務資源
在資源規格列,單擊選擇競價資源,並設定最高出價。該出價是基於執行個體的原價,從1折到9折的離散選項,表示參與競價的上限。當競價資源的最高出價≥市場價格且庫存充足時,可申請到競價資源。
專用網路配置
專用網路配置
在下拉框中選擇已建立好的專用網路、交換器和安全性群組。
安全性群組
交換器
容錯與診斷
自動容錯
在提交競價任務時,強烈建議您開啟自動容錯開關。開啟AIMaster功能後,競價任務可以在由於系統平均價格超過客戶設定的上限價格導致資源回收後, 自動重新進入競價中,再次進行嘗試競價。競價任務可以在系統平均價格低於設定的上限價格時再次運行。關於AIMaster功能更詳細的內容介紹,請參見AIMaster:彈性自動容錯引擎。
參數配置完成後,單擊確定。
任務提交後,DLC即開始申請競價資源,以建立並運行任務。如果未能申請到競價資源,此任務將顯示為等待狀態。