為了方便您快速提交訓練任務,您需要在建立訓練任務前準備好所需的資源,並配置好可能需要使用的鏡像、資料集和代碼集。PAI支援添加檔案系統NAS、CPFS或Object Storage Service類型的資料集以及Git代碼集。本文介紹提交訓練任務前所需的準備工作。
前提條件
如果您使用OSS作為儲存系統,請確保已經根據業務需求為DLC授予了OSS存取權限。否則掛載OSS後,進行資料訪問時,可能產生I/O錯誤。關於如何為DLC授予OSS存取權限,請參見雲產品依賴與授權:DLC。
使用限制
OSS並非一個真正的檔案系統,而是一個分布式Object Storage Service。因此使用OSS作為儲存系統時,不支援檔案系統的部分功能。例如,掛載OSS後,不支援對已經存在的檔案進行追加寫和覆蓋寫。
步驟一:準備資源
提交訓練任務前,您需要準備計算資源,用於後續AI訓練。以下資源任選其一即可:
步驟二:準備鏡像
提交訓練任務前,請準備訓練環境需要安裝的鏡像。以下鏡像任選其一即可:
官方鏡像:針對特定於阿里雲服務的最佳化和整合,PAI提供了基於不同架構的官方鏡像。此類鏡像適合在阿里雲平台上進行訓練任務,能夠獲得更好的相容性和效能。前往PAI控制台的AI資產管理鏡像頁面,在鏡像頁面的PAI官方鏡像頁簽中,您可以通過篩選使用子產品為DLC,來查看支援提交DLC任務的鏡像列表詳細資料。
自訂鏡像:如果您的訓練任務需要特殊的環境或依賴,可選擇使用您添加到PAI的自訂鏡像,在選擇前,您需要先將自訂鏡像添加到PAI中。為了方便管理和使用,建議您在工作空間的自訂鏡像。
頁面中,將該鏡像添加為PAI的AI資產,便於多個訓練任務直接選擇使用。操作詳情請參見重要使用靈駿智算資源提交訓練任務時,如果選擇使用自訂鏡像提交訓練任務,則相關注意事項,請參見RDMA:使用高效能網路進行分布式訓練。
鏡像地址:提交訓練任務時,支援填寫您的自訂鏡像或官方鏡像地址。您可以前往PAI控制台的AI資產管理鏡像頁面,查看鏡像地址。
步驟三:準備資料集
提交訓練任務前,您可以將訓練任務所需的資料上傳至Object Storage Service、Apsara File Storage NAS或檔案儲存體CPFS後,並將其建立為訓練任務可直接使用的自訂資料集。您也可以直接掛載Object Storage Service資料或公用資料集。以下內容為您介紹如何準備自訂資料集:
支援的資料集類型
支援Object Storage Service、檔案儲存體(通用型NAS)、檔案儲存體(極速型NAS)、檔案儲存體(CPFS)和檔案儲存體(智算CPFS)類型的資料集。除檔案儲存體(智算CPFS)類型外,其他類型的資料集均支援開啟資料集加速功能。後續提交分布式訓練任務時,可直接使用已開啟加速的資料集,提升資料讀取效率。
建立資料集
操作入口及相關參數的配置詳情請參見建立及管理資料集。準備資料集時,有以下注意事項:
建立用於訓練任務的資料集時,僅支援從阿里雲雲產品這種類型的資料集,且屬性必須為檔案夾。
由於OSS與NAS不同,並非一個真正的檔案系統,而是一個分布式Object Storage Service。因此使用OSS作為儲存系統時,不支援檔案系統的部分功能。例如,掛載OSS後,不支援對已經存在的檔案追加寫和覆蓋寫。
如果建立的資料集類型為檔案儲存體(CPFS),則在提交訓練任務時,需要配置專用網路,並選擇與CPFS一致的專用網路。否則,提交的DLC訓練任務會運行異常,任務可能長時間處於環境準備中狀態。
開啟資料集加速功能
您可以開啟資料集加速功能,在提交訓練任務時,可以直接使用已開啟加速的資料集,提升資料讀取效率。詳情請參見在PAI平台使用資料集加速器。
步驟四:準備代碼集
提交訓練任務前,您需將訓練任務可能需要使用的代碼添加為代碼集。為了方便管理和使用,建議您在工作空間的代碼配置。
頁面中,將該代碼添加為PAI的AI資產,便於多個訓練任務直接選擇使用。操作詳情請參見相關文檔
完成準備工作後,您可以建立訓練任務,詳情請參見建立訓練任務。