全部產品
Search
文件中心

Platform For AI:準備工作

更新時間:Jul 13, 2024

為了方便您快速提交訓練任務,您需要在建立訓練任務前準備好所需的資源,並配置好可能需要使用的鏡像、資料集和代碼集。PAI支援添加檔案系統NAS、CPFS或Object Storage Service類型的資料集以及Git代碼集。本文介紹提交訓練任務前所需的準備工作。

前提條件

如果您使用OSS作為儲存系統,請確保已經根據業務需求為DLC授予了OSS存取權限。否則掛載OSS後,進行資料訪問時,可能產生I/O錯誤。關於如何為DLC授予OSS存取權限,請參見雲產品依賴與授權:DLC

使用限制

OSS並非一個真正的檔案系統,而是一個分布式Object Storage Service。因此使用OSS作為儲存系統時,不支援檔案系統的部分功能。例如,掛載OSS後,不支援對已經存在的檔案進行追加寫和覆蓋寫。

步驟一:準備資源

提交訓練任務前,您需要準備計算資源,用於後續AI訓練。以下資源任選其一即可:

  • 準備公用資源

    完成DLC授權後,即為您準備好通用計算資源公用資源,無需您手動添加資源群組等操作。具體操作,請參見雲產品依賴與授權:DLC。在工作空間的建立任務頁面提交訓練任務時,支援選擇公用資源。

  • 準備通用計算資源

    您可以預先建立專有資源群組,併購買所需的通用計算資源。通過新增資源配額來分配專有資源群組的計算資源。後續,您只需將資源配額綁定到指定的工作空間中,就可以在該工作空間內使用資源配額提交訓練任務。詳情請參見通用計算資源配額

  • 準備靈駿智算資源

    如果您想高效能完成AI訓練任務,提交訓練任務前,您需要準備好訓練任務所需的靈駿智算資源,並關聯到工作空間內。詳情請參見靈駿智算資源配額

步驟二:準備鏡像

提交訓練任務前,請準備訓練環境需要安裝的鏡像。以下鏡像任選其一即可:

  • 官方鏡像:針對特定於阿里雲服務的最佳化和整合,PAI提供了基於不同架構的官方鏡像。此類鏡像適合在阿里雲平台上進行訓練任務,能夠獲得更好的相容性和效能。前往PAI控制台的鏡像AI資產頁面,在鏡像頁面的PAI官方鏡像頁簽中,您可以通過篩選使用子產品DLC,來查看支援提交DLC任務的鏡像列表詳細資料。image

  • 自訂鏡像:如果您的訓練任務需要特殊的環境或依賴,可選擇使用您添加到PAI的自訂鏡像,在選擇前,您需要先將自訂鏡像添加到PAI中。為了方便管理和使用,建議您在工作空間的AI資產管理 > 鏡像頁面中,將該鏡像添加為PAI的AI資產,便於多個訓練任務直接選擇使用。操作詳情請參見自訂鏡像

    重要

    使用靈駿智算資源提交訓練任務時,如果選擇使用自訂鏡像提交訓練任務,則相關注意事項,請參見RDMA:使用高效能網路進行分布式訓練

步驟三:準備資料集

提交訓練任務前,您需將訓練任務所需的資料上傳至OSS或NAS後,建立為訓練任務可直接使用的資料集。

支援的資料集類型

支援阿里雲Object Storage Service、阿里雲檔案儲存體(通用型NAS)、阿里雲檔案儲存體(極速型NAS)、阿里雲檔案儲存體(CPFS)和阿里雲檔案儲存體(智算CPFS)類型的資料集。除阿里雲檔案儲存體(智算CPFS)類型外,其他類型的資料集均支援開啟資料集加速功能。後續提交分布式訓練任務時,可直接使用已開啟加速的資料集,提升資料讀取效率。

建立資料集

操作入口及其他參數的配置詳情請參見建立及管理資料集。準備資料集時,有以下注意事項:

  • 建立用於訓練任務的資料集時,僅支援從阿里雲雲產品這種類型的資料集,且屬性必須為檔案夾

  • 由於OSS與NAS不同,並非一個真正的檔案系統,而是一個分布式Object Storage Service。因此使用OSS作為儲存系統時,不支援檔案系統的部分功能。例如,掛載OSS後,不支援對已經存在的檔案追加寫和覆蓋寫。

  • 如果建立的資料集類型為阿里雲檔案儲存體(CPFS),則在提交訓練任務時,需要配置專用網路,並選擇與CPFS一致的專用網路。否則,提交的DLC訓練任務會運行異常,表現為已出隊。

開啟資料集加速功能

您可以開啟資料集加速功能,在提交訓練任務時,可以直接使用已開啟加速的資料集,提升資料讀取效率。詳情請參見在PAI平台使用資料集加速器

步驟四:準備代碼集

提交訓練任務前,您需將訓練任務可能需要使用的代碼添加為代碼集。為了方便管理和使用,建議您在工作空間的AI資產管理 > 代碼配置頁面中,將該代碼添加為PAI的AI資產,便於多個訓練任務直接選擇使用。操作詳情請參見代碼配置

相關文檔

完成準備工作後,您可以建立訓練任務,詳情請參見建立訓練任務