在提交DLC訓練任務時,您可以通過代碼配置或掛載的方式配置OSS、NAS、CPFS或MaxCompute儲存,從而方便地在訓練過程中直接讀寫相應儲存中的資料。本文為您介紹如何在DLC訓練任務中進行OSS、MaxCompute、NAS或CPFS的儲存配置。
前提條件
已開通PAI(DLC)並建立工作空間。具體操作,請參見開通PAI並建立預設工作空間。
(可選)配置OSS資料存放區時,需要完成以下準備工作:
(可選)配置NAS資料存放區時:需要建立通用型NAS檔案系統,詳情請參見建立檔案系統。
(可選)配置MaxCompute儲存時:需要開通MaxCompute並建立MaxCompute專案,詳情請參見開通MaxCompute和建立MaxCompute專案。
使用OSS儲存
通過掛載方式進行OSS儲存配置
在建立分布式訓練(DLC)任務時,掛載OSS資料。支援以下幾種掛載類型,具體配置方法,請參見建立訓練任務。
掛載類型 | 描述 |
資料集 | 通過資料集(自訂資料集和公用資料集)進行掛載,其中公用資料集只支援唯讀掛載模式。選擇Object Storage Service類型的資料集,並配置掛載路徑,當執行DLC任務時,系統會按照該路徑來訪問OSS中的資料。 |
直接掛載 | 直接掛載OSS Bucket儲存路徑。 |
當前DLC底層使用JindoFuse來掛載OSS。使用DLC的預設配置有功能限制(詳情請參見JindoFuse),並不適合所有的情境。您可以通過調整參數,來適配具體的情境。具體操作,請參見JindoFuse。
通過非掛載方式進行OSS儲存配置
DLC任務支援使用OSS Pytorch Connector或OSS SDK來讀寫OSS資料。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見OSS Pytorch Connector或OSS SDK。
使用NAS/CPFS儲存
通過掛載資料集方式進行NAS/CPFS儲存配置。您可以在建立分布式訓練(DLC)任務時,綁定NAS/CPFS類型的自訂資料集。具體配置方法,請參見NAS使用。
使用MaxCompute儲存
通過非掛載的方式進行MaxCompute儲存配置。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見MaxCompute使用。
常見問題
使用paiio讀表沒有報錯但日誌裡顯示killed?
由於資源不足,paiio未做限制,導致ODPS資料讀取到記憶體時會出現膨脹現象,同時作業系統和其他系統組件也會佔用部分記憶體。