全部產品
Search
文件中心

Platform For AI:在DLC訓練任務中使用雲端儲存

更新時間:Dec 10, 2024

在提交DLC訓練任務時,您可以通過代碼配置或掛載的方式配置OSS、NAS、CPFS或MaxCompute儲存,從而方便地在訓練過程中直接讀寫相應儲存中的資料。本文為您介紹如何在DLC訓練任務中進行OSS、MaxCompute、NAS或CPFS的儲存配置。

前提條件

使用OSS儲存

通過掛載方式進行OSS儲存配置

在建立分布式訓練(DLC)任務時,掛載OSS資料。支援以下幾種掛載類型,具體配置方法,請參見建立訓練任務image

掛載類型

描述

資料集

通過資料集(自訂資料集和公用資料集)進行掛載,其中公用資料集只支援唯讀掛載模式。選擇Object Storage Service類型的資料集,並配置掛載路徑,當執行DLC任務時,系統會按照該路徑來訪問OSS中的資料。

直接掛載

直接掛載OSS Bucket儲存路徑。

當前DLC底層使用JindoFuse來掛載OSS。使用DLC的預設配置有功能限制(詳情請參見JindoFuse),並不適合所有的情境。您可以通過調整參數,來適配具體的情境。具體操作,請參見JindoFuse

通過非掛載方式進行OSS儲存配置

DLC任務支援使用OSS Pytorch Connector或OSS SDK來讀寫OSS資料。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見OSS Pytorch ConnectorOSS SDKimage

使用NAS/CPFS儲存

通過掛載資料集方式進行NAS/CPFS儲存配置。您可以在建立分布式訓練(DLC)任務時,綁定NAS/CPFS類型的自訂資料集。具體配置方法,請參見NAS使用image

使用MaxCompute儲存

通過非掛載的方式進行MaxCompute儲存配置。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見MaxCompute使用image

常見問題

使用paiio讀表沒有報錯但日誌裡顯示killed?

由於資源不足,paiio未做限制,導致ODPS資料讀取到記憶體時會出現膨脹現象,同時作業系統和其他系統組件也會佔用部分記憶體。