在使用資料集加速器(DatasetAccelerator)進行訓練資料加速前,您需要建立資料集加速槽來綁定資料來源的儲存地址。系統會根據資料來源類型、資料大小、訓練的架構以及模型等因素,對關聯的資料集資料進行預先處理,以提高對資料集資料的訪問速度。本文為您介紹如何建立和管理資料集加速槽。
前提條件
已建立資料集加速執行個體,具體操作,請參見建立及管理資料集加速執行個體。
建立資料集加速槽
登入PAI控制台。
進入建立加速槽配置面板。
您可以通過以下任意一種方式進入建立加速槽配置面板。
方式一:在加速槽頁簽中建立加速槽。
在左側導覽列,單擊 。
在加速槽頁簽中,單擊建立加速槽。
方式二:在加速執行個體詳情頁面建立加速槽。
說明使用該方式建立加速槽時,所屬執行個體為當前加速執行個體,不支援選擇其他加速執行個體。
在左側導覽列,單擊 。
在加速執行個體頁簽中,單擊目標執行個體名稱,進入加速執行個體詳情頁面。
在資料集加速槽頁簽中,單擊建立加速槽。
在建立加速槽配置面板,配置以下關鍵參數。
參數
描述
所屬執行個體
選擇已建立的加速執行個體。
綁定雲產品
支援將資料集加速槽綁定到與加速執行個體配置的資料來源類型一致的雲產品上。取值如下:
阿里雲Object Storage Service
讀寫屬性:設定OSS的讀寫權限。支援唯讀和可讀寫。
選定OSS路徑:選擇資料集在OSS中的儲存目錄。
阿里雲檔案儲存體(通用型NAS)&阿里雲檔案儲存體(極速型NAS)
選擇檔案系統:選擇已建立的檔案系統的ID。
檔案系統掛載點:選擇掛載點,通過掛載點訪問檔案系統。
檔案系統路徑:選擇NAS中已有的儲存路徑。預設為
/
。
最大容量
配置資料集加速槽容量。您可以參考需要加速的具體資料集容量來配置。
重要加速槽容量需要大於等於資料集容量。
掛載點
僅綁定雲產品選擇阿里雲Object Storage Service時,支援配置該參數。
在使用資料集加速器時,通過掛載點將資料集加速器掛載到訓練叢集。在訓練叢集中進行模型訓練時,訓練任務可以通過掛載點來訪問資料集加速槽,進而讀取加速槽關聯的資料集,提高了資料集訪問效率。
支援以下兩種配置方法:
選擇掛載點:選擇已有的掛載點。
建立掛載點:配置以下參數,建立新的掛載點。
掛載點類型:僅支援VPC。
VPC網路:選擇已建立的專用網路。如果沒有可用的專用網路,您也可以單擊建立專用網路進行建立。
交換器:選擇已建立的交換器。如果沒有可用的交換器,您也可以單擊建立交換器進行建立。
說明資料集加速器只支援專用網路類型的掛載點。
一個專用網路類型掛載點,可以被同VPC下不同交換器下的訓練叢集使用。
添加掛載點時,檔案系統會佔用一個IP地址,建議您選擇內網IP較多的交換器。
掛載點只支援被同一VPC網路的訓練叢集掛載。
啟動自動回收
開啟啟動自動回收開關,您可以配置資料集加速槽的已耗用時間或停止時間,等到指定時間時,系統會自動停止資料集加速槽。
單擊提交。
建立完成後,系統將初始化加速槽執行個體,待狀態變為運行中時,表示加速槽執行個體可以使用。
管理資料集加速槽
您可以在加速槽頁簽或加速執行個體詳情頁面管理資料集加速槽。
單擊加速槽名稱,進入加速槽詳情頁面,查看加速槽的基本資料。
將滑鼠懸浮到②位置,查看加速槽資料集儲存類型。
您可以停止或刪除不再使用的加速槽,或複製一個新的加速槽。您也可以單擊自動回收為加速槽配置已耗用時間或自動停止時間。
管理掛載點
您可以單擊加速槽名稱進入加速槽詳情頁面,在該頁面管理掛載點。
將滑鼠懸浮在掛載點名稱上,來查看掛載點的配置資訊。
單擊掛載點名稱,會展示安裝資料集加速器用戶端的部署配置。您可以在部署配置面板,單擊下載按鈕,下載資料集加速器用戶端的YAML檔案,後續在訓練叢集中配置資料集加速器時使用。
後續步驟
您可以啟用資料集的加速功能,以便在建立DSW執行個體或提交DLC任務時使用,從而加快對資料集的訪問速度。詳情請參見在PAI平台使用資料集加速器。