資料集加速器(DatasetAccelerator,簡稱DatasetAcc)依託於阿里雲構建的PaaS服務,主要解決雲上AI加速-資料集加速的情境。在機器學習訓練情境下,通過對客戶訓練的資料集進行預分析和處理,為各種雲原生的訓練引擎提供統一的資料集訪問加速方案,最終提升整體訓練效率。
架構圖
資料集加速器的架構圖如下:
使用限制
在使用資料集加速器之前,請您先瞭解以下使用限制。
僅支援對儲存在阿里雲上的資料集進行加速,例如:OSS或CPFS。
僅支援儲存在阿里雲上的非加密資料集。
資料集加速器內的資料是唯讀狀態,不支援動態寫入資料。
單個資料集加速執行個體支援加速的資料集容量最多為100 TB。
計費說明
資料集加速器按購買容量和時間長度計費,計費詳情請參見資料集加速器(DatasetAccelerator)計費說明。
產品特性
支援圖片、文本、視頻等海量小檔案的訓練最佳化。
通過感知深度學習訓練的模型類型、網路結構,對圖片、文本、視頻等資料進行預先打包和處理,提升海量小檔案訓練情境的效能。
全託管,開箱即用。
雲上全託管服務,操作簡單,開通即可使用。
彈性可伸縮。
依託於雲上IaaS(Infrastructure-as-a-Service)層能力,實現資源快速擴容、彈性可伸縮。
共用使用。
多個訓練叢集可以共用使用資料集加速器內的資料集進行訓練。
安全多租戶,確保資料訪問安全。
實現多租戶隔離,保障不同使用者的資料安全。
基本概念
在使用資料集加速器之前,請您先瞭解以下基本概念。
資料集加速執行個體(Instance)
資料集加速產品的計費單位和管理單位。在資料集加速器建立預付費執行個體時,會預定對應的雲上相關資源,所以在建立執行個體時即開始計費;在後付費情境中,加速執行個體的收費按照加速槽的用量按需付費。
加速槽(Slot)
單個資料集服務單位。一個資料集加速執行個體可以建立多個加速槽,一個加速槽用於加速一個資料集,可以實現多個深度學習訓練任務使用不同的資料集同時訓練的情境。
資料集加速執行個體和加速槽的關係
一個使用者可以開通多個資料集加速執行個體,每個資料集加速執行個體可以申請多個不同容量的資料集加速槽,即資料集加速執行個體:資料集加速槽=1:n,一個資料集加速槽和一個資料集儲存綁定。
操作流程
資料集加速器完整的使用流程,主要包括以下步驟。
您可以綜合考慮自身業務、團隊規模、訓練頻次及各種訓練的資料集大小,來建立資料集加速執行個體。一個資料集加速執行個體可以通過建立多個加速槽,來支援多個資料集加速(對應不同的訓練任務)。
因資料集加速器需要額外消耗雲上資源,如果您需要確保對重要的訓練任務的資料進行加速,建議通過預付費模式預先鎖定資料集加速執行個體的空間大小。
在選定的資料集加速執行個體中,根據訓練使用的一個資料集大小,建立資料集加速槽。一個資料集加速執行個體可以包含多個加速槽,所有加速槽的儲存總和不能超過所屬的資料集加速執行個體的容量。
建立加速槽,系統會根據資料類型、資料大小、訓練的架構及模型等因素,對關聯的資料集資料進行資料預先處理。在完成加速初始化工作後,資料集加速器會提供相關介面,供訓練任務直接使用。
在PAI平台建立資料集時,支援開啟資料集加速功能。您可以在建立DSW執行個體或提交DLC訓練任務時,直接使用已開啟加速的資料集,提升資料讀取效率。