在進行資料處理或模型訓練之前,您需要準備好指定的資料集。PAI-AI資產管理提供了強大的資料集管理功能,允許您建立和管理資料集及其多個版本。通過資料集版本管理,您可以精確複現實驗、追蹤資料版本、記錄資料變更的血緣關係,並在新版本出現問題時快速切換至舊版本,從而確保業務的連續性。
資料集簡介
資料集管理功能支援對基礎資料集和標註資料集進行全面管理。基礎資料集通常包含大量的原始資訊,主要用於預訓練模型以捕捉廣泛的特徵和模式;標註資料集是經過人工標註的、具有明確標籤的資料,主要用於模型微調和評估,以提高模型在特定任務上的效能。
專案 | 基礎資料集 | 標註資料集 |
定義 | 未經標註的未經處理資料 | 經人工標註的帶標籤資料 |
資料處理 | 資料清洗、去重等 | 資料標註、驗證等 |
應用情境 |
|
|
進入資料集管理
登入PAI控制台。
在頂部左上方根據實際情況選擇地區。
在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。
在左側導覽列選擇AI資產管理 > 資料集。
建立基礎資料集
在自訂資料集 > 基礎資料集頁簽下單擊建立資料集,在建立資料集時,資料儲存類型支援Object Storage Service、檔案儲存體(通用型NAS、極速型NAS、CPFS、智算CPFS)和雲原生MaxCompute(MaxCompute),關鍵參數配置如下:
儲存類型為Object Storage Service
參數 | 描述 |
類型 | 選擇資料的類型,支援圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。 |
所有者 | 選擇資料集所有者。僅工作空間管理員可配置該參數。 |
匯入格式/OSS路徑 | |
預設掛載路徑 | 資料的預設掛載路徑,常用於DSW和DLC中:
|
開啟版本加速 | 當匯入格式選擇檔案夾時,支援開啟資料集版本加速。關鍵配置如下:
|
儲存類型為檔案儲存體
參數 | 描述 |
類型 | 選擇資料的類型,支援圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。 |
所有者 | 選擇資料集所有者。僅工作空間管理員可配置該參數。 |
選擇檔案系統 | 選擇檔案系統,和資料儲存類型對應。 |
檔案系統掛載點 | 配置掛載點來訪問NAS檔案系統。 |
檔案系統路徑 | 配置NAS中已有的儲存路徑。例如 |
預設掛載路徑 | 資料的預設掛載路徑,常用於DSW和DLC中:
|
開啟版本加速 | 當資料儲存類型為通用型NAS、極速型NAS或CPFS時,支援開啟資料集版本加速。關鍵配置如下:
|
儲存類型為雲原生MaxCompute(MaxCompute)
參數 | 描述 |
類型 | 僅支援表格類型的資料。 |
所有者 | 選擇資料集所有者。僅工作空間管理員可配置該參數。 |
預設掛載路徑 | 資料的預設掛載路徑,常用於DSW和DLC中:
|
開啟版本加速 | 支援開啟資料集版本加速。關鍵配置如下:
|
建立基礎資料集版本
在自訂資料集 > 基礎資料集頁簽下單擊指定資料集操作列的建立版本。
關鍵說明如下:
資料集名稱、儲存類型、資料類型與原資料集V1版本相同,不可修改。
資料集版本由系統預設產生,不可修改。
其他關鍵參數配置,請參見建立基礎資料集中的參數說明。
查看公用資料集
系統內建多種公用資料集(如MMLU、CMMLU、GSM8K等),您可以在公用資料集頁簽下單擊資料集名稱,查看公用資料集基本資料。
管理資料集
對於基礎資料集,您可以對其進行版本列表查看、建立版本、公開和刪除等操作;對於標註資料集,您可以對其進行資料查看、公開和刪除等操作。
關鍵說明如下:
對於可見範圍為僅資料集所有者可見的資料集,您也可以單擊公開資料集,將資料集在工作空間內公開,讓所有工作空間成員均可以查看該資料集。一旦公開後,該資料集後續不能再轉為僅資料集所有者可見,請謹慎操作。
通過RAM使用者查看資料集資料時,如果提示沒有存取權限,請為RAM使用者授權。
刪除資料集時,可能會影響已有的任務正常運行。一旦刪除,則不可恢複,請謹慎操作。