全部產品
Search
文件中心

Platform For AI:建立及管理資料集

更新時間:Nov 19, 2024

在進行資料處理或模型訓練之前,您需要準備好指定的資料集。PAI-AI資產管理提供了強大的資料集管理功能,允許您建立和管理資料集及其多個版本。通過資料集版本管理,您可以精確複現實驗、追蹤資料版本、記錄資料變更的血緣關係,並在新版本出現問題時快速切換至舊版本,從而確保業務的連續性。

資料集簡介

資料集管理功能支援對基礎資料集和標註資料集進行全面管理。基礎資料集通常包含大量的原始資訊,主要用於預訓練模型以捕捉廣泛的特徵和模式;標註資料集是經過人工標註的、具有明確標籤的資料,主要用於模型微調和評估,以提高模型在特定任務上的效能。

專案

基礎資料集

標註資料集

定義

未經標註的未經處理資料

經人工標註的帶標籤資料

資料處理

資料清洗、去重等

資料標註、驗證等

應用情境

  • 無監督學習

  • 預訓練模型,捕捉廣泛特徵

  • 監督學習、模型評估

  • 微調模型,提高特定任務效能

進入資料集管理

  1. 登入PAI控制台

  2. 在頂部左上方根據實際情況選擇地區。

  3. 在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。

  4. 在左側導覽列選擇AI資產管理 > 資料集

建立基礎資料集

自訂資料集 > 基礎資料集頁簽下單擊建立資料集,在建立資料集時,資料儲存類型支援Object Storage Service、檔案儲存體(通用型NAS、極速型NAS、CPFS、智算CPFS)和雲原生MaxCompute(MaxCompute),關鍵參數配置如下:

image

儲存類型為Object Storage Service

參數

描述

類型

選擇資料的類型,支援圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。

所有者

選擇資料集所有者。僅工作空間管理員可配置該參數

匯入格式/OSS路徑

  • 當匯入格式為檔案時,OSS路徑需選擇一個檔案,建立好的資料集將與此檔案相對應,常用於iTAG的資料集建立。

  • 當匯入格式為檔案夾時,OSS路徑需選擇一個檔案夾路徑,可被掛載在容器中,常用於DSWDLCEAS的資料集。

預設掛載路徑

資料的預設掛載路徑,常用於DSW和DLC中:

  • 在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。

  • 在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如python /root/data/file.py

開啟版本加速

匯入格式選擇檔案夾時,支援開啟資料集版本加速。關鍵配置如下:

  • 最大容量:配置資料集加速槽容量。該容量需要大於等於資料集容量,您可以參考需要加速的資料集容量來配置。

  • 加速掛載點:預設使用內部掛載點,您也可以選擇已有的加速掛載點或建立掛載點。

    說明

    在使用靈駿智算資源情境時,如果加速掛載點選擇為建立掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換器需要與靈駿智算資源一致。

  • 加速版本預設掛載路徑:資料集版本的預設掛載路徑。

儲存類型為檔案儲存體

參數

描述

類型

選擇資料的類型,支援圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。

所有者

選擇資料集所有者。僅工作空間管理員可配置該參數

選擇檔案系統

選擇檔案系統,和資料儲存類型對應。

檔案系統掛載點

配置掛載點來訪問NAS檔案系統。

檔案系統路徑

配置NAS中已有的儲存路徑。例如/

預設掛載路徑

資料的預設掛載路徑,常用於DSW和DLC中:

  • 在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。

  • 在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如python /root/data/file.py

開啟版本加速

當資料儲存類型為通用型NAS、極速型NAS或CPFS時,支援開啟資料集版本加速。關鍵配置如下:

  • 最大容量:配置資料集加速槽容量。該容量需要大於等於資料集容量,您可以參考需要加速的資料集容量來配置。

  • 加速版本預設掛載路徑:資料集版本的預設掛載路徑。

儲存類型為雲原生MaxCompute(MaxCompute)

參數

描述

類型

僅支援表格類型的資料。

所有者

選擇資料集所有者。僅工作空間管理員可配置該參數

預設掛載路徑

資料的預設掛載路徑,常用於DSW和DLC中:

  • 在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。

  • 在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如python /root/data/file.py

開啟版本加速

支援開啟資料集版本加速。關鍵配置如下:

  • 加速初始化配置:配置加速初始化代碼後單擊測試分區選擇配置

  • 加速掛載點:預設使用內部掛載點,您也可以選擇已有的加速掛載點或建立掛載點。

    說明

    在使用靈駿智算資源情境時,如果加速掛載點選擇為建立掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換器需要與靈駿智算資源一致。

  • 加速版本預設掛載路徑:資料集版本的預設掛載路徑。

建立基礎資料集版本

自訂資料集 > 基礎資料集頁簽下單擊指定資料集操作列的建立版本

image

關鍵說明如下:

  • 資料集名稱、儲存類型、資料類型與原資料集V1版本相同,不可修改。

  • 資料集版本由系統預設產生,不可修改。

  • 其他關鍵參數配置,請參見建立基礎資料集中的參數說明。

查看公用資料集

系統內建多種公用資料集(如MMLU、CMMLU、GSM8K等),您可以在公用資料集頁簽下單擊資料集名稱,查看公用資料集基本資料。

image

管理資料集

對於基礎資料集,您可以對其進行版本列表查看、建立版本、公開和刪除等操作;對於標註資料集,您可以對其進行資料查看、公開和刪除等操作。

image

關鍵說明如下:

  • 對於可見範圍僅資料集所有者可見的資料集,您也可以單擊公開資料集,將資料集在工作空間內公開,讓所有工作空間成員均可以查看該資料集。一旦公開後,該資料集後續不能再轉為僅資料集所有者可見,請謹慎操作。

  • 通過RAM使用者查看資料集資料時,如果提示沒有存取權限,請為RAM使用者授權

  • 刪除資料集時,可能會影響已有的任務正常運行。一旦刪除,則不可恢複,請謹慎操作。