全部產品
Search
文件中心

Platform For AI:建立及管理資料集

更新時間:Jul 13, 2024

高品質的資料集是高精度模型的基礎,是資料準備的核心目標。阿里雲PAI提供資料集管理模組,支援將各類資料(阿里雲雲產品中的各類資料、掃描OSS檔案夾)建立為資料集,同時也內建常用的第三方公用資料集,為智能標註、模型訓練做準備。本文介紹如何建立資料集和管理資料集。

功能介紹

資料集管理模組支援建立自訂資料集和使用公用資料集:

  • 建立自訂資料集

    • 從阿里雲雲產品建立:您可以將Object Storage Service或檔案儲存體中的資料建立為資料集,此方法常用於後續的資料處理和模型訓練。

    • 通過掃描檔案夾建立:支援掃描OSS目錄中的檔案,自動產生JSONL格式的索引檔案(*.manifest),該索引檔案即為資料集,適用於智能標註iTAG情境。

  • 使用公用資料集

    資料集管理模組內建多種公用資料集(例如MMLU、CMMLU、GSM8K等),這些資料集主要來源於第三方。阿里雲不對其可用性、合規性和安全性承擔任何責任。請您謹慎考慮,在使用前查看第三方許可協議,確保合法合規使用。

前提條件

已建立工作空間,建立的資料集均與該工作空間綁定。

使用限制

  • 在華北6(烏蘭察布)地區中,建立方式僅支援選擇從阿里雲雲產品和掃描檔案夾建立資料集。

  • 僅支援在華北6(烏蘭察布)地區建立阿里雲檔案儲存體(智算CPFS)類型的資料集,不支援建立阿里雲檔案儲存體(CPFS)類型的資料集。

操作帳號和許可權要求

  • 阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。

  • RAM使用者:需要為RAM使用者添加以下許可權:

    • 資料集的相關許可權

      需要將RAM使用者添加為對應角色的工作空間成員,使其擁有對應操作的許可權。各角色的許可權詳情可前往角色與許可權列表頁面查看。如何將RAM使用者添加為工作空間成員,請參見管理工作空間成員image.png

    • 建立OSS類型資料集時,查看及使用OSS Bucket列表相應的許可權

      使用以下指令碼內容建立權限原則,並為RAM使用者授權。關於如何建立權限原則,詳情請參見建立自訂權限原則;關於如何為RAM使用者授權,詳情請參見為RAM使用者授權

      {
        "Version": "1",
        "Statement": [
          {
            "Effect": "Allow",
            "Action": [
              "oss:ListBuckets",
              "oss:GetBucketStat",
              "oss:GetBucketInfo",
              "oss:GetBucketTagging",
              "oss:GetBucketLifecycle",
              "oss:GetBucketWorm",
              "oss:GetBucketVersioning",
              "oss:GetBucketAcl",
              "oss:PutObject",
              "oss:GetBucketCors",
              "oss:PutBucketCors"
            ],
            "Resource": "acs:oss:*:*:*"
          },
          {
            "Effect": "Allow",
            "Action": [
              "oss:ListObjects",
              "oss:GetBucketAcl"
            ],
            "Resource": "acs:oss:*:*:mybucket"
          },
          {
            "Effect": "Allow",
            "Action": [
              "oss:GetObject",
              "oss:GetObjectAcl"
            ],
            "Resource": "acs:oss:*:*:mybucket/*"
          }
        ]
      }
    • 建立NAS/CPFS類型資料集時,查看及使用NAS檔案系統列表相應的許可權,包括查詢檔案系統、查詢協議服務相關資訊(僅CPFS使用)的許可權。

      使用以下指令碼內容建立權限原則,並為RAM使用者授權。關於如何建立權限原則,詳情請參見建立自訂權限原則;關於如何為RAM使用者授權,詳情請參見為RAM使用者授權

      {
        "Version": "1",
        "Statement": [
          {
            "Effect": "Allow",
            "Action": [
              "nas:DescribeFileSystems",
              "nas:DescribeProtocolMountTarget",
              "nas:DescribeProtocolService "
            ],
            "Resource": "acs:nas:*:*:filesystem/*"
          }
        ]
      }

建立自訂資料集

  1. 進入資料集管理頁面。

    1. 登入PAI控制台

    2. 在頂部左上方根據實際情況選擇地區。

    3. 在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。

    4. 在左側導覽列選擇AI資產管理 > 資料集

  2. 自訂資料集頁簽下單擊建立資料集

    • 從阿里雲雲產品建立資料集

      從阿里雲雲產品建立資料集時,資料存放區支援Object Storage Service、檔案儲存體(通用型NAS、極速型NAS、CPFS、智算CPFS)和雲原生MaxCompute(MaxCompute),關鍵參數配置說明如下:

      說明
      • 當前EAS僅支援掛載資料存放區為通用型NAS類型的資料集。

      • 僅支援在華北6(烏蘭察布)地區建立資料存放區為智算CPFS類型的資料集。

      • DLC和DSW產品支援掛載已配置傳輸加密的NAS檔案系統。

      資料存放區為Object Storage Service

      參數

      描述

      屬性

      • 檔案:選擇一個檔案,建立好的資料集將與此檔案相對應,常用於iTAG的資料集建立。

      • 檔案夾:選取一個檔案夾路徑,可被掛載在容器中,常用於DSWDLCEAS的資料集。

      資料集所有者

      選擇資料集所有者,僅工作空間管理員可配置該參數

      資料集類型

      選擇資料的類型,支援圖片、文本、音頻、視頻、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。

      預設掛載路徑

      資料的預設掛載路徑,常用於DSW和DLC中:

      • 在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。

      • 在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如python /root/data/file.py

      開啟資料集加速

      屬性選擇檔案夾時,支援開啟資料集加速。關鍵配置項說明如下:

      • 最大容量:配置資料集加速槽容量。該容量需要大於等於資料集容量,您可以參考需要加速的資料集容量來配置。

      • 加速掛載點:預設使用內部掛載點,您也可以選擇已有的加速掛載點或建立掛載點。

        說明

        在使用靈駿智算資源情境時,如果加速掛載點選擇為建立掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換器需要與靈駿智算資源一致。

      • 加速資料集預設掛載路徑:加速資料集的預設掛載路徑。

      資料存放區為檔案儲存體

      參數

      描述

      資料集所有者

      選擇資料集所有者,僅工作空間管理員可配置該參數

      資料集類型

      選擇資料的類型,支援圖片、文本、音頻、視頻、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。

      選擇檔案系統

      選擇檔案系統,和資料存放區選擇的檔案儲存體類型對應。

      檔案系統掛載點

      配置掛載點來訪問NAS檔案系統。

      檔案系統路徑

      配置NAS中已有的儲存路徑。例如/

      預設掛載路徑

      資料的預設掛載路徑,常用於DSW和DLC中:

      • 在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。

      • 在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如python /root/data/file.py

      開啟資料集加速

      當資料存放區為通用型NAS、極速型NAS或CPFS時,支援開啟資料集加速。關鍵配置項說明如下:

      • 最大容量:配置資料集加速槽容量。該容量需要大於等於資料集容量,您可以參考需要加速的資料集容量來配置。

      • 加速掛載點:預設使用內部掛載點,您也可以選擇已有的加速掛載點或建立掛載點。

        說明

        在使用靈駿智算資源情境時,如果加速掛載點選擇為建立掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換器需要與靈駿智算資源一致。

      • 加速資料集預設掛載路徑:加速資料集的預設掛載路徑。

    • 掃描檔案夾建立資料集

      參數

      描述

      資料集所有者

      選擇資料集所有者,僅工作空間管理員可配置該參數

      資料集類型

      選擇資料的類型,支援圖片、文本、音頻、視頻、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。

      路徑萬用字元

      配置萬用字元掃描過濾指定格式的檔案,掃描的檔案數量上限為10萬。

      預覽

      單擊開始掃描,系統會根據選擇的OSS路徑和萬用字元,索引相關聯的檔案並按照JSONL格式預覽。

      掃描結果檔案儲存路徑

      掃描後將得到一個dataset_****.manifest檔案,您可以修改檔案名稱並選擇該檔案儲存的OSS路徑。

  3. 單擊提交

公用資料集

  1. 進入資料集管理頁面。

    1. 登入PAI控制台

    2. 在頂部左上方根據實際情況選擇地區。

    3. 在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。

    4. 在左側導覽列選擇AI資產管理 > 資料集

  2. 公用資料集頁簽下單查看多種公用資料集。

    資料集管理模組內建多種公用資料集(例如:MMLU、CMMLU、GSM8K等),您可以單擊資料集名稱,瞭解資料集詳情。

管理資料集

您可以進入資料集管理頁面查看所有擁有許可權的資料集列表,並對資料集進行查看詳情、刪除等操作。

image

  • 您可以單擊查看資料集直接跳轉進入對應資料集所在的OSS儲存路徑,查看資料集詳情,也可以單擊刪除,刪掉廢棄的資料集。

    說明
    • 如果查看公用資料集時提示沒有許可權,您需要登入阿里雲主帳號為RAM使用者授予AliyunOSSFullAccess許可權,詳情請參見步驟二:為RAM使用者授權

    • 如果查看公用資料集時提示沒有許可權,且已經登入的使用者已經被授予AliyunOSSFullAccess許可權,請忽略並關閉提示視窗,可正常查看。

  • 對於可見範圍為僅資料集所有者可見的資料集,您也可以單擊公開資料集,將資料集在工作空間內公開,讓所有工作空間成員均可以查看該資料集。

    重要

    一旦公開資料集後,該資料集後續不能再轉為僅資料集所有者可見的資料集,請謹慎操作。

  • 您可以對資料集設定標籤,便於後續通過標籤鍵和標籤值來進行過濾尋找資料集。

  • 您可以單擊右上方的設定表徵圖,對當前展示的資料集資訊專案進行調整。