高品質的資料集是高精度模型的基礎,是資料準備的核心目標。阿里雲PAI提供資料集管理模組,支援將各類資料(阿里雲雲產品中的各類資料、掃描OSS檔案夾)建立為資料集,同時也內建常用的第三方公用資料集,為智能標註、模型訓練做準備。本文介紹如何建立資料集和管理資料集。
功能介紹
資料集管理模組支援建立自訂資料集和使用公用資料集:
建立自訂資料集
從阿里雲雲產品建立:您可以將Object Storage Service或檔案儲存體中的資料建立為資料集,此方法常用於後續的資料處理和模型訓練。
通過掃描檔案夾建立:支援掃描OSS目錄中的檔案,自動產生JSONL格式的索引檔案(*.manifest),該索引檔案即為資料集,適用於智能標註iTAG情境。
使用公用資料集
資料集管理模組內建多種公用資料集(例如MMLU、CMMLU、GSM8K等),這些資料集主要來源於第三方。阿里雲不對其可用性、合規性和安全性承擔任何責任。請您謹慎考慮,在使用前查看第三方許可協議,確保合法合規使用。
前提條件
已建立工作空間,建立的資料集均與該工作空間綁定。
使用限制
在華北6(烏蘭察布)地區中,建立方式僅支援選擇從阿里雲雲產品和掃描檔案夾建立資料集。
僅支援在華北6(烏蘭察布)地區建立阿里雲檔案儲存體(智算CPFS)類型的資料集,不支援建立阿里雲檔案儲存體(CPFS)類型的資料集。
操作帳號和許可權要求
阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。
RAM使用者:需要為RAM使用者添加以下許可權:
資料集的相關許可權
需要將RAM使用者添加為對應角色的工作空間成員,使其擁有對應操作的許可權。各角色的許可權詳情可前往角色與許可權列表頁面查看。如何將RAM使用者添加為工作空間成員,請參見管理工作空間成員。
建立OSS類型資料集時,查看及使用OSS Bucket列表相應的許可權
使用以下指令碼內容建立權限原則,並為RAM使用者授權。關於如何建立權限原則,詳情請參見建立自訂權限原則;關於如何為RAM使用者授權,詳情請參見為RAM使用者授權。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "oss:ListBuckets", "oss:GetBucketStat", "oss:GetBucketInfo", "oss:GetBucketTagging", "oss:GetBucketLifecycle", "oss:GetBucketWorm", "oss:GetBucketVersioning", "oss:GetBucketAcl", "oss:PutObject", "oss:GetBucketCors", "oss:PutBucketCors" ], "Resource": "acs:oss:*:*:*" }, { "Effect": "Allow", "Action": [ "oss:ListObjects", "oss:GetBucketAcl" ], "Resource": "acs:oss:*:*:mybucket" }, { "Effect": "Allow", "Action": [ "oss:GetObject", "oss:GetObjectAcl" ], "Resource": "acs:oss:*:*:mybucket/*" } ] }
建立NAS/CPFS類型資料集時,查看及使用NAS檔案系統列表相應的許可權,包括查詢檔案系統、查詢協議服務相關資訊(僅CPFS使用)的許可權。
使用以下指令碼內容建立權限原則,並為RAM使用者授權。關於如何建立權限原則,詳情請參見建立自訂權限原則;關於如何為RAM使用者授權,詳情請參見為RAM使用者授權。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "nas:DescribeFileSystems", "nas:DescribeProtocolMountTarget", "nas:DescribeProtocolService " ], "Resource": "acs:nas:*:*:filesystem/*" } ] }
建立自訂資料集
進入資料集管理頁面。
登入PAI控制台。
在頂部左上方根據實際情況選擇地區。
在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。
在左側導覽列選擇AI資產管理 > 資料集。
在自訂資料集頁簽下單擊建立資料集。
從阿里雲雲產品建立資料集
從阿里雲雲產品建立資料集時,資料存放區支援Object Storage Service、檔案儲存體(通用型NAS、極速型NAS、CPFS、智算CPFS)和雲原生MaxCompute(MaxCompute),關鍵參數配置說明如下:
說明當前EAS僅支援掛載資料存放區為通用型NAS類型的資料集。
僅支援在華北6(烏蘭察布)地區建立資料存放區為智算CPFS類型的資料集。
DLC和DSW產品支援掛載已配置傳輸加密的NAS檔案系統。
資料存放區為Object Storage Service
參數
描述
屬性
資料集所有者
選擇資料集所有者,僅工作空間管理員可配置該參數。
資料集類型
選擇資料的類型,支援圖片、文本、音頻、視頻、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。
預設掛載路徑
資料的預設掛載路徑,常用於DSW和DLC中:
在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。
在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如
python /root/data/file.py
。
開啟資料集加速
當屬性選擇檔案夾時,支援開啟資料集加速。關鍵配置項說明如下:
最大容量:配置資料集加速槽容量。該容量需要大於等於資料集容量,您可以參考需要加速的資料集容量來配置。
加速掛載點:預設使用內部掛載點,您也可以選擇已有的加速掛載點或建立掛載點。
說明在使用靈駿智算資源情境時,如果加速掛載點選擇為建立掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換器需要與靈駿智算資源一致。
加速資料集預設掛載路徑:加速資料集的預設掛載路徑。
資料存放區為檔案儲存體
參數
描述
資料集所有者
選擇資料集所有者,僅工作空間管理員可配置該參數。
資料集類型
選擇資料的類型,支援圖片、文本、音頻、視頻、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。
選擇檔案系統
選擇檔案系統,和資料存放區選擇的檔案儲存體類型對應。
檔案系統掛載點
配置掛載點來訪問NAS檔案系統。
檔案系統路徑
配置NAS中已有的儲存路徑。例如
/
。預設掛載路徑
資料的預設掛載路徑,常用於DSW和DLC中:
在DSW中,建立執行個體時,可以將已建立的檔案系統掛載到該路徑。
在DLC中,運行代碼時,系統會在該目錄下尋找檔案,例如
python /root/data/file.py
。
開啟資料集加速
當資料存放區為通用型NAS、極速型NAS或CPFS時,支援開啟資料集加速。關鍵配置項說明如下:
最大容量:配置資料集加速槽容量。該容量需要大於等於資料集容量,您可以參考需要加速的資料集容量來配置。
加速掛載點:預設使用內部掛載點,您也可以選擇已有的加速掛載點或建立掛載點。
說明在使用靈駿智算資源情境時,如果加速掛載點選擇為建立掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換器需要與靈駿智算資源一致。
加速資料集預設掛載路徑:加速資料集的預設掛載路徑。
掃描檔案夾建立資料集
參數
描述
資料集所有者
選擇資料集所有者,僅工作空間管理員可配置該參數。
資料集類型
選擇資料的類型,支援圖片、文本、音頻、視頻、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。
路徑萬用字元
配置萬用字元掃描過濾指定格式的檔案,掃描的檔案數量上限為10萬。
預覽
單擊開始掃描,系統會根據選擇的OSS路徑和萬用字元,索引相關聯的檔案並按照JSONL格式預覽。
掃描結果檔案儲存路徑
掃描後將得到一個dataset_****.manifest檔案,您可以修改檔案名稱並選擇該檔案儲存的OSS路徑。
單擊提交。
公用資料集
進入資料集管理頁面。
登入PAI控制台。
在頂部左上方根據實際情況選擇地區。
在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。
在左側導覽列選擇AI資產管理 > 資料集。
在公用資料集頁簽下單查看多種公用資料集。
資料集管理模組內建多種公用資料集(例如:MMLU、CMMLU、GSM8K等),您可以單擊資料集名稱,瞭解資料集詳情。
管理資料集
您可以進入資料集管理頁面查看所有擁有許可權的資料集列表,並對資料集進行查看詳情、刪除等操作。
您可以單擊查看資料集直接跳轉進入對應資料集所在的OSS儲存路徑,查看資料集詳情,也可以單擊刪除,刪掉廢棄的資料集。
說明如果查看公用資料集時提示沒有許可權,您需要登入阿里雲主帳號為RAM使用者授予AliyunOSSFullAccess許可權,詳情請參見步驟二:為RAM使用者授權。
如果查看公用資料集時提示沒有許可權,且已經登入的使用者已經被授予AliyunOSSFullAccess許可權,請忽略並關閉提示視窗,可正常查看。
對於可見範圍為僅資料集所有者可見的資料集,您也可以單擊公開資料集,將資料集在工作空間內公開,讓所有工作空間成員均可以查看該資料集。
重要一旦公開資料集後,該資料集後續不能再轉為僅資料集所有者可見的資料集,請謹慎操作。
您可以對資料集設定標籤,便於後續通過標籤鍵和標籤值來進行過濾尋找資料集。
您可以單擊右上方的設定表徵圖,對當前展示的資料集資訊專案進行調整。