全部產品
Search
文件中心

Platform For AI:建立資料集:用於資料標註

更新時間:Feb 27, 2026

在建立標註任務的過程中,需要選擇資料集。本文為您介紹如何建立用於資料標註的資料集,以及資料集的具體格式要求。

背景資訊

使用iTAG進行資料標註前,您需要先將待標註的檔案建立為資料集。PAI智能標註支援通過通用模板自訂模板兩種方式建立資料標註任務,不同方式的標註任務需要的資料準備及資料集建立方式不一致。詳情請參見:

  • 通用模板

    通用模板可進一步細分為映像、文本、視頻和音頻四種類型,對應的建立資料集操作步驟和資料集格式要求,請參見建立文本類型資料集建立映像/視頻/音訊類型資料集

  • 自訂模板

    自訂模板支援更靈活的資料標註情境,例如支援在同一個標註任務中同時標註圖片、文本等多種類型的樣本,自訂模板應用情境下的建立資料集操作步驟和資料集格式要求,請參見建立自訂類型資料集

前提條件

已開通OSS服務,操作詳情請參見控制台快速入門

建立文本類型資料集

對比項

方式一:從阿里雲雲產品

方式二:本地上傳

操作流程

  1. 根據下文的檔案格式要求,在本地建立.manifest.txt格式檔案。

  2. .manifest.txt格式檔案上傳至阿里雲OSS,具體操作,請參見上傳檔案

  3. 從阿里雲雲產品建立資料集,具體操作,請參見建立資料集:從阿里雲雲產品

  1. 根據下文的檔案格式要求,在本地建立.csv.xlsx格式檔案。

  2. 進入智能標註(iTAG)。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在左側導覽列,選擇資料準備>智能標註(iTAG)

  3. 智能標註(iTAG)頁面單擊前往工作中樞前往管理頁

  4. 資料管理頁簽單擊建立未經處理資料集

  5. 在建立未經處理資料集頁面配置如下關鍵參數:

    • 資料匯入選擇本地上傳

    • 匯入形式選擇檔案

    • 配置OSS BucketOSS檔案路徑

    • 單擊上傳檔案,選擇本地建立好的.csv.xlsx格式檔案。

  6. 單擊建立

檔案尾碼類型要求

.manifest.txt格式檔案。

.csv.xlsx格式檔案。

檔案格式要求

{"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}

其中source表示需要標註的樣本內容,您需要將source的取值替換為對應需要標註的常值內容。

.csv.xlsx檔案中的一列可以是待標註的常值內容,或者是圖片URL。

檔案Demo參考

textDemo1.manifest

textDemo2.csv

建立映像/視頻/音訊類型資料集

本文以映像為例進行說明,視頻、音頻類檔案操作同理。

對比項

方式一:掃描檔案夾

方式二:本地上傳

操作流程

  1. 將影像檔上傳至阿里雲OSS,產生OSS儲存路徑URL,具體操作,請參見上傳檔案

  2. 通過掃描檔案夾的方式建立資料集,將自動產生.manifest檔案,具體操作,請參見建立及管理資料集

  1. 在本地建立一個包含映像的檔案夾。

  2. 進入智能標註(iTAG)。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在左側導覽列,選擇資料準備>智能標註(iTAG)

  3. 智能標註(iTAG)頁面單擊前往工作中樞前往管理頁

  4. 資料管理頁簽單擊建立未經處理資料集。在建立未經處理資料集頁面配置如下關鍵參數:

    • 資料匯入選擇本地上傳

    • 匯入形式選擇檔案夾

    • 配置OSS BucketOSS檔案路徑

    • 單擊上傳檔案夾,上傳本地已建立的檔案夾。

  5. 單擊建立

檔案內容格式

{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}

其中source表示需要標註的樣本內容,source的取值為對應樣本的OSS儲存路徑URL。

檔案Demo參考

建立自訂類型資料集

對比項

從阿里雲雲產品

操作流程

  1. 根據下文的檔案格式要求,在本地建立.manifest.txt格式檔案。

  2. .manifest.txt格式檔案上傳至阿里雲OSS,具體操作,請參見上傳檔案

  3. 從阿里雲雲產品建立資料集,具體操作,請參見建立資料集:從阿里雲雲產品

檔案尾碼類型要求

.manifest.txt格式檔案。

檔案格式要求

{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"馬雲帶領下的18位創始人在杭州的公寓中正式成立了阿里巴巴集團,集團的首個網站是英文全球批發貿易市場阿里巴巴"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"阿里巴巴集團舉辦首屆西湖論劍,匯聚互連網界的商業和意見領袖討論業界重要議題"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"阿里巴巴集團從數家一線投資機構融資8200萬美元,成為當時中國互連網屆最大規模的私募融資"}}

其中,每一行“data”表示一個標註任務,可以同時包含多種類型的樣本檢測,每個檢測樣本之間通過半形逗號分隔。

例如,如下標註任務會同時檢測標註圖片(樣本圖片的儲存路徑是oss://****.oss url 01)和文本(文本樣本的取值是text sample1)。

{"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}

檔案Demo參考

multiModal.manifest

後續步驟

您可以使用已經註冊的資料集建立標註任務,詳情請參見建立標註任務