背景資訊
使用iTAG進行資料標註前,您需要先將待標註的檔案建立為資料集。PAI智能標註支援通過通用模板和自訂模板兩種方式建立資料標註任務,不同方式的標註任務需要的資料準備及資料集建立方式不一致。詳情請參見:
建立文本類型資料集
對比項 | 方式一:從阿里雲雲產品 | 方式二:本地上傳 |
操作流程 | 根據下文的檔案格式要求,在本地建立.manifest或.txt格式檔案。 將.manifest或.txt格式檔案上傳至阿里雲OSS,具體操作,請參見上傳檔案。 從阿里雲雲產品建立資料集,具體操作,請參見建立資料集:從阿里雲雲產品。
| 根據下文的檔案格式要求,在本地建立.csv或.xlsx格式檔案。 進入智能標註(iTAG)。 登入PAI控制台。 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。 在左側導覽列,選擇資料準備>智能標註(iTAG)。
在智能標註(iTAG)頁面單擊前往工作中樞或前往管理頁。 在資料管理頁簽單擊建立未經處理資料集。 在建立未經處理資料集頁面配置如下關鍵參數: 單擊建立。
|
檔案尾碼類型要求 | .manifest或.txt格式檔案。 | .csv或.xlsx格式檔案。 |
檔案格式要求 | {"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}
其中source表示需要標註的樣本內容,您需要將source的取值替換為對應需要標註的常值內容。 | .csv或.xlsx檔案中的一列可以是待標註的常值內容,或者是圖片URL。 |
檔案Demo參考 | textDemo1.manifest | textDemo2.csv |
建立映像/視頻/音訊類型資料集
本文以映像為例進行說明,視頻、音頻類檔案操作同理。
對比項 | 方式一:掃描檔案夾 | 方式二:本地上傳 |
操作流程 | 將影像檔上傳至阿里雲OSS,產生OSS儲存路徑URL,具體操作,請參見上傳檔案。 通過掃描檔案夾的方式建立資料集,將自動產生.manifest檔案,具體操作,請參見建立及管理資料集。
| 在本地建立一個包含映像的檔案夾。 進入智能標註(iTAG)。 登入PAI控制台。 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。 在左側導覽列,選擇資料準備>智能標註(iTAG)。
在智能標註(iTAG)頁面單擊前往工作中樞或前往管理頁。 在資料管理頁簽單擊建立未經處理資料集。在建立未經處理資料集頁面配置如下關鍵參數: 資料匯入選擇本地上傳。 匯入形式選擇檔案夾。 配置OSS Bucket和OSS檔案路徑。 單擊上傳檔案夾,上傳本地已建立的檔案夾。
單擊建立。
|
檔案內容格式 | {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}
其中source表示需要標註的樣本內容,source的取值為對應樣本的OSS儲存路徑URL。 |
檔案Demo參考 | |
建立自訂類型資料集
對比項 | 從阿里雲雲產品 |
操作流程 | 根據下文的檔案格式要求,在本地建立.manifest或.txt格式檔案。 將.manifest或.txt格式檔案上傳至阿里雲OSS,具體操作,請參見上傳檔案。 從阿里雲雲產品建立資料集,具體操作,請參見建立資料集:從阿里雲雲產品。
|
檔案尾碼類型要求 | .manifest或.txt格式檔案。 |
檔案格式要求 | {"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"馬雲帶領下的18位創始人在杭州的公寓中正式成立了阿里巴巴集團,集團的首個網站是英文全球批發貿易市場阿里巴巴"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"阿里巴巴集團舉辦首屆西湖論劍,匯聚互連網界的商業和意見領袖討論業界重要議題"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"阿里巴巴集團從數家一線投資機構融資8200萬美元,成為當時中國互連網屆最大規模的私募融資"}}
其中,每一行“data”表示一個標註任務,可以同時包含多種類型的樣本檢測,每個檢測樣本之間通過半形逗號分隔。 例如,如下標註任務會同時檢測標註圖片(樣本圖片的儲存路徑是oss://****.oss url 01)和文本(文本樣本的取值是text sample1)。 {"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}
|
檔案Demo參考 | multiModal.manifest |
後續步驟
您可以使用已經註冊的資料集建立標註任務,詳情請參見建立標註任務。