iTAG提供了實體識別、文本分類、實體關聯的文本類標註模板,建立標註任務時,您需要根據應用情境選擇標註模板。本文為您介紹文本類標註模板的應用情境及資料結構。
背景資訊
實體識別
實體識別NER標註任務是對文本中的具體內容進行框選,並添加標籤。
應用情境
商品主體詞識別、新聞主體詞識別等。
資料結構
輸入資料
manifest檔案的每行資料是一道題目,且每行資料必須包含source欄位。
{"data":{"source":"阿里巴巴收購兩家服務美國小企業的電子商務解決方案供應商Vendio及Auctiva。同月,手機淘寶用戶端推出。"}} ...
輸出資料
manifest檔案的每行資料由題目和標註結果一起產生。每行資料的JSON結構如下。
{ "data": { "source": "阿里巴巴收購兩家服務美國小企業的電子商務解決方案供應商Vendio及Auctiva。同月,手機淘寶用戶端推出。" }, "label-1430082002522152960": { "results": [ { "objects": [ { "result": { "常值內容": [ "標籤1" ] }, "color": null, "id": null, "text": "ocr本文的識別內容1", "start": 49, "end": 51 }, { "result": { "常值內容": [ "標籤2", "標籤3" ] }, "color": null, "id": null, "text": "ocr本文的識別內容2", "start": 34, "end": 40 }, ], "empty": false } ] } }
文本分類
文本分類(Text Classification)是指在一組固定的分類標籤集合中,找到與輸入常值內容相匹配的一個或多個分類標籤,並將其分配給該輸入文本。該分類模板支援單標籤和多標籤。
應用情境
新聞推薦、知識管理及垃圾資訊過濾等。
資料結構
輸入資料
manifest檔案的每行資料是一道題目,且每行資料必須包含source欄位。
{"data":{"source":"阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。"}} ...
輸出資料
manifest檔案的每行資料由題目和標註結果一起產生。每行資料的JSON結構如下。
{ "data": { "source": "阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。" }, "label-1432989439570944000": { "results": [ { "questionId": "2", "data": [ "標籤2", "標籤1" ], "markTitle": "多選", "type": "survey/multivalue" } ] } }
實體關聯
實體關聯(三元組和Knowledge Graph)標註任務,主要是針對知識圖譜的情境,對實體詞之前的關係添加標籤。
應用情境
知識圖譜等。
資料結構
輸入資料
manifest檔案的每行資料是一道題目,且每行資料必須包含source欄位。
{"data":{"source":"阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。"}} ...
輸出資料
manifest檔案的每行資料由題目和標註結果一起產生。每行資料的JSON結構如下。
{ "data": { "source": "阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。" }, "label-1435488346167255040": { "results": [ { "objects": [ { "result": { "多選": [ "標籤3" ] }, "color": null, "id": null, "text": "團購網站", "start": 32, "end": 35 }, { "result": { "多選": [ "標籤2" ] }, "color": null, "id": null, "text": "1688", "start": 18, "end": 21 }, { "result": { "多選": [ "標籤1" ] }, "color": null, "id": null, "text": "交易市場", "start": 9, "end": 12 } ], "empty": false }, [ { "result": { "單選": "標籤4" }, "from": { "x": -225, "y": -126, "start": 9, "end": 12, "text": "交易市場" }, "to": { "x": -233, "y": 75, "start": 18, "end": 21, "text": "1688" } }, { "result": { "單選": "標籤6" }, "from": { "x": -225, "y": -126, "start": 9, "end": 12, "text": "交易市場" }, "to": { "x": 24, "y": -93, "start": 32, "end": 35, "text": "團購網站" } }, { "result": { "單選": "標籤4" }, "from": { "x": -233, "y": 75, "start": 18, "end": 21, "text": "1688" }, "to": { "x": 24, "y": -93, "start": 32, "end": 35, "text": "團購網站" } } ] ] } }