全部產品
Search
文件中心

Platform For AI:文本類

更新時間:Jul 13, 2024

iTAG提供了實體識別、文本分類、實體關聯的文本類標註模板,建立標註任務時,您需要根據應用情境選擇標註模板。本文為您介紹文本類標註模板的應用情境及資料結構。

背景資訊

本文介紹以下文本類標註模板的資料結構:

實體識別

實體識別NER標註任務是對文本中的具體內容進行框選,並添加標籤。

  • 應用情境

    商品主體詞識別、新聞主體詞識別等。

  • 資料結構

    • 輸入資料

      manifest檔案的每行資料是一道題目,且每行資料必須包含source欄位。

      {"data":{"source":"阿里巴巴收購兩家服務美國小企業的電子商務解決方案供應商Vendio及Auctiva。同月,手機淘寶用戶端推出。"}}
      ...
    • 輸出資料

      manifest檔案的每行資料由題目和標註結果一起產生。每行資料的JSON結構如下。

      {
          "data": {
              "source": "阿里巴巴收購兩家服務美國小企業的電子商務解決方案供應商Vendio及Auctiva。同月,手機淘寶用戶端推出。"
          }, 
          "label-1430082002522152960": {
              "results": [
                  {
                      "objects": [
                          {
                              "result": {
                                  "常值內容": [
                                      "標籤1"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "ocr本文的識別內容1", 
                              "start": 49, 
                              "end": 51
                          }, 
                          {
                              "result": {
                                  "常值內容": [
                                      "標籤2", 
                                      "標籤3"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "ocr本文的識別內容2", 
                              "start": 34, 
                              "end": 40
                          }, 
                      ], 
                      "empty": false
                  }
              ]
          }
      }

文本分類

文本分類(Text Classification)是指在一組固定的分類標籤集合中,找到與輸入常值內容相匹配的一個或多個分類標籤,並將其分配給該輸入文本。該分類模板支援單標籤和多標籤。

  • 應用情境

    新聞推薦、知識管理及垃圾資訊過濾等。

  • 資料結構

    • 輸入資料

      manifest檔案的每行資料是一道題目,且每行資料必須包含source欄位。

      {"data":{"source":"阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。"}}
      ...
    • 輸出資料

      manifest檔案的每行資料由題目和標註結果一起產生。每行資料的JSON結構如下。

      { 
          "data": {
              "source": "阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。"
          }, 
          "label-1432989439570944000": {
              "results": [
                  {
                      "questionId": "2", 
                      "data": [
                          "標籤2", 
                          "標籤1"
                      ], 
                      "markTitle": "多選", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }

實體關聯

實體關聯(三元組和Knowledge Graph)標註任務,主要是針對知識圖譜的情境,對實體詞之前的關係添加標籤。

  • 應用情境

    知識圖譜等。

  • 資料結構

    • 輸入資料

      manifest檔案的每行資料是一道題目,且每行資料必須包含source欄位。

      {"data":{"source":"阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。"}}
      ...
    • 輸出資料

      manifest檔案的每行資料由題目和標註結果一起產生。每行資料的JSON結構如下。

      {
          "data": {
              "source": "阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚划算。"
          }, 
          "label-1435488346167255040": {
              "results": [
                  {
                      "objects": [
                          {
                              "result": {
                                  "多選": [
                                      "標籤3"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "團購網站", 
                              "start": 32, 
                              "end": 35
                          }, 
                          {
                              "result": {
                                  "多選": [
                                      "標籤2"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "1688", 
                              "start": 18, 
                              "end": 21
                          }, 
                          {
                              "result": {
                                  "多選": [
                                      "標籤1"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "交易市場", 
                              "start": 9, 
                              "end": 12
                          }
                      ], 
                      "empty": false
                  }, 
                  [
                      {
                          "result": {
                              "單選": "標籤4"
                          }, 
                          "from": {
                              "x": -225, 
                              "y": -126, 
                              "start": 9, 
                              "end": 12, 
                              "text": "交易市場"
                          }, 
                          "to": {
                              "x": -233, 
                              "y": 75, 
                              "start": 18, 
                              "end": 21, 
                              "text": "1688"
                          }
                      }, 
                      {
                          "result": {
                              "單選": "標籤6"
                          }, 
                          "from": {
                              "x": -225, 
                              "y": -126, 
                              "start": 9, 
                              "end": 12, 
                              "text": "交易市場"
                          }, 
                          "to": {
                              "x": 24, 
                              "y": -93, 
                              "start": 32, 
                              "end": 35, 
                              "text": "團購網站"
                          }
                      }, 
                      {
                          "result": {
                              "單選": "標籤4"
                          }, 
                          "from": {
                              "x": -233, 
                              "y": 75, 
                              "start": 18, 
                              "end": 21, 
                              "text": "1688"
                          }, 
                          "to": {
                              "x": 24, 
                              "y": -93, 
                              "start": 32, 
                              "end": 35, 
                              "text": "團購網站"
                          }
                      }
                  ]
              ]
          }
      }