全部产品
Search
文档中心

人工智能平台 PAI:文本类

更新时间:Nov 01, 2023

iTAG提供了实体识别、文本分类、实体关系的文本类标注模板,创建标注任务时,您需要根据应用场景选择标注模板。本文为您介绍文本类标注模板的应用场景及数据结构。

背景信息

本文介绍以下文本类标注模板的数据结构:

实体识别

实体识别NER标注任务是对文本中的具体内容进行框选,并添加标签。

  • 应用场景

    商品主体词识别、新闻主体词识别等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"阿里巴巴收购两家服务美国小企业的电子商务解决方案供应商Vendio及Auctiva。同月,手机淘宝客户端推出。"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "阿里巴巴收购两家服务美国小企业的电子商务解决方案供应商Vendio及Auctiva。同月,手机淘宝客户端推出。"
          }, 
          "label-1430082002522152960": {
              "results": [
                  {
                      "objects": [
                          {
                              "result": {
                                  "文本内容": [
                                      "标签1"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "ocr本文的识别内容1", 
                              "start": 49, 
                              "end": 51
                          }, 
                          {
                              "result": {
                                  "文本内容": [
                                      "标签2", 
                                      "标签3"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "ocr本文的识别内容2", 
                              "start": 34, 
                              "end": 40
                          }, 
                      ], 
                      "empty": false
                  }
              ]
          }
      }

文本分类

文本分类(Text Classification)是指在一组固定的分类标签集合中,找到与输入文本内容相匹配的一个或多个分类标签,并将其分配给该输入文本。该分类模板支持单标签和多标签。

  • 应用场景

    新闻推荐、知识管理及垃圾信息过滤等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      { 
          "data": {
              "source": "阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。"
          }, 
          "label-1432989439570944000": {
              "results": [
                  {
                      "questionId": "2", 
                      "data": [
                          "标签2", 
                          "标签1"
                      ], 
                      "markTitle": "多选", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }

实体关系

实体关系(三元组和Knowledge Graph)标注任务,主要是针对知识图谱的场景,对实体词之前的关系添加标签。

  • 应用场景

    知识图谱等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。"
          }, 
          "label-1435488346167255040": {
              "results": [
                  {
                      "objects": [
                          {
                              "result": {
                                  "多选": [
                                      "标签3"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "团购网站", 
                              "start": 32, 
                              "end": 35
                          }, 
                          {
                              "result": {
                                  "多选": [
                                      "标签2"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "1688", 
                              "start": 18, 
                              "end": 21
                          }, 
                          {
                              "result": {
                                  "多选": [
                                      "标签1"
                                  ]
                              }, 
                              "color": null, 
                              "id": null, 
                              "text": "交易市场", 
                              "start": 9, 
                              "end": 12
                          }
                      ], 
                      "empty": false
                  }, 
                  [
                      {
                          "result": {
                              "单选": "标签4"
                          }, 
                          "from": {
                              "x": -225, 
                              "y": -126, 
                              "start": 9, 
                              "end": 12, 
                              "text": "交易市场"
                          }, 
                          "to": {
                              "x": -233, 
                              "y": 75, 
                              "start": 18, 
                              "end": 21, 
                              "text": "1688"
                          }
                      }, 
                      {
                          "result": {
                              "单选": "标签6"
                          }, 
                          "from": {
                              "x": -225, 
                              "y": -126, 
                              "start": 9, 
                              "end": 12, 
                              "text": "交易市场"
                          }, 
                          "to": {
                              "x": 24, 
                              "y": -93, 
                              "start": 32, 
                              "end": 35, 
                              "text": "团购网站"
                          }
                      }, 
                      {
                          "result": {
                              "单选": "标签4"
                          }, 
                          "from": {
                              "x": -233, 
                              "y": 75, 
                              "start": 18, 
                              "end": 21, 
                              "text": "1688"
                          }, 
                          "to": {
                              "x": 24, 
                              "y": -93, 
                              "start": 32, 
                              "end": 35, 
                              "text": "团购网站"
                          }
                      }
                  ]
              ]
          }
      }