iTAG提供了实体识别、文本分类、实体关系的文本类标注模板,创建标注任务时,您需要根据应用场景选择标注模板。本文为您介绍文本类标注模板的应用场景及数据结构。
背景信息
实体识别
实体识别NER标注任务是对文本中的具体内容进行框选,并添加标签。
应用场景
商品主体词识别、新闻主体词识别等。
数据结构
输入数据
manifest文件的每行数据是一道题目,且每行数据必须包含source字段。
{"data":{"source":"阿里巴巴收购两家服务美国小企业的电子商务解决方案供应商Vendio及Auctiva。同月,手机淘宝客户端推出。"}} ...
输出数据
manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
{ "data": { "source": "阿里巴巴收购两家服务美国小企业的电子商务解决方案供应商Vendio及Auctiva。同月,手机淘宝客户端推出。" }, "label-1430082002522152960": { "results": [ { "objects": [ { "result": { "文本内容": [ "标签1" ] }, "color": null, "id": null, "text": "ocr本文的识别内容1", "start": 49, "end": 51 }, { "result": { "文本内容": [ "标签2", "标签3" ] }, "color": null, "id": null, "text": "ocr本文的识别内容2", "start": 34, "end": 40 }, ], "empty": false } ] } }
文本分类
文本分类(Text Classification)是指在一组固定的分类标签集合中,找到与输入文本内容相匹配的一个或多个分类标签,并将其分配给该输入文本。该分类模板支持单标签和多标签。
应用场景
新闻推荐、知识管理及垃圾信息过滤等。
数据结构
输入数据
manifest文件的每行数据是一道题目,且每行数据必须包含source字段。
{"data":{"source":"阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。"}} ...
输出数据
manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
{ "data": { "source": "阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。" }, "label-1432989439570944000": { "results": [ { "questionId": "2", "data": [ "标签2", "标签1" ], "markTitle": "多选", "type": "survey/multivalue" } ] } }
实体关系
实体关系(三元组和Knowledge Graph)标注任务,主要是针对知识图谱的场景,对实体词之前的关系添加标签。
应用场景
知识图谱等。
数据结构
输入数据
manifest文件的每行数据是一道题目,且每行数据必须包含source字段。
{"data":{"source":"阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。"}} ...
输出数据
manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
{ "data": { "source": "阿里巴巴更改其中国交易市场的名称为“1688”。同月,淘宝网推出团购网站聚划算。" }, "label-1435488346167255040": { "results": [ { "objects": [ { "result": { "多选": [ "标签3" ] }, "color": null, "id": null, "text": "团购网站", "start": 32, "end": 35 }, { "result": { "多选": [ "标签2" ] }, "color": null, "id": null, "text": "1688", "start": 18, "end": 21 }, { "result": { "多选": [ "标签1" ] }, "color": null, "id": null, "text": "交易市场", "start": 9, "end": 12 } ], "empty": false }, [ { "result": { "单选": "标签4" }, "from": { "x": -225, "y": -126, "start": 9, "end": 12, "text": "交易市场" }, "to": { "x": -233, "y": 75, "start": 18, "end": 21, "text": "1688" } }, { "result": { "单选": "标签6" }, "from": { "x": -225, "y": -126, "start": 9, "end": 12, "text": "交易市场" }, "to": { "x": 24, "y": -93, "start": 32, "end": 35, "text": "团购网站" } }, { "result": { "单选": "标签4" }, "from": { "x": -233, "y": 75, "start": 18, "end": 21, "text": "1688" }, "to": { "x": 24, "y": -93, "start": 32, "end": 35, "text": "团购网站" } } ] ] } }