全部产品
Search
文档中心

人工智能平台 PAI:创建标注任务

更新时间:Apr 03, 2024

创建完成用于数据标注的数据集后,您可以使用iTAG开展标注任务。PAI为您提供通用模板用于创建标注任务。如果通用模板无法满足需求,您也可以根据实际场景,通过拼接内容组件和题目组件自定义模板。本文为您介绍如何通过预置的通用模板创建标注任务。

前提条件

使用限制

仅管理员或标注管理员可以进行标注相关操作。如果您的账号没有权限,请联系管理员为您的账号授予标注管理员权限,操作详情请参见管理工作空间成员

操作步骤

  1. 进入智能标注(iTAG)。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏,选择数据准备 > 智能标注(iTAG)

  2. 智能标注(iTAG)页面的任务中心页签,单击创建任务

  3. 创建标注任务页面,关键参数配置如下,其它参数按需配置。

    参数

    描述

    任务名称

    长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。

    输入数据集

    选择在PAI数据集管理中已经创建的数据集。

    模板类型

    支持以下类型的模型:

    • 通用模板:平台预置的常用模板。

    • 自定义模板:根据自己特定的场景,参考页面提示拼接内容组件题目组件,从而通过自定义模板创建标注任务。

      自定义模板适用于自定义的场景,模板的输入输出数据格式详情请参见自定义模板

    模板

    模板类型通用模板时,支持选择细分的通用模板类型,当前支持:

    • 图像类

      模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见图像类

      • 图片OCR:对图片框选区域内的文字进行OCR。

      • 目标检测:对图像中的具体目标进行定位。

      • 图像分类:按照预设的标签对图像进行分类标记。

      • PDF:对PDF进行OCR和标签分类。

      • 审核抠图:对图片进行审核和抠图任务。

      • 表格识别:利用算法预先对表格核心元素进行识别,按需进行编辑。

    • 文本类

      模板的详细应用场景,以及此类模板的输入输出数据格式详情,请参见文本类

      • 实体识别:建立文本实体之间的关系。

      • 文本分类:对文本按照预设标签进行分类标记,支持单标签和多标签分类。

      • 实体关系:文本实体之间的关系,用于知识图谱场景。

    • 视频类

      模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见视频类

      • 视频分类:对视频按照预设标签进行分类标记,支持单标签和多标签分类。

    • 音频类

      模板的详细应用场景,及此类模板的输入输出数据格式详情请参见语音类

      • 音频分类:对音频按照预设标签进行分类标记,支持单标签和多标签分类。

      • 音频分割:对音频数据集的内容进行分割并分段添加标签。

      • 音频识别:将音频内容的文字进行识别。

    OCR识别结果配置

    仅当在模板选择图像类中的图片OCR时,支持配置该参数。

    默认选中OCR识别结果,表示支持对图片框选区域的文字进行OCR。

    标签配置

    在本标注任务中,需要依次输入后续打标人员需要识别、框选并打标的标签名称,然后按回车键完成添加。

    例如,对图片中的猫进行识别时,您可以添加标签:“猫”、“美短”、“英短”等,便于后续的打标人员对样本进行打标。

    您可以同时设置本标注任务中,打标人员对一个样本的一次框选打标时,可以对框选的对象打一个或多个标签。

    • 当一次框选打标只能打一个标签时,可将该标签设置为单选

    • 当一次框选打标可以打多个标签时,可将该标签设置为多选

    例如,对图片中的猫进行识别时,如果标签设置为多选,标注人员框选出样本中的猫后,可以同时打上标签“猫”、“美短”。

    说明

    此处的单选多选指的是对一个样本的一次框选打标过程中,支持添加一个或多个标签,而非对一个样本进行多次框选打标。

    是否开启智能标注

    具体配置详情请参见数据预标注:智能标注配置

    任务说明

    标注任务的简要说明,以区分不同的任务。

    子任务包分配

    iTAG会将所有数据集中的标注任务按照指定规则汇总分配为一个个子任务包。在标注任务处理过程中,处理人员可以抢单获取子任务包,进行子任务包内的所有标注任务的处理。

    当前支持通过以下规则来分配子任务包:

    • 固定大小:每个子任务包中包含的标注任务数量为固定值。

      设置为固定大小时,数据集的数据量与子任务包中的任务数范围有如下对应关系:

      • 当数据集大小为0~2万条数据时,子任务包大小范围是1~200条。

      • 当数据集大小为2万~10万条数据时,子任务包大小范围是5~200条。

      • 当数据集大小为10万~50万条数据时,子任务包大小的范围为25~200条。

      • 当数据集大小为50万~100万条数据时,子任务包的大小范围为50~200条。

    • 按导入字段:按照数据集中所选字段来划分子任务包,该字段数值相同的数据会放在同一个子任务包中。

    • 定向派单:针对特定标注人员或团队进行划分子任务包。

    检查比例

    如果您选择的任务流程包括检查环节,例如打标-检查打标-检查-验收,则需要配置在检查过程中,对标注任务进行抽查的比例,默认为100%。

    人员配置

    根据选择的任务流程,配置标注人员/组、检查人员/组、验收人员/组或任务管理员/组。您可以与该工作空间下的多个成员协作完成标注任务。iTAG中的角色权限,请参见概述

  4. 配置完成后,单击创建

查看任务列表

创建完成打标、检查、验收任务后,您可以在智能标注的任务中心页面看到当前所有任务列表,可查看任务的状态,并通过操作列的操作入口了解子任务包详情和获取标注结果等操作。

image

区域

任务

说明

处理标注任务

您可以单击页面右上角的前往标注页面进入iTAG标注页面,对待处理的打标、检查、验收任务进行抢单处理。操作详情请参见处理标注任务

查看任务的状态

您可以在任务中心页面查看所有任务的状态。

子任务包详情

对于未完成的任务,您可以单击子任务包详情,进一步查看子任务包的完成情况。

对于未完成的子任务包,您可以单击转派,将子任务包直接转交给其他人员进行处理,或单击释放,释放后的子任务包可以被其他人员抢单继续处理。

获取标注结果

查看导出进度

对已完成的任务,您可以单击获取标注结果,根据界面提示将标注结果导出。

单击获取记录,查看导出的进度和结果。操作详情请参见导出标注结果数据

更多操作

您可以单击任务操作列后的image,对任务进行下线、上线等管理操作。

后续步骤

您可以抢单来认领标注任务并进行标注处理,详情请参见处理标注任务