全部产品
Search
文档中心

人工智能平台 PAI:数据预标注:智能标注配置

更新时间:Nov 03, 2023

iTAG支持通过智能标注配置进行数据预标注,您可以在预标注结果的基础上进行正式标注。在正式标注时,您仅需要对预标注结果进行校验和修正,可以提升标注效率。ITAG支持离线预标注和线上服务两种预标注方式。离线预标注是指您导入带有预标注格式的数据,从而自动完成打标。线上服务预标注是指通过一个API在线服务自动完成对数据的预打标。本文为您介绍预标注文件格式要求、预标注任务配置要点和结果示例。

使用限制

目前iTAG预标注仅支持分类场景,例如图像分类、文本分类。

离线预标注

离线预标注文件格式要求

准备离线预标注数据文件(prelabel_offline.manifest),并创建为OSS类型的数据集。

  • 离线预标注数据文件的格式如下,需要包含自定义字段和source两个字段,且离线预标注数据文件中,自定义字段不能缺少,且支持添加多个自定义字段。

    {
        "data": {
            "label": "label_2",
            "source": "阿里巴巴集团庆祝创立十周年,同时成立阿里云计算"
        }
    }

    其中:

    • label:离线生成的预标注结果。

    • source:原始数据。

    不同标注类型文件的整体格式要求请参见创建数据集:用于数据标注。如果离线预标注数据文件不满足格式要求,可能会导致预标注结果不能正常显示。

  • 将离线预标注数据文件创建为数据集时,需创建为OSS类型的数据集,操作详情请参见创建数据集:本地上传

离线预标注任务配置要点

在创建标注任务时,您可以在智能标注配置配置向导页面配置以下参数,具体参数说明如下。image

  • 服务配置区域,支持配置的参数如下所示。

    参数

    说明

    标注方式

    支持以下三种标注方式:

    • 不使用:不使用智能标注配置。

    • 使用离线预标注结果:上传的数据集中已经包含了预标注结果,iTAG平台支持展示预标注结果。

    • 线上服务预测:上传的数据集中没有包含预标注结果,您可以在创建标注任务时选择线上服务预测,并调用线上的模型服务对数据集进行预测,并将预测结果作为预标注结果在iTAG平台进行展示。

    预测结果与题目映射

    将离线预标注数据文件中的预标注结果列与题目名称进行关联,配置题目的预标注结果。

    当您需要为多种题目进行打标时,您可以单击添加预测结果与题目映射为更多题目名称关联预标注结果列。

  • 服务生效配置区域中,支持配置的生效环节如下所示:

    • 预标注:表示预标注结果仅在预标注环节生效,标注员仍需要在正式标注环节标注数据,可以对预标注结果进行校验和修正。

    • 正式标注:表示预标注结果在正式标注环节生效。标注员不需要在正式标注环节标注数据,可以直接进入检查或验收环节。

离线预标注任务配置结果示例

在标注结果页面,题目会显示预标注结果。预标注结果

线上服务预测

iTAG支持线上服务预测,首先需要创建一个模型服务,详见文档:模型服务

  1. 选择服务:进行模型服务的选择。

  2. 服务入参映射:服务入参字段为需要识别的数据字段。

  3. 预测结果与题目映射:将标注的题目和模型服务的出参字段进行映射。

image