全部产品
Search
文档中心

人工智能平台 PAI:创建数据集:用于数据标注

更新时间:Mar 06, 2024

在创建标注任务的过程中,需要选择数据集。本文为您介绍如何创建用于数据标注的数据集,以及数据集的具体格式要求。

背景信息

使用iTAG进行数据标注前,您需要先将待标注的文件创建为数据集。PAI智能标注支持通过通用模板自定义模板两种方式创建数据标注任务,不同方式的标注任务需要的数据准备及数据集创建方式不一致。详情请参见:

  • 通用模板

    通用模板可进一步细分为图像、文本、视频和音频四种类型,对应的创建数据集操作步骤和数据集格式要求,请参见创建文本类型数据集创建图像/视频/音频类型数据集

  • 自定义模板

    自定义模板支持更灵活的数据标注场景,例如支持在同一个标注任务中同时标注图片、文本等多种类型的样本,自定义模板应用场景下的创建数据集操作步骤和数据集格式要求,请参见创建自定义类型数据集

前提条件

已开通OSS服务,操作详情请参见控制台快速入门

创建文本类型数据集

对比项

方式一:从阿里云云产品

方式二:本地上传

操作流程

  1. 根据下文的文件格式要求,在本地创建.manifest.txt格式文件。

  2. .manifest.txt格式文件上传至阿里云OSS,具体操作,请参见上传文件

  3. 从阿里云云产品创建数据集,具体操作,请参见创建数据集:从阿里云云产品

  1. 根据下文的文件格式要求,在本地创建.csv.xlsx格式文件。

  2. 进入智能标注(iTAG)。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏,选择数据准备>智能标注(iTAG)

  3. 智能标注(iTAG)页面单击前往任务中心前往管理页

  4. 数据管理页签单击创建原始数据集

  5. 在创建原始数据集页面配置如下关键参数:

    • 数据导入选择本地上传

    • 导入形式选择文件

    • 配置OSS BucketOSS文件路径

    • 单击上传文件,选择本地创建好的.csv.xlsx格式文件。

  6. 单击创建

文件后缀类型要求

.manifest.txt格式文件。

.csv.xlsx格式文件。

文件格式要求

{"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}

其中source表示需要标注的样本内容,您需要将source的取值替换为对应需要标注的文本内容。

.csv.xlsx文件中的一列可以是待标注的文本内容,或者是图片URL。

文件Demo参考

textDemo1.manifest

textDemo2.csv

创建图像/视频/音频类型数据集

本文以图像为例进行说明,视频、音频类文件操作同理。

对比项

方式一:扫描文件夹

方式二:本地上传

操作流程

  1. 将图像文件上传至阿里云OSS,生成OSS存储路径URL,具体操作,请参见上传文件

  2. 通过扫描文件夹的方式创建数据集,将自动生成.manifest文件,具体操作,请参见创建及管理数据集

  1. 在本地创建一个包含图像的文件夹。

  2. 进入智能标注(iTAG)。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏,选择数据准备>智能标注(iTAG)

  3. 智能标注(iTAG)页面单击前往任务中心前往管理页

  4. 数据管理页签单击创建原始数据集。在创建原始数据集页面配置如下关键参数:

    • 数据导入选择本地上传

    • 导入形式选择文件夹

    • 配置OSS BucketOSS文件路径

    • 单击上传文件夹,上传本地已创建的文件夹。

  5. 单击创建

文件内容格式

{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}

其中source表示需要标注的样本内容,source的取值为对应样本的OSS存储路径URL。

文件Demo参考

创建自定义类型数据集

对比项

从阿里云云产品

操作流程

  1. 根据下文的文件格式要求,在本地创建.manifest.txt格式文件。

  2. .manifest.txt格式文件上传至阿里云OSS,具体操作,请参见上传文件

  3. 从阿里云云产品创建数据集,具体操作,请参见创建数据集:从阿里云云产品

文件后缀类型要求

.manifest.txt格式文件。

文件格式要求

{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"马云带领下的18位创始人在杭州的公寓中正式成立了阿里巴巴集团,集团的首个网站是英文全球批发贸易市场阿里巴巴"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"阿里巴巴集团举办首届西湖论剑,汇聚互联网界的商业和意见领袖讨论业界重要议题"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"阿里巴巴集团从数家一线投资机构融资8200万美元,成为当时中国互联网届最大规模的私募融资"}}

其中,每一行“data”表示一个标注任务,可以同时包含多种类型的样本检测,每个检测样本之间通过半角逗号分隔。

例如,如下标注任务会同时检测标注图片(样本图片的存储路径是oss://****.oss url 01)和文本(文本样本的取值是text sample1)。

{"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}

文件Demo参考

multiModal.manifest

后续步骤

您可以使用已经注册的数据集创建标注任务,详情请参见创建标注任务