背景信息
使用iTAG进行数据标注前,您需要先将待标注的文件创建为数据集。PAI智能标注支持通过通用模板和自定义模板两种方式创建数据标注任务,不同方式的标注任务需要的数据准备及数据集创建方式不一致。详情请参见:
创建文本类型数据集
对比项 | 方式一:从阿里云云产品 | 方式二:本地上传 |
操作流程 | 根据下文的文件格式要求,在本地创建.manifest或.txt格式文件。 将.manifest或.txt格式文件上传至阿里云OSS,具体操作,请参见上传文件。 从阿里云云产品创建数据集,具体操作,请参见创建数据集:从阿里云云产品。
| 根据下文的文件格式要求,在本地创建.csv或.xlsx格式文件。 进入智能标注(iTAG)。 登录PAI控制台。 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。 在左侧导航栏,选择数据准备>智能标注(iTAG)。
在智能标注(iTAG)页面单击前往任务中心或前往管理页。 在数据管理页签单击创建原始数据集。 在创建原始数据集页面配置如下关键参数: 单击创建。
|
文件后缀类型要求 | .manifest或.txt格式文件。 | .csv或.xlsx格式文件。 |
文件格式要求 | {"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}
其中source 表示需要标注的样本内容,您需要将source 的取值替换为对应需要标注的文本内容。 | .csv或.xlsx文件中的一列可以是待标注的文本内容,或者是图片URL。 |
文件Demo参考 | textDemo1.manifest | textDemo2.csv |
创建图像/视频/音频类型数据集
本文以图像为例进行说明,视频、音频类文件操作同理。
对比项 | 方式一:扫描文件夹 | 方式二:本地上传 |
操作流程 | 将图像文件上传至阿里云OSS,生成OSS存储路径URL,具体操作,请参见上传文件。 通过扫描文件夹的方式创建数据集,将自动生成.manifest文件,具体操作,请参见创建及管理数据集。
| 在本地创建一个包含图像的文件夹。 进入智能标注(iTAG)。 登录PAI控制台。 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。 在左侧导航栏,选择数据准备>智能标注(iTAG)。
在智能标注(iTAG)页面单击前往任务中心或前往管理页。 在数据管理页签单击创建原始数据集。在创建原始数据集页面配置如下关键参数: 数据导入选择本地上传。 导入形式选择文件夹。 配置OSS Bucket和OSS文件路径。 单击上传文件夹,上传本地已创建的文件夹。
单击创建。
|
文件内容格式 | {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}
其中source 表示需要标注的样本内容,source 的取值为对应样本的OSS存储路径URL。 |
文件Demo参考 | |
创建自定义类型数据集
对比项 | 从阿里云云产品 |
操作流程 | 根据下文的文件格式要求,在本地创建.manifest或.txt格式文件。 将.manifest或.txt格式文件上传至阿里云OSS,具体操作,请参见上传文件。 从阿里云云产品创建数据集,具体操作,请参见创建数据集:从阿里云云产品。
|
文件后缀类型要求 | .manifest或.txt格式文件。 |
文件格式要求 | {"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"马云带领下的18位创始人在杭州的公寓中正式成立了阿里巴巴集团,集团的首个网站是英文全球批发贸易市场阿里巴巴"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"阿里巴巴集团举办首届西湖论剑,汇聚互联网界的商业和意见领袖讨论业界重要议题"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"阿里巴巴集团从数家一线投资机构融资8200万美元,成为当时中国互联网届最大规模的私募融资"}}
其中,每一行“data” 表示一个标注任务,可以同时包含多种类型的样本检测,每个检测样本之间通过半角逗号分隔。 例如,如下标注任务会同时检测标注图片(样本图片的存储路径是oss://****.oss url 01 )和文本(文本样本的取值是text sample1 )。 {"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}
|
文件Demo参考 | multiModal.manifest |
后续步骤
您可以使用已经注册的数据集创建标注任务,详情请参见创建标注任务。