高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(阿里云云产品中的各类数据、扫描OSS文件夹)创建为数据集,同时也内置常用的第三方公共数据集,为智能标注、模型训练做准备。本文介绍如何创建数据集和管理数据集。
功能介绍
数据集管理模块支持创建自定义数据集和使用公共数据集:
创建自定义数据集
从阿里云云产品创建:您可以将对象存储OSS或文件存储中的数据创建为数据集,此方法常用于后续的数据处理和模型训练。
通过扫描文件夹创建:支持扫描OSS目录中的文件,自动生成JSONL格式的索引文件(*.manifest),该索引文件即为数据集,适用于智能标注iTAG场景。
使用公共数据集
数据集管理模块内置多种公共数据集(例如MMLU、CMMLU、GSM8K等),这些数据集主要来源于第三方。阿里云不对其可用性、合规性和安全性承担任何责任。请您慎重考虑,在使用前查看第三方许可协议,确保合法合规使用。
前提条件
已创建工作空间,创建的数据集均与该工作空间绑定。
使用限制
在华北6(乌兰察布)地域中,创建方式仅支持选择从阿里云云产品和扫描文件夹创建数据集。
仅支持在华北6(乌兰察布)地域创建阿里云文件存储(智算CPFS)类型的数据集,不支持创建阿里云文件存储(CPFS)类型的数据集。
操作账号和权限要求
阿里云主账号:使用该账号可完成所有操作,无需额外授权。
RAM用户:需要为RAM用户添加以下权限:
数据集的相关权限
需要将RAM用户添加为对应角色的工作空间成员,使其拥有对应操作的权限。各角色的权限详情可前往角色与权限列表页面查看。如何将RAM用户添加为工作空间成员,请参见管理工作空间成员。
创建OSS类型数据集时,查看及使用OSS Bucket列表相应的权限
使用以下脚本内容创建权限策略,并为RAM用户授权。关于如何创建权限策略,详情请参见创建自定义权限策略;关于如何为RAM用户授权,详情请参见为RAM用户授权。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "oss:ListBuckets", "oss:GetBucketStat", "oss:GetBucketInfo", "oss:GetBucketTagging", "oss:GetBucketLifecycle", "oss:GetBucketWorm", "oss:GetBucketVersioning", "oss:GetBucketAcl", "oss:PutObject", "oss:GetBucketCors", "oss:PutBucketCors" ], "Resource": "acs:oss:*:*:*" }, { "Effect": "Allow", "Action": [ "oss:ListObjects", "oss:GetBucketAcl" ], "Resource": "acs:oss:*:*:mybucket" }, { "Effect": "Allow", "Action": [ "oss:GetObject", "oss:GetObjectAcl" ], "Resource": "acs:oss:*:*:mybucket/*" } ] }
创建NAS/CPFS类型数据集时,查看及使用NAS文件系统列表相应的权限,包括查询文件系统、查询协议服务相关信息(仅CPFS使用)的权限。
使用以下脚本内容创建权限策略,并为RAM用户授权。关于如何创建权限策略,详情请参见创建自定义权限策略;关于如何为RAM用户授权,详情请参见为RAM用户授权。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "nas:DescribeFileSystems", "nas:DescribeProtocolMountTarget", "nas:DescribeProtocolService " ], "Resource": "acs:nas:*:*:filesystem/*" } ] }
创建自定义数据集
进入数据集管理页面。
登录PAI控制台。
在顶部左上角根据实际情况选择地域。
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。
在左侧导航栏选择AI资产管理 > 数据集。
在自定义数据集页签下单击创建数据集。
从阿里云云产品创建数据集
从阿里云云产品创建数据集时,数据存储支持对象存储(OSS)、文件存储(通用型NAS、极速型NAS、CPFS、智算CPFS)和云原生大数据计算服务(MaxCompute),关键参数配置说明如下:
说明当前EAS仅支持挂载数据存储为通用型NAS类型的数据集。
仅支持在华北6(乌兰察布)地域创建数据存储为智算CPFS类型的数据集。
DLC和DSW产品支持挂载已配置传输加密的NAS文件系统。
数据存储为对象存储(OSS)
参数
描述
属性
数据集所有者
选择数据集所有者,仅工作空间管理员可配置该参数。
数据集类型
选择数据的类型,支持图片、文本、音频、视频、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
默认挂载路径
数据的默认挂载路径,常用于DSW和DLC中:
在DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。
在DLC中,运行代码时,系统会在该目录下寻找文件,例如
python /root/data/file.py
。
开启数据集加速
当属性选择文件夹时,支持开启数据集加速。关键配置项说明如下:
最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的数据集容量来配置。
加速挂载点:默认使用内部挂载点,您也可以选择已有的加速挂载点或新建挂载点。
说明在使用灵骏智算资源场景时,如果加速挂载点选择为新建挂载点,则挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。
加速数据集默认挂载路径:加速数据集的默认挂载路径。
数据存储为文件存储
参数
描述
数据集所有者
选择数据集所有者,仅工作空间管理员可配置该参数。
数据集类型
选择数据的类型,支持图片、文本、音频、视频、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
选择文件系统
选择文件系统,和数据存储选择的文件存储类型对应。
文件系统挂载点
配置挂载点来访问NAS文件系统。
文件系统路径
配置NAS中已有的存储路径。例如
/
。默认挂载路径
数据的默认挂载路径,常用于DSW和DLC中:
在DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。
在DLC中,运行代码时,系统会在该目录下寻找文件,例如
python /root/data/file.py
。
开启数据集加速
当数据存储为通用型NAS、极速型NAS或CPFS时,支持开启数据集加速。关键配置项说明如下:
最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的数据集容量来配置。
加速挂载点:默认使用内部挂载点,您也可以选择已有的加速挂载点或新建挂载点。
说明在使用灵骏智算资源场景时,如果加速挂载点选择为新建挂载点,则挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。
加速数据集默认挂载路径:加速数据集的默认挂载路径。
扫描文件夹创建数据集
参数
描述
数据集所有者
选择数据集所有者,仅工作空间管理员可配置该参数。
数据集类型
选择数据的类型,支持图片、文本、音频、视频、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
路径通配符
配置通配符扫描过滤指定格式的文件,扫描的文件数量上限为10万。
预览
单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照JSONL格式预览。
扫描结果文件保存路径
扫描后将得到一个dataset_****.manifest文件,您可以修改文件名称并选择该文件保存的OSS路径。
单击提交。
公共数据集
进入数据集管理页面。
登录PAI控制台。
在顶部左上角根据实际情况选择地域。
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。
在左侧导航栏选择AI资产管理 > 数据集。
在公共数据集页签下单查看多种公共数据集。
数据集管理模块内置多种公共数据集(例如:MMLU、CMMLU、GSM8K等),您可以单击数据集名称,了解数据集详情。
管理数据集
您可以进入数据集管理页面查看所有拥有权限的数据集列表,并对数据集进行查看详情、删除等操作。
您可以单击查看数据集直接跳转进入对应数据集所在的OSS存储路径,查看数据集详情,也可以单击删除,删掉废弃的数据集。
说明如果查看公共数据集时提示没有权限,您需要登录阿里云主账号为RAM用户授予AliyunOSSFullAccess权限,详情请参见步骤二:为RAM用户授权。
如果查看公共数据集时提示没有权限,且已经登录的用户已经被授予AliyunOSSFullAccess权限,请忽略并关闭提示窗口,可正常查看。
对于可见范围为仅数据集所有者可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。
重要一旦公开数据集后,该数据集后续不能再转为仅数据集所有者可见的数据集,请谨慎操作。
您可以对数据集设置标签,便于后续通过标签键和标签值来进行过滤查找数据集。
您可以单击右上角的设置图标,对当前展示的数据集信息项目进行调整。