在提交DLC训练任务时,您可以通过代码配置或挂载的方式配置OSS、NAS、CPFS或MaxCompute存储,从而方便地在训练过程中直接读写相应存储中的数据。本文为您介绍如何在DLC训练任务中进行OSS、MaxCompute、NAS或CPFS的存储配置。
前提条件
已开通PAI(DLC)并创建工作空间。具体操作,请参见开通PAI并创建默认工作空间。
(可选)配置OSS数据存储时,需要完成以下准备工作:
(可选)配置NAS数据存储时:需要创建通用型NAS文件系统,详情请参见创建文件系统。
(可选)配置MaxCompute存储时:需要开通MaxCompute并创建MaxCompute项目,详情请参见开通MaxCompute和创建MaxCompute项目。
使用OSS存储
通过挂载方式进行OSS存储配置
在创建分布式训练(DLC)任务时,挂载OSS数据。支持以下几种挂载类型,具体配置方法,请参见创建训练任务。
挂载类型 | 描述 |
数据集 | 通过数据集(自定义数据集和公共数据集)进行挂载,其中公共数据集只支持只读挂载模式。选择对象存储OSS类型的数据集,并配置挂载路径,当执行DLC任务时,系统会按照该路径来访问OSS中的数据。 |
直接挂载 | 直接挂载OSS Bucket存储路径。 |
当前DLC底层使用JindoFuse来挂载OSS。使用DLC的默认配置有功能限制(详情请参见JindoFuse),并不适合所有的场景。您可以通过调整参数,来适配具体的场景。具体操作,请参见JindoFuse。
通过非挂载方式进行OSS存储配置
DLC任务支持使用OSS Pytorch Connector或OSS SDK来读写OSS数据。您可以在创建训练任务时,通过代码配置来配置相关代码文件。具体代码示例,请参见OSS Pytorch Connector或OSS SDK。
使用NAS/CPFS存储
通过挂载数据集方式进行NAS/CPFS存储配置。您可以在创建分布式训练(DLC)任务时,绑定NAS/CPFS类型的自定义数据集。具体配置方法,请参见NAS使用。
使用MaxCompute存储
通过非挂载的方式进行MaxCompute存储配置。您可以在创建训练任务时,通过代码配置来配置相关代码文件。具体代码示例,请参见MaxCompute使用。
常见问题
使用paiio读表没有报错但日志里显示killed?
由于资源不足,paiio未做限制,导致ODPS数据读取到内存时会出现膨胀现象,同时操作系统和其他系统组件也会占用部分内存。