全部产品
Search
文档中心

人工智能平台 PAI:创建DSW实例

更新时间:Nov 20, 2024

交互式建模(DSW)是PAI产品的云端机器学习开发IDE,为您提供交互式编程环境。在使用DSW前,您需要创建DSW实例。本文为您介绍如何创建DSW实例。

背景信息

通过控制台创建实例适用于普通开发者,您可以通过控制台管理实例,例如,在DSW中进行模型开发的开发者。

前提条件

  1. 权限开通

    1. 使用主账号开通PAI并创建工作空间。建议您开通服务时点击服务角色授权,避免在使用子产品时多次授权,详情见开通PAI并创建工作空间

    2. 操作账号授权。操作账号,即用户操作时使用的云账号。当使用主账号操作DSW时,可跳过此步。当使用RAM账号操作时,需要进行操作账号授权

    3. PAI服务账号授权。PAI服务账号,用于PAI服务访问其它PAI子产品或其它云产品。如果在步骤a中已点击服务角色授权,可跳过此步。否则,请分别进行DSW服务账号授权DLC服务账号授权

  2. 【可选】准备专有资源组

    在完成步骤1后,系统将为您准备好公共资源组。当您需要使用专有资源组时,需要购买专有资源并分配资源配额,具体操作可参见下面教程。

  3. 【可选】准备数据集

    公共资源组和专有资源组默认数据存储空间有限,且无法持久化存储,因此,当您需要扩展实例的存储空间或持久化存储数据时,可通过挂载NAS、OSS类型数据集或OSS路径的方式实现。新建数据集,请参见创建及管理数据集

    重要
    • 公共资源组的DSW实例,数据存储在空间有限的免费云盘中,在删除实例或停机超过15天后,云盘数据将被清空。

    • 专有资源组的DSW实例,数据存储在实例的系统盘中,在停止或删除实例后,临时存储将被清空。

  4. 【可选】自定义镜像

    DSW预置了多种类型的官方镜像,例如PyTorch、TensorFlow、ModelScope等。如果您需要自定义镜像来满足特定场景下的开发需求,请参见自定义镜像

使用限制

由于每个阿里云账号(主账号)在每个Region有2卡GPU的限制,当资源使用量超出限额时可能会出现报错。如果您需要提升限额,请提交工单联系我们。

创建实例

通过控制台创建实例

  1. 进入DSW页面。

    1. 登录PAI控制台

    2. 概览页面选择目标地域。

    3. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    4. 在工作空间页面的左侧导航栏选择模型开发与训练 > 交互式建模(DSW),进入DSW页面。

  2. 单击新建实例

  3. 配置实例向导页面,配置以下关键参数。

  4. 参数

    描述

    基础信息

    实例名称

    参考界面提示信息配置DSW实例名称。

    资源信息

    资源配额

    支持选择:

    • 公共资源组,采用按量付费模式,支持选择CPU规格或GPU规格。

    • 通用训练资源专有资源组。如果没有可选的专有资源组,您可以单击关联资源配额

    • 灵骏智算资源。如果没有可选的灵骏智算资源,您可以单击关联资源配额

    说明

    当选择通用训练资源专有资源组或灵骏智算资源组创建DSW实例时,还需要设置以下参数:

    • 优先级: 优先级范围为1~9 ,数值越大,优先级越高。

    • CPU亲和性:启用CPU亲和性,能够将容器或Pod中的进程绑定到特定的CPU核心上执行。通过这种方式,可以减少CPU缓存未命中、上下文切换等现象,从而提高CPU利用率,提升应用性能,适用于对性能敏感和实时性要求高的场景。当前仅华北2(北京)、华南1(深圳)地域支持配置该参数。

    资源规格

    • 资源配额选择公共资源组时,根据实际需求选择资源规格,规格信息,请参见实例规格族

    • 资源组选择专有资源组时,根据实际需求设置GPU、CPU、GiB和优先级。

    环境信息

    镜像

    支持选择以下镜像:

    • 官方镜像:预置的官方镜像,覆盖Python、TensorFlow和PyTorch的多个版本。

    • 自定义镜像:支持选择已创建的自定义镜像。如何添加自定义镜像,请参见自定义镜像

    • 镜像地址:可输入公共可访问的镜像公网地址,或者当前Region下ACR个人版中镜像的公网地址。

    系统盘

    • 资源配额选择公共资源组时:

      每个实例会免费赠送100 GiB云盘作为系统盘,用于持久化存储。如果实例停机超过15天,云盘的内容将被清空。云盘支持扩容,具体扩容价格以控制台界面为准。

    警告
    • 扩容后不支持缩容,请按需操作扩容。

    • 扩容后整块系统盘(免费+付费)后,不再受到停机15天释放的限制,但会持续产生费用。

    • 实例删除系统盘同步销毁,删除前请确保必要数据备份。

    • 资源配额选择专有资源组时:

      使用实例自带的系统盘,并作为数据的临时存储,在停止或删除实例后,存储将被清空

    如果您需要永久性存储,可以配置数据集,或在挂载配置中添加OSS路径。

    数据集

    单击添加,可挂载已创建的自定义数据集,其中,OSS类型的自定义数据集支持多种挂载模式和自定义配置,公共数据集只支持只读挂载模式。

    说明
    • 多个数据集挂载的路径不能重复。

    • 如果配置了CPFS类型的数据集,则需要设置网络配置,且选择的专有网络需要与CPFS一致。否则,DSW实例可能会创建失败。

    • 当资源组选择专有资源组时,第一个数据集必须选择NAS类型数据集,且会被同时挂载到您指定的路径和DSW默认工作目录/mnt/workspace/下。

    挂载配置

    单击添加,可直接挂载OSS路径,OSS支持多种挂载模式和自定义配置。

    工作目录

    工作目录是Notebook、WebIDE的启动路径,挂载至/mnt/workspace

    网络信息

    专有网络配置

    仅当资源配额选择公共资源时,支持配置该参数。

    当您想要在专有网络内使用DSW实例时,可配置此参数,同时配置交换机安全组。不同场景的配置策略详情,请参见DSW网络配置

    公网访问网关

    公网访问网关支持以下配置方法:

    • 公有网关:集群中的DSW实例使用共享的公网带宽,在用户高并发时下载速度会比较慢。

    • 专有网关:独享带宽,您可以根据需求选择不同的带宽。选择该方式后,您需要为DSW实例关联的专有网络创建公网NAT网关、绑定EIP并配置SNAT条目。具体配置方法,请参见DSW通过专有公网网关访问公网

    仅当挂载配置选择CPFS类型的数据集时,支持配置以下参数:

    • 启用所有选项:默认为关闭,系统会禁用与CPFS类型的数据集不通的专有网络。

    • 隐藏禁用选项:选中复选框,系统会隐藏与CPFS类型的数据集不通的专有网络。

    说明

    如果挂载配置选择了CPFS类型的数据集,则需要配置专有网络,且选择的专有网络需要与CPFS一致。

    访问配置

    启用SSH

    选择专有网络后可配置SSH。

    启用后您可基于已选专有网络,使用SSH原生方式直连登录DSW实例。 若您配置了自定义镜像,请确认自定义镜像安装了sshd。

    SSH公钥

    打开SSH配置开关后可配置该参数。

    说明

    如果您需要同时支持VPC内登录和公网登录方式,您需要同时添加多个客户端的公钥。请按照回车换行的方式逐个添加公钥,最多支持添加10个公钥。

    SSH访问方式

    打开SSH配置开关后可配置该参数。

    • VPC内访问:默认支持该访问方式。您可以从VPC内的其他终端(例如ECS),通过SSH远程连接DSW实例。

    • 公网访问:选中该项,可以增加公网访问方式。后续,您可以通过本地命令行或其他终端使用SSH远程连接DSW实例。

      • NAT网关:选择为专有网络创建的公网NAT网关。

      • 弹性公网IP:选择在公网NAT网关中已创建的弹性公网IP。

    自定义服务

    将实例中启动的自定义服务提供对外访问能力。具体配置,请参见自定义服务访问配置

    高级信息

    可见范围

    可选择仅实例所有者可见工作空间内公开可见

    实例所有者

    仅工作空间管理员可修改实例所有者。

    实例RAM角色

    当在DSW实例内访问其他云资源时,可以为实例关联RAM角色,该方式基于STS临时凭证访问其他云资源,无需配置长期AccessKey,有效降低密钥泄露的风险。

    实例RAM角色可配置为:

    • PAI默认角色:拥有访问PAI内部产品、MaxCompute和OSS的权限。基于PAI默认角色签发的临时访问凭证,在访问PAI内部产品、MaxCompute表时,将拥有等同于DSW实例所有者的权限;在访问OSS时,仅能访问当前工作空间配置的默认存储路径Bucket。

    • 自定义角色:当您想要定制或者更精细的权限管理,可以配置自定义角色。

    • 不关联角色:当您想直接通过AccessKey访问其它云产品时,可以选择不关联角色。

    更多关于实例RAM角色的配置说明,请参见配置DSW实例RAM角色

  5. 确认所选配置无问题后,单击确定

相关文档

  • 创建实例后,您可以准备开发所需要的数据文件。DSW支持接入多种数据源,包括OSS、NAS和MaxCompute,详情请参见读写数据

  • DSW提供了数据上传和下载功能,适用于小数据量的文件传输,详情请参见上传与下载数据文件

  • DSW的功能特点、使用流程、快速入门等,详情请参见什么是DSW

  • 关于DSW的使用案例,详情请参见DSW使用案例汇总