DSW(Data Science Workshop)為您提供雲端IDE的AI開發環境(開發機),熟悉Notebook/VSCode的開發人員,可以快速開始模型開發。本文為您介紹如何建立DSW執行個體,以及執行個體啟動和釋放時常見的問題。
快速建立一個基礎DSW執行個體
登入PAI控制台,選擇目標地域,在左側導覽列單擊工作空间列表,選擇並進入目標工作空間。
在左側導覽列單擊交互式建模(DSW) > 新建实例,配置以下關鍵參數,其他參數預設即可。控制台全量參數請參見控制台全參數列表。
參數 | 說明 |
实例名称 | 例如:dsw_test。 |
资源类型 | 選擇公共资源,其採用隨用隨付的計費方式。 |
资源规格 | 選擇如:ecs.gn7i-c8g1.2xlarge(配置為:1張A10 GPU、8 vCPU、30 GiB記憶體)。 如果該規格庫存不足,請嘗試挑選清單中的其他規格。 |
镜像配置 | 選擇官方镜像,搜尋並選擇modelscope:1.31.0-pytorch2.8.0-gpu-py311-cu124-ubuntu22.04(Python版本為3.11、CUDA版本為12.4)。 ModelScope的鏡像相容性較好,且三方庫較全,因此推薦使用ModelScope鏡像。 |
單擊确定建立執行個體,當執行個體狀態為运行中時,代表建立成功。
如果執行個體啟動失敗請參見DSW執行個體啟動。
在DSW執行個體列表頁,單擊右側操作列下的打开按鈕,即可進入DSW執行個體開始模型開發。
後續您可以查看控制台訪問和管理DSW,瞭解DSW執行個體介面的功能,以及如何停止、釋放、變更DSW執行個體。
典型應用情境配置
基礎的DSW執行個體配置在實際AI開發中可能無法滿足需要,因此,以下為您總結了典型的應用情境配置:
情境 | 需求/痛點 | 配置要點 | 相關文檔 |
持久化儲存代碼和資料 | DSW執行個體的系統硬碟是臨時儲存,在執行個體刪除或長時間停止後資料會被清空。 需要長期儲存重要檔案,或在多個執行個體間共用資料。 | 通過数据集挂载或存储挂载將雲端儲存(如:Object Storage Service)掛載到執行個體指定目錄下。 | 掛載資料集/OSS/NAS/CPFS |
提升公網下載速度 | DSW執行個體預設使用共用網關,受頻寬節流設定,下載大型檔案時網速可能無法滿足需求。 | 在網路資訊中,配置Virtual Private Cloud,並使用专有网关。還需要為VPC建立NAT Gateway和Elastic IP Address (EIP)。 | 通過專有網關提升公網訪問速率 |
通過SSH遠程開發 | 習慣使用本地的VSCode、PyCharm等工具進行開發和調試,不希望局限於Web IDE。 | 在訪問配置中,启用SSH,填入SSH公钥,並選擇公网访问方式,關聯已有的NAT Gateway和Elastic IP Address (EIP)。 | 遠端連線:SSH直連方式 |
訪問執行個體內的Web服務 | 將執行個體內啟動並執行Web應用發布到公網,以便通過URL直接存取或分享。 | 在訪問配置中,添加自定义服务,佈建服務連接埠並啟用公網訪問。同時,必須在安全性群組中添加入方向規則,允許存取該連接埠。 | 通過公網訪問執行個體中的服務 |
控制台全參數列表
基礎資訊
參數 | 描述 |
实例名称 | 參考介面提示資訊配置執行個體名稱。 |
标签 | 根據業務需要對執行個體打標,便於對資源進行多維度尋找、定位、大量操作、分賬。 |
資源資訊
參數 | 描述 |
资源类型 | 公共资源:計費方式為隨用隨付,無法轉為訂用帳戶。
說明 GPU卡數限制:使用公用資源,每個阿里雲帳號(主帳號)在每個Region有2卡GPU的限制,當資源使用量超出限額時可能會出現報錯。如果您需要提升限額,請提交工單。 资源规格:可選擇GPU、CPU或免費試用資源。規格資訊,請參見執行個體規格類型系列。 竞价购买:可以選用競價執行個體(搶佔式執行個體),降低運行成本。當提示抢占型实例暂无库存時,可嘗試選擇其他規格。 當前僅華東1(杭州)、華東2(上海)、華北2(北京)、華北6(烏蘭察布)、華南1(深圳)、華南3(廣州)、日本(東京)、新加坡地區支援配置該參數。 驱动设置:公用資源的GPU執行個體可設定驅動版本。下拉式清單會顯示該GPU卡型支援的驅動主要版本號。
资源配额:計費方式為預付費(訂用帳戶)。 资源配额:可選擇通用計算資源、靈駿智算資源,如果沒有可選資源,單擊关联资源配额進行配置。 资源规格:根據實際需求設定GPU、CPU和記憶體等。 优先级: 優先順序範圍為1~9 ,數值越大,優先順序越高。 CPU亲和性:能夠將容器或Pod中的進程綁定到特定的CPU核心上執行。通過這種方式,可以減少CPU緩衝未命中、環境切換等現象,從而提高CPU利用率,提升應用效能,適用於對效能敏感和即時性要求高的情境。當前僅華北2(北京)、華南1(深圳)地區支援配置該參數。 驱动设置:靈駿智算資源配額可設定執行個體驅動版本。下拉式清單會顯示該GPU卡型支援的驅動主要版本號。
|
環境資訊
參數 | 描述 |
镜像配置 | 支援以下鏡像類型: 官方镜像:PAI官方提供了常用開源架構及Python版本的鏡像。以:pytorch:2.4.1-gpu-py312-cu124-ubuntu22.04為例,其代表PyTorch版本為2.4.1、適用於GPU執行個體、Python版本為3.12、CUDA版本為12.4。 當需要某個特定版本依賴時,可以直接在搜尋方塊中搜尋索引鍵。如搜尋cu124,尋找CUDA版本為12.4的鏡像。 自定义镜像:可使用添加到PAI的自訂鏡像,鏡像倉庫需要設定為公開拉取狀態,或將鏡像儲存在Container RegistryACR中,詳情請參見自訂鏡像。 镜像地址:支援配置公網環境下可訪問的自訂鏡像或官方鏡像地址。
|
系统盘 | 用於儲存開發過程中的檔案。當资源类型選擇公共资源,或當资源配额選擇預付費通用計算資源(CPU核心數≥2且記憶體≥4G,或配有GPU)時:每個執行個體會贈送100 GiB免費雲端硬碟作為系統硬碟。雲端硬碟支援擴容,具體擴容價格以控制台介面為準。
警告 僅使用免費額度雲端硬碟,如果執行個體停止超過15天,雲端硬碟的內容將被清空。 擴容後整塊雲端硬碟(免費+付費),不再受到停止15天釋放的限制,但擴容部分會持續產生費用,刪除執行個體後才能停止計費。 擴容後不支援縮容,請按需操作擴容。 執行個體刪除,雲端硬碟同步釋放,刪除前請確保必要資料備份。
如果您需要非揮發性儲存體,可以配置数据集挂载或存储挂载。 |
数据集挂载 | 可用於儲存需要讀取的資料集,或持久化儲存開發過程中的檔案,支援以下兩種資料集類型: 挂载路径:表示資料集掛載到DSW的路徑,例如/mnt/data,在代碼中您可以檢索該路徑擷取資料集。 更多關於掛載的詳情,請參見掛載資料集/OSS/NAS/CPFS。 |
存储挂载 | 您也可以使用儲存類型掛載儲存需要讀取的資料集,或持久化儲存開發過程中的檔案。 更多關於掛載的詳情,請參見掛載資料集/OSS/NAS/CPFS。 |
工作目录 | 工作目錄是Notebook、WebIDE的啟動路徑,預設為/mnt/workspace。 |
展開更多配置
參數 | 描述 |
自定义启动脚本 | 用於在執行個體啟動過程中定製環境或執行初始化任務。自訂指令碼的執行時間在鏡像和資源準備完成後,JupyterLab、Code Server等開發應用啟動前。 |
环境变量 | 用於主容器啟動、系統進程和使用者進程。您可以按需增加自訂的環境變數或覆蓋系統預設環境變數。 注意:如下環境變數不建議修改: # 修改不會生效
USER_NAME # 會被service裡的邏輯覆蓋
# 不建議修改的系統變數,修改可能會影響正常使用
JUPYTER_NAME:預設由執行個體資訊構造而來,可用於修改jupyterlab的url訪問路徑
JUPYTER_COMMAND: jupyter啟動指令,預設設定為lab用於啟動jupyterlab
JUPYTER_SERVER_ADDR: jupyterlab服務監聽地址,預設為0.0.0.0
JUPYTER_SERVER_PORT: jupyterlab服務監聽連接埠,預設為8088
JUPYTER_SERVER_AUTH: jupyterlab訪問密碼,預設為空白
JUPYTER_SERVER_ROOT: jupyter工作目錄,優先順序不如WORKSPACE_DIR高
CODE_SERVER_ADDR: code-server服務監聽地址,預設為0.0.0.0
CODE_SERVER_PORT: code-server服務監聽連接埠,預設為8082
CODE_SERVER_AUTH: code-server訪問密碼,預設為空白
WORKSPACE_DIR: 系統根據執行個體建立時設定的工作目錄參數設定這個環境變數。可改變jupyter、code-server的啟動目錄。如果路徑不存在可能報錯。
|
高级配置 | 允許使用者通過進階配置,來調整部分業務所需且安全的核心參數。目前只支援靈駿資源群組執行個體進行設定,參數詳情請參見下表。 |
進階配置參數 | 預設值 | 說明 | 注意事項 |
VmMaxMapCount | 65530 | 設定進程可擁有的最大記憶體映射地區數量。例如,可配置為1024000。 | 小於65530不生效,過高值可能導致記憶體資源浪費。 |
網路資訊
參數 | 描述 |
专有网络配置 | 僅當资源类型選擇公共资源時,支援配置該參數。 當您想要在Virtual Private Cloud內使用DSW執行個體時,可以在DSW相同地區建立VPC並配置此參數,同時需配置交换机和安全组。不同情境的配置策略詳情,請參見網路設定。 |
交换机 | 當配置了專用網路時,可配置該參數。交換器是專用網路內的子網,您的 DSW 執行個體和其他雲資源都串連在交換器上。 |
安全组 | 當配置了專用網路時,需要配置該參數。安全性群組是 DSW 執行個體的虛擬防火牆,它控制所有進出的網路流量。 |
公网访问网关 | 支援以下配置方法: 僅當挂载配置選擇CPFS類型的資料集時,支援配置以下參數:
說明 如果掛載配置選擇了CPFS類型的資料集,則需要配置專用網路,且選擇的專用網路需要與CPFS一致。 |
扩展网段 | 當配置了交换机後,可配置該參數。當專用網路的可用IP地址數不足以滿足擴充的業務規模,或者前期網路規劃不當導致地址不足時,可以使用擴充網段擴充VPC地址空間。更多內容請參見使用附加網段擴充網段地址。 |
訪問配置
參數 | 描述 |
启用SSH | 用於遠端連線執行個體,選擇專用網路後可配置。當開啟該開關後,會出現名稱為SSH的自定义服务。若您配置了自訂鏡像,請確認自訂鏡像安裝了sshd。 |
SSH公钥 | 開啟SSH配置開關後可配置該參數。
說明 如果需要同時支援VPC內登入和公網登入方式,您需要同時添加多個用戶端的公開金鑰。請按照斷行符號換行的方式逐個添加公開金鑰,最多支援添加10個公開金鑰。 |
自定义服务 | 用於配置SSH遠端存取或通過公網訪問執行個體中的服務。 |
创建VPC内访问域名 | 建立一條內建權威網域名稱(Private Zone),您可在VPC內使用該網域名稱來訪問當前執行個體的SSH服務或其他自訂服務,避免使用變化的執行個體IP帶來的訪問不便。請注意建立的內建權威網域名稱會產生費用,詳情請參見Alibaba Cloud DNS產品計費。 |
NAT网关 | 通過公網訪問執行個體中服務時,負責將公網請求 (EIP:連接埠) 映射到私網 DSW 執行個體 (私人IP:連接埠)。 |
弹性公网IP | 通過公網訪問執行個體中服務時,提供公網訪問IP地址。 |
角色與許可權
參數 | 描述 |
可见范围 | 可選擇仅实例所有者可见或工作空间内公开可见。 |
实例所有者 | 僅工作空間管理員可修改執行個體所有者。 |
展开更多配置
參數 | 描述 |
实例RAM角色 | 當在DSW執行個體內訪問其他雲資源時,可以為執行個體關聯RAM角色。該方式基於STS臨時憑證訪問其他雲資源,無需配置長期AccessKey,有效降低密鑰泄露的風險。 執行個體RAM角色可配置為: PAI默认角色:擁有訪問PAI內部產品、MaxCompute和OSS的許可權。基於PAI預設角色簽發的臨時訪問憑證,在訪問PAI內部產品、MaxCompute表時,將擁有等同於DSW執行個體所有者的許可權;在訪問OSS時,僅能訪問當前工作空間配置的預設儲存路徑Bucket。 自定义角色:當您想要定製或者更精細的許可權管理,可以配置自訂角色。 不关联角色:當您想直接通過AccessKey訪問其他雲產品時,可以選擇不關聯角色。
更多關於執行個體RAM角色的配置說明,請參見配置DSW執行個體RAM角色。 |
常見問題
DSW執行個體啟動
單擊展開
Q:DSW執行個體啟動失敗
排查方法:單擊DSW執行個體名稱,在事件頁簽下查看報錯資訊。

常見報錯及解決方案如下:
Your requested resource type [ecs.******] is not enough currently, please try other regions or other resource types
Your resource usage has exceeded the default limitation. Please contact us via ticket system to raise the limitation.
Sales of this resource are temporarily suspended in the specified zone. We recommend that you use the multi-zone creation function to avoid the risk of insufficient resource.
當前指定可用性區域的資源銷售已暫停,您可以嘗試以下操作來規避資源不足的風險:
切換至其他地區。
調整執行個體的資源規格。
嘗試在非高峰時段啟動執行個體。
CommodityInstanceNotAvailableError:Commodity instance has been released due to prolonged arrears at past. Please create a new instance for use
The charge of current ECI instance has been stopped, but the related resources are still being cleaned.
The cluster resources are fully utilized. Please try later or other regions.
錯誤原因:當前計算資源已完全被佔用。
解決方案:嘗試以下操作:
Create ECI failed because the specified instance is out of stock. It is recommended to use the multi-zone creation function to avoid the risk of stockout.
錯誤原因:指定的計算資源已經售罄。
解決方案:嘗試以下操作:
back-off 10s restarting failed container=dsw-notebook pod
錯誤原因:系統硬碟已滿,需要對系統硬碟進行擴容。
查看系統硬碟佔用情況:


解決方案:通過变更配置對系統硬碟進行擴容:

重要 擴容過系統硬碟後,無論執行個體是否處於運行狀態,系統硬碟都會持續計費。如果您想停止DSW執行個體相關的一切計費,請刪除DSW執行個體。刪除前請務必確保必要資料已備份。
the available zone with vSwitch is out of stock
啟動失敗,提示Workspace member not found
此錯誤表示您當前登入的帳號不是目標工作空間的成員。請聯絡您的工作空間管理員,將您的帳號添加為該工作空間的成員。
failed to create containerd container: failed to prepare layer from archive: failed to validate archive quota ...
其他啟動失敗原因:
Q:DSW啟動時可以開機執行Python檔案嗎?
您可以在建立DSW執行個體時,或通過變更執行個體配置的方式設定自定义启动脚本。

該功能可用於在執行個體啟動過程中定製環境或執行初始化任務。自訂指令碼的執行時間在鏡像和資源準備完成後,JupyterLab、Code Server等開發應用啟動前。
Q:找不到DSW執行個體?
您可以在概覽頁面查看建立地不同類型的執行個體,並嘗試切換不同地區。

Q:DSW 頁面異常或無法操作怎麼辦?
如果遇到頁面白屏、Notebook 一直轉圈載入,或者 Terminal 無法輸入命令這類問題,通常與您的本地環境有關。請嘗試以下步驟:
清理瀏覽器緩衝後重試。
使用瀏覽器的 無痕/隱私模式 訪問。
更換網路環境,例如從公司內網切換至手機熱點,以排查防火牆限制。
嘗試使用 其他瀏覽器(如 Chrome、Firefox)。
Q:包含雲端硬碟系統硬碟的DSW執行個體停止、重啟、變更規格、更換鏡像是否會丟失系統硬碟中資料?
包含雲端硬碟系統硬碟的DSW執行個體類型有:公用資源群組建立的執行個體,以及選擇云盘作為系統硬碟的通用資源執行個體,其系統硬碟中的資料丟失情況如下:
停止執行個體:可能會丟失。如果雲端硬碟未擴容且執行個體停止超過15天,資料會被清空且無法恢複。如果雲端硬碟擴容過或者執行個體停止未超過15天,則資料不會丟失。
重啟執行個體:不會丟失。在執行個體停止或重啟後,所有通過pip安裝的包、代碼檔案以及其他儲存在執行個體系統硬碟中的資料都會被保留,不會丟失。
變更執行個體規格:不會丟失。調整執行個體規格(如CPU、記憶體、GPU等資源配置)不會影響執行個體的系統硬碟中資料。
更換執行個體鏡像:可能會丟失部分資料。變更鏡像不會影響掛載的資料集或OSS儲存中的資料,但系統硬碟內的內容可能會被重設。因此,您在變更執行個體鏡像時,注意儲存執行個體資料。比如可以將資料複製或移動到資料集或OSS中。詳情請參見掛載資料集/OSS/NAS/CPFS。
對於選擇临时存储作為系統硬碟的通用資源執行個體,不論其所在AI資源群組是否配有預付費雲端硬碟,其停止、重啟、變更規格或鏡像都會丟失系統硬碟中的資料。
Q:使用公用資源建立的 DSW 執行個體,超過15 天未登入被釋放,可以找回嗎?
使用公用資源建立的DSW執行個體,如果雲端硬碟系統硬碟未付費擴容,且關機後連續15天以上未啟動,其系統硬碟將被自動清空且無法恢複。
DSW執行個體停止或釋放
單擊展開
Q:如何釋放DSW執行個體?
在DSW執行個體列表頁,單擊停止或刪除執行個體。

注意:如果建立DSW執行個體時有擴容過系統硬碟,無論執行個體是否處於運行狀態,系統硬碟都會持續計費。如果您想停止DSW執行個體相關的一切計費,請刪除DSW執行個體。
Q:怎麼找不到DSW執行個體?
如果找不到執行個體,您可以嘗試切換不同地區和工作空間。

Q:如何釋放免費試用抵扣包?
免費試用抵扣包無需釋放或停止。
Q:如何完全停止DSW執行個體的計費?“停止”和“刪除”操作有什麼不同?
如何選擇:
Q:為什麼我的DSW執行個體長時間處於“停止中”或“刪除中”狀態,無法完成操作?
停止或刪除執行個體需要時間。系統需要安全地終止任務、儲存狀態和回收資源。如果執行個體長時間無響應,常見原因如下:
執行個體中有未正常結束的進程。
記憶體佔用過高,導致執行個體無法響應關機指令。
遇到這種情況,通常耐心等待一段時間後重新整理頁面,執行個體狀態會正常停止。
Q:停止或刪除DSW執行個體後,我的資料和代碼會丟失嗎?
資料是否保留取決於您的操作以及執行個體的資源群組類型。
Q:為什麼我正在啟動並執行DSW執行個體會自動停止?
執行個體配置了閑置自動關機策略。此策略旨在節省資源,預設對免費試用執行個體啟用。
Q:我已經將所有DSW執行個體停止或刪除了,為什麼還顯示“運行中”或收到計費通知?
檢查以下常見原因:
混淆了資源套件與執行個體。您看到的“運行中”狀態可能指資源套件(如“每月250計算時”),而非執行個體。資源套件在有效期間內始終有效,其狀態與執行個體無關。
擴容的系統硬碟仍在計費。停止執行個體僅暫停計算費用。擴容後的系統硬碟會繼續產生儲存費用。
賬單存在延遲。計費並非即時,賬單可能在您使用資源幾小時後才產生。例如,上午產生的費用,可能在下午才顯示在賬單中。