Data Science Workshop (DSW) は、AI 開発のためのクラウドベースの IDE を提供します。Jupyter Notebook や Visual Studio Code などのツールに精通している場合は、すぐにモデル開発を開始できます。このドキュメントでは、DSW インスタンスを作成し、一般的な問題のトラブルシューティングを行う方法について説明します。
基本的な DSW インスタンスのクイック作成
PAI コンソールにログインし、[リージョン] を選択し、左側のナビゲーションウィンドウで [ワークスペース] をクリックします。対象のワークスペースを選択して入ります。
左側のナビゲーションウィンドウで、[Data Science Workshop (DSW)] > [インスタンスの作成] をクリックします。以下の主要なパラメーターを設定し、その他はデフォルト設定のままにします。コンソールパラメーターの完全なリストについては、「コンソールパラメーターの全リスト」をご参照ください。
パラメーター | 説明 |
インスタンス名 | 例:dsw_test |
リソースタイプ | [パブリックリソース] を選択します。このリソースタイプは従量課金方式を使用します。 |
インスタンスタイプ | 例:ecs.gn7i-c8g1.2xlarge (1 × A10 GPU、8 vCPU、30 GiB メモリ) このインスタンスタイプが在庫切れの場合は、リストから別のインスタンスタイプを選択してみてください。 |
画像設定 | [Alibaba Cloud イメージ] を選択し、modelscope:1.31.0-pytorch2.8.0-gpu-py311-cu124-ubuntu22.04 (Python 3.11、CUDA 12.4) を検索して選択します。 幅広い互換性と包括的なサードパーティライブラリのセットのため、ModelScope イメージの使用を推奨します。 |
[はい] をクリックしてインスタンスを作成します。インスタンスのステータスが [実行中] に変わると、準備完了です。
インスタンスの起動に失敗した場合は、「DSW インスタンスの起動」をご参照ください。
DSW インスタンスリストページで、インスタンスを見つけ、[操作] 列の [開く] をクリックして DSW インスタンスに移動し、モデル開発を開始します。
DSW インスタンスインターフェイスの機能、および DSW インスタンスの停止、リリース、変更方法の詳細については、「コンソールでの DSW インスタンスへのアクセスと管理」をご参照ください。
警告 パブリックリソースで作成された DSW インスタンスは、WebIDE を開いたり、コードを実行したりしなくても、実行中の状態に入るとすぐに実行料金が発生し始めます。不要な課金を避けるため、不要になった DSW インスタンスは速やかに停止または削除してください。
この例でパブリックリソースから作成された DSW インスタンスのシステムディスクは、無料のクラウドディスクです。インスタンスが 15 日間連続して停止したままである場合、クラウドディスク上のデータは完全に削除され、回復できなくなります。重要なデータは適時にバックアップするか、クラウドストレージサービスをマウントしてデータを転送してください。
一般的なユースケースのための構成
基本的な DSW インスタンスでは、すべての AI 開発ニーズを満たせない場合があります。次の表は、一般的なユースケースの構成をまとめたものです。
ユースケース | ニーズ/課題 | 主要な構成 | 関連ドキュメント |
コードとデータの永続的な保存 | DSW インスタンスのシステムディスクは一時的なストレージを提供します。インスタンスが削除されたり、長期間停止したままになるとデータは削除されます。 重要なファイルを長期間使用するために保存したり、複数のインスタンス間でデータを共有したりします。
| [データセットのマウント] または [ストレージのマウント] を使用して、Object Storage Service (OSS) などのクラウドストレージをインスタンスの指定されたフォルダーにマウントします。 | データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント |
パブリックネットワークのダウンロード速度の向上 | DSW インスタンスはデフォルトで共有ゲートウェイを使用します。帯域幅の制限により、大きなファイルのダウンロード速度が不十分な場合があります。 | ネットワーク情報セクションで、[VPC] を構成し、[プライベートゲートウェイ] を使用します。これには、VPC 用の NAT Gateway と Elastic IP Address (EIP) も必要です。 | 専用ゲートウェイを使用してパブリックネットワークのアクセス速度を向上させる |
SSH を使用したリモート開発 | Web ベースの IDE に限定されず、VSCode や PyCharm などのローカルツールを使用して開発とデバッグを行います。 | アクセス構成で、[SSH の有効化] を選択し、[SSH 公開鍵] を入力し、[インターネット経由でのアクセス] を選択します。既存の NAT Gateway と EIP を関連付けます。 | リモート接続:SSH を使用した直接接続 |
インスタンス内の Web サービスへのアクセス | インスタンス内で実行されている Web アプリケーションをパブリックインターネットに公開し、URL を介してアクセスまたは共有できるようにします。 | アクセス構成で、[カスタムサービス] を追加し、サービスポートを構成し、パブリックネットワークアクセスを有効にします。セキュリティグループにインバウンドルールを追加して、そのポートでのトラフィックを許可します。 | インターネット経由でインスタンス内のサービスにアクセスする |
コンソールパラメーターの全リスト
基本情報
パラメーター | 説明 |
インスタンス名 | インスタンスの一意でわかりやすい名前を入力します。 |
タグ | ビジネスニーズに基づいてインスタンスにタグを追加し、多次元検索、特定、バッチ操作、課金を容易にします。 |
環境情報
パラメーター | 説明 |
イメージ設定 | 次のイメージタイプがサポートされています: [Alibaba Cloud イメージ]:PAI は、一般的なオープンソースフレームワークと Python バージョンのイメージを提供します。たとえば、pytorch:2.4.1-gpu-py312-cu124-ubuntu22.04 イメージは PyTorch 2.4.1 用に設計されており、GPU インスタンスで実行され、Python 3.12 と CUDA 12.4 が含まれています。 特定のバージョン依存関係を持つイメージを見つけるには、検索ボックスでキーワードを検索できます。たとえば、cu124 を検索すると、CUDA 12.4 を使用するイメージが返されます。 [カスタムイメージ]:PAI に追加されたカスタムイメージを使用できます。イメージリポジトリはパブリックプルを許可するように設定するか、イメージを Container Registry (ACR) に保存する必要があります。詳細については、「カスタムイメージ」をご参照ください。 [イメージアドレス]:パブリックネットワークでアクセス可能なカスタムまたは公式イメージの URL を構成できます。
|
システムディスク | 開発中にファイルを保存するために使用されます。[リソースタイプ] を [パブリックリソース] に設定した場合、または [リソースクォータ] をサブスクリプションの汎用コンピューティングリソース (CPU コア ≥ 2 およびメモリ ≥ 4 GB、または GPU 搭載) に設定した場合、各インスタンスはシステムディスクとして 100 GiB の無料ディスクを受け取ります。ディスクを拡張できます。拡張価格はコンソールインターフェイスに準じます。
警告 クラウドディスクの無料クォータのみを使用する場合、インスタンスが 15 日間連続して停止すると、その内容は削除されます。 スケールアウト後、インスタンスが 15 日間停止しても、無料部分と有料部分を含むディスク全体は解放されなくなります。ただし、スケールアウトされた部分の課金は、インスタンスが削除されるまで継続します。 拡張後のディスクサイズのダウングレードはサポートされていません。必要に応じてディスクを拡張してください。 インスタンスが削除されると、クラウドディスクも削除されます。削除する前に、必要なすべてのデータをバックアップしてください。
永続ストレージを使用するには、[データセットのマウント] または [ストレージのマウント] を構成します。 |
データセットのマウント | 読み取り用のデータセットを保存したり、開発中に作成されたファイルを永続化したりします。次の 2 種類のデータセットがサポートされています: [マウントパス]:データセットが DSW インスタンスにマウントされるパス。例:/mnt/data。このパスを使用してコードからデータセットにアクセスします。
説明 複数のデータセットのマウントパスは同じにできません。 CPFS タイプのデータセットを構成する場合、ネットワーク設定を構成し、選択した VPC が CPFS で使用されているものと同じであることを確認する必要があります。そうしないと、DSW インスタンスの作成に失敗します。 リソースグループが専用リソースグループの場合、最初のデータセットは NAS タイプである必要があり、指定したパスとデフォルトの DSW 作業ディレクトリ /mnt/workspace/ の両方にマウントされます。
マウントの詳細については、「データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント」をご参照ください。 |
ストレージのマウント | ストレージマウントを使用してデータセットにアクセスしたり、ファイルを永続化したりします。 マウントの詳細については、「データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント」をご参照ください。 |
作業ディレクトリ | JupyterLab と Web IDE の起動ディレクトリ。デフォルトは /mnt/workspace です。 |
クリックしてその他の構成を展開
パラメーター | 説明 |
カスタム起動スクリプト | インスタンス起動時に環境をカスタマイズしたり、初期化タスクを実行したりします。カスタムスクリプトは、イメージとリソースの準備ができた後、JupyterLab や Web IDE などの開発アプリケーションが起動する前に実行されます。 |
環境変数 | メインコンテナーの起動、システムプロセス、およびユーザープロセスに使用されます。必要に応じてカスタム環境変数を追加したり、システムのデフォルトをオーバーライドしたりします。 注:次の環境変数は変更しないでください: # 変更しても効果はありません
USER_NAME # サービス内のロジックによって上書きされます
# 変更を推奨しないシステム変数。変更すると通常の使用に影響する可能性があります。
JUPYTER_NAME: デフォルトではインスタンス情報から構築されます。jupyterlab の URL アクセスパスを変更するために使用できます。
JUPYTER_COMMAND: Jupyter の起動コマンド。デフォルトは jupyterlab を起動するために lab に設定されています。
JUPYTER_SERVER_ADDR: JupyterLab サービスのリスニングアドレス。デフォルトは 0.0.0.0 です。
JUPYTER_SERVER_PORT: JupyterLab サービスのリスニングポート。デフォルトは 8088 です。
JUPYTER_SERVER_AUTH: JupyterLab のアクセスパスワード。デフォルトは空です。
JUPYTER_SERVER_ROOT: Jupyter の作業ディレクトリ。優先度は WORKSPACE_DIR より低いです。
CODE_SERVER_ADDR: code-server サービスのリスニングアドレス。デフォルトは 0.0.0.0 です。
CODE_SERVER_PORT: code-server サービスのリスニングポート。デフォルトは 8082 です。
CODE_SERVER_AUTH: code-server のアクセスパスワード。デフォルトは空です。
WORKSPACE_DIR: システムは、インスタンス作成時に設定された作業ディレクトリパラメーターに基づいてこの環境変数を設定します。jupyter と code-server の起動ディレクトリを変更できます。パスが存在しない場合、エラーが発生する可能性があります。
|
高度な設定 | サービスで必要な特定のセキュアカーネルパラメーターを調整します。これは現在、Lingjun リソースグループインスタンスでのみサポートされています。パラメーターの詳細については、以下の表をご参照ください。 |
詳細設定パラメーター | デフォルト値 | 説明 | 注 |
VmMaxMapCount | 65530 | プロセスが持つことができるメモリマップ領域の最大数を設定します。たとえば、1024000 に設定できます。 | 65530 未満の値は効果がありません。高すぎる値はメモリリソースの浪費につながる可能性があります。 |
ネットワーク情報
パラメーター | 説明 |
[VPC] | このパラメーターは、[リソースタイプ] が [パブリックリソース] に設定されている場合にのみ利用可能です。 Virtual Private Cloud (VPC) 内で DSW インスタンスを使用するには、DSW インスタンスと同じリージョンに VPC を作成し、このパラメーターを構成します。また、[vSwitch] と [セキュリティグループ] を構成する必要があります。さまざまなシナリオの構成ポリシーの詳細については、「ネットワーク構成」をご参照ください。 |
[vSwitch] | このパラメーターは、VPC が構成されている場合に構成できます。vSwitch は VPC 内のサブネットです。DSW インスタンスと他のクラウドリソースは vSwitch に接続します。 |
セキュリティグループ | このパラメーターは、VPC が構成されている場合に必要です。セキュリティグループは、DSW インスタンスの仮想ファイアウォールです。すべてのインバウンドおよびアウトバウンドのネットワークトラフィックを制御します。 |
インターネットゲートウェイ | 次の構成方法がサポートされています: [パブリックゲートウェイ]:ネットワーク帯域幅が制限されています。ユーザーの同時実行性が高い期間や大きなファイルをダウンロードする場合、ネットワーク速度が不十分になる可能性があります。 [プライベートゲートウェイ]:パブリックゲートウェイの帯域幅制限を解決するには、DSW インスタンスの VPC にパブリック NAT Gateway を作成し、EIP をバインドし、SNAT エントリを構成します。詳細については、「専用ゲートウェイでパブリックネットワークのアクセス速度を向上させる」をご参照ください。
次のパラメーターは、CPFS データセットがマウントされている場合にのみ利用可能です:
説明 CPFS データセットがマウントされている場合は、VPC を構成する必要があり、選択した VPC は CPFS で使用されているものと同じでなければなりません。 |
Extended CIDR Block | このパラメーターは、vSwitch を構成した後に構成できます。ビジネスの成長に伴い VPC で利用可能な IP アドレスの数が不足した場合、または初期のネットワーク計画でアドレスが不足した場合、拡張 CIDR ブロックを使用して VPC アドレス空間を拡張できます。詳細については、「セカンダリ CIDR ブロックの使用」をご参照ください。 |
アクセス構成
パラメーター | 説明 |
SSH の有効化 | インスタンスへのリモート接続用。このオプションは、VPC を選択した後にのみ利用可能です。有効にすると、SSH という名前の [カスタムサービス] が表示されます。カスタムイメージを使用する場合は、sshd がインストールされていることを確認してください。 |
[SSH 公開鍵] | このパラメーターは、[SSH 構成] スイッチをオンにした後に構成できます。
説明 VPC とパブリックネットワークの両方のログインをサポートするには、複数のクライアントから公開鍵を追加します。各公開鍵は新しい行に追加します。最大 10 個の公開鍵を追加できます。 |
カスタムサービス | SSH リモートアクセスまたはインターネット経由でインスタンス内のサービスにアクセスするために使用されます。 |
VPC にプライベートゾーンを作成 | 内部の権威ドメイン (PrivateZone) を作成します。VPC 内でこのドメインを使用して、インスタンスの SSH サービスや他のカスタムサービスにアクセスし、インスタンスの IP アドレスが変更されることによる不便を回避します。PrivateZone ドメインの作成には料金が発生します。詳細については、「Alibaba Cloud DNS 製品の課金」をご参照ください。 |
[NAT Gateway] | パブリックネットワークからインスタンス内のサービスにアクセスする場合、このゲートウェイはパブリックリクエスト (EIP:Port) をプライベート DSW インスタンス (Private IP:Port) にマッピングします。 |
[EIP] | パブリックネットワークからインスタンス内のサービスにアクセスするためのパブリック IP アドレスを提供します。 |
ロールと権限
パラメーター | 説明 |
可視性 | [現在のワークスペースに表示] または [インスタンス所有者に表示] を選択します。 |
インスタンス所有者 | ワークスペース管理者のみがインスタンス所有者を変更できます。 |
[クリックしてその他の構成を展開]
パラメーター | 説明 |
インスタンス RAM ロール | インスタンスに RAM ロールを関連付けて、他のクラウドリソースへのアクセスを許可します。この方法では、STS からの一時的な認証情報を使用して他のクラウドリソースにアクセスするため、長期間の AccessKey の使用を避け、キー漏洩のリスクを低減します。 次のオプションが利用可能です:
[PAI のデフォルトロール]:内部 PAI プロダクト、MaxCompute、および OSS へのアクセス権限を持ちます。デフォルトの PAI ロールに基づいて発行された一時的なアクセス認証情報は、内部 PAI プロダクトおよび MaxCompute テーブルにアクセスする際に、DSW インスタンス所有者と同等の権限を持ちます。OSS にアクセスする場合、現在のワークスペースに構成されているデフォルトのストレージパスバケットにのみアクセスできます。 カスタムロール: カスタマイズされた、またはより詳細な権限管理のために、独自のロールを設定できます。 [ロールを関連付けない]:AccessKey を使用して他のクラウドプロダクトに直接アクセスする場合は、これを選択します。
インスタンス RAM ロールの構成の詳細については、「DSW インスタンスのインスタンス RAM ロールを構成する」をご参照ください。 |
よくある質問
DSW インスタンスの起動
クリックして展開
Q:DSW インスタンスの起動に失敗しました
トラブルシューティング:DSW インスタンス名をクリックします。エラーメッセージは [イベント] タブに表示されます。

以下は一般的なエラーとその解決策です:
Your requested resource type [ecs.******] is not enough currently, please try other regions or other resource types
Your resource usage has exceeded the default limitation. Please contact us via ticket system to raise the limitation.
Sales of this resource are temporarily suspended in the specified zone. We recommend that you use the multi-zone creation function to avoid the risk of insufficient resource.
解決策:リソース不足のリスクを回避するために、次の操作を試すことができます:
CommodityInstanceNotAvailableError: Commodity instance has been released due to prolonged arrears at past. Please create a new instance for use
The charge of current ECI instance has been stopped, but the related resources are still being cleaned.
The cluster resources are fully utilized. Please try later or other regions.
Create ECI failed because the specified instance is out of stock. It is recommended to use the multi-zone creation function to avoid the risk of stockout.
原因:指定されたコンピューティングリソースが在庫切れです。
解決策:次の操作を試すことができます:
リージョンを切り替えます。
インスタンスタイプを変更します。保留中のインスタンスのインスタンスタイプは変更できません。インスタンスを停止してからインスタンスタイプを変更する必要があります。
勤務時間外など、オフピーク時にインスタンスを使用します。
上記の方法で問題が解決しない場合は、ビジネス担当者にお問い合わせください。
back-off 10s restarting failed container=dsw-notebook pod
the available zone with vSwitch is out of stock
Startup failed with the message "Workspace member not found"
解決策:ワークスペース管理者に連絡して、アカウントをワークスペースのメンバーとして追加してもらいます。
failed to create containerd container: failed to prepare layer from archive: failed to validate archive quota ...
その他の起動失敗の理由:
Q:DSW インスタンスの起動時に Python ファイルを実行できますか?
はい、DSW インスタンスを作成するか、インスタンス構成を変更するときに [カスタム起動スクリプト] を設定できます。

この機能を使用して、インスタンスの起動時に環境をカスタマイズしたり、初期化タスクを実行したりできます。カスタムスクリプトは、イメージとリソースの準備が整い、JupyterLab や Code Server などの開発者アプリケーションが起動する前に実行されます。
Q:DSW インスタンスが見つかりませんか?
概要ページでは、異なるリージョンで作成されたさまざまなタイプのインスタンスを表示できます。リージョンを切り替えてインスタンスを見つけてみてください。

Q:DSW ページが異常または無応答の場合はどうすればよいですか?
空白のページ、読み込みが続く Notebook、コマンドを受け付けない Terminal などの問題は、通常、ローカル環境に関連しています。次のトラブルシューティング手順を試してください:
ブラウザのキャッシュをクリアして、もう一度試してください。
ブラウザのシークレットモードまたはプライベートモードを使用してページにアクセスしてください。
ネットワーク環境を変更してください。たとえば、会社の内部ネットワークからモバイルホットスポットに切り替えて、ファイアウォールの制限を確認してください。
Chrome や Firefox など、別のブラウザを使用してみてください。
Q:ディスクをシステムディスクとして使用する DSW インスタンスが停止、再起動、インスタンスタイプの変更、またはイメージの置換をされた場合、システムディスク上のデータは失われますか?
クラウドディスクをシステムディスクとして使用する DSW インスタンスには、パブリックリソースグループで作成されたインスタンスと、システムディスクとして [ディスク] を選択した汎用リソースインスタンスが含まれます。これらのインスタンスのシステムディスク上のデータは、次のように影響を受けます:
インスタンスの停止:データが失われる可能性があります。ディスクが拡張されておらず、インスタンスが 15 日以上停止したままである場合、データは削除され、回復できません。ディスクが拡張されているか、インスタンスが 15 日以下停止している場合、データは失われません。
インスタンスの再起動:データは失われません。インスタンスが停止または再起動された後、pip を使用してインストールされたすべてのパッケージ、コードファイル、およびシステムディスク上のその他のデータは保持されます。
インスタンスタイプの変更:データは失われません。CPU、メモリ、GPU 構成などのインスタンスタイプを調整しても、システムディスク上のデータには影響しません。
イメージの置換:一部のデータが失われる可能性があります。イメージを変更しても、マウントされたデータセットや OSS のデータには影響しません。ただし、システムディスク上のコンテンツはリセットされる可能性があります。したがって、イメージを変更する前にインスタンスのデータを保存してください。たとえば、データをデータセットや OSS にコピーまたは移動できます。詳細については、「データセット、OSS、NAS、または CPFS のマウント」をご参照ください。
システムディスクとして [一時ストレージ] を使用する汎用リソースインスタンスの場合、AI リソースグループがサブスクリプションディスクで構成されているかどうかに関係なく、インスタンスが停止、再起動、または仕様やイメージが変更されると、システムディスク上のすべてのデータが失われます。
Q:パブリックリソースを使用して作成された DSW インスタンスは、15 日以上ログインしなかったために解放された場合、回復できますか?
パブリックリソースで作成された DSW インスタンスの場合、クラウドディスクのシステムディスクが拡張されておらず、インスタンスが 15 日間連続して起動されていない場合、そのシステムディスクは自動的にクリアされ、回復できません。
DSW インスタンスの停止または解放
クリックして展開
Q:DSW インスタンスを解放するにはどうすればよいですか?
DSW インスタンスリストページで、インスタンスの [停止] または [削除] をクリックします。

注:DSW インスタンスを作成する際にシステムディスクを拡張した場合、インスタンスが実行中であるかどうかに関係なく、システムディスクの課金は継続します。DSW インスタンスのすべての課金を停止するには、インスタンスを削除する必要があります。
Q:DSW インスタンスが見つからないのはなぜですか?
インスタンスが見つからない場合は、別のリージョンとワークスペースに切り替えてみてください。

Q:無料トライアルのリソースプランを解放するにはどうすればよいですか?
無料トライアルのリソースプランは、解放または停止する必要はありません。
Q:DSW インスタンスの課金を完全に停止するにはどうすればよいですか?「停止」と「削除」の違いは何ですか?
選択方法:
Q:DSW インスタンスが「停止中」または「削除中」の状態でスタックし、操作が完了できないのはなぜですか?
システムがタスクを安全に終了し、状態を保存し、リソースを回収する必要があるため、インスタンスの停止または削除には時間がかかります。インスタンスが長時間応答しない場合、一般的な理由は次のとおりです:
この状況では、しばらく待ってからページをリフレッシュしてください。インスタンスのステータスは「停止済み」に変わるはずです。
Q:DSW インスタンスを停止または削除した後、データとコードは失われますか?
データが保持されるかどうかは、操作とインスタンスのリソースグループタイプによって異なります。
Q:実行中の DSW インスタンスが自動的に停止するのはなぜですか?
インスタンスにはアイドル自動シャットダウンポリシーが構成されています。このポリシーはリソースを節約するために設計されており、無料トライアルインスタンスではデフォルトで有効になっています。
Q:すべての DSW インスタンスを停止または削除しましたが、なぜまだ「実行中」と表示されたり、課金通知が届いたりするのですか?
次の一般的な理由を確認してください:
リソースプランとインスタンスを混同している。表示されている「実行中」のステータスは、インスタンスではなくリソースプラン (「月額 250 課金時間」など) を指している可能性があります。リソースプランは有効期間内は常にアクティブであり、そのステータスはインスタンスとは無関係です。
拡張されたシステムディスクはまだ課金されています。インスタンスを停止すると、コンピューティング料金のみが一時停止されます。拡張されたシステムディスクは、ストレージ料金が発生し続けます。
課金に遅延があります。課金はリアルタイムではありません。リソースを使用してから数時間後に請求書が生成される場合があります。たとえば、午前中に発生した料金が午後の請求書に表示されることがあります。