ディープラーニングコンテナ (DLC) クライアントを使用して、さまざまなタイプのトレーニングジョブを送信できます。 このトピックでは、呼び出し形式、パラメーターの説明、使用例など、トレーニングジョブの送信に使用されるコマンドについて説明します。
トレーニングジョブの送信に使用される共通パラメーター
次の表に示すパラメーターは、トレーニングジョブがTensorFlow、PyTorch、またはXGBoostのいずれのタイプであるかに関係なく、DLCクライアントを使用してトレーニングジョブを送信するために必要です。 次の表に、トレーニングジョブの送信に使用される共通パラメーターを示します。
表 1. トレーニングジョブの送信に使用される共通パラメーター
パラメーター | 必須 | 説明 | タイプ | パラメーター記述ファイルでサポート |
name | はい | ジョブの名前 名前は一意である必要はありません。 | STRING | はい |
コマンド | はい | ノードを起動するために実行されるコマンド。 | STRING | はい |
data_sources | いいえ | 関連付けられたデータセットのID。 [データセット] ページでデータセットIDを取得できます。 詳細については、「データセットの作成と管理」をご参照ください。 複数のデータソースはコンマ (,) で区切ります。 デフォルトでは、このパラメータは空のままです。 | STRING | はい |
code_source | いいえ | コードセットのID。 コードセットIDは、[ソースコードリポジトリ] ページで取得できます。 詳細については、「コードビルド」をご参照ください。 指定できるコードソースは1つだけです。 デフォルトでは、このパラメータは空のままです。 | STRING | はい |
code_branch | いいえ | コードリポジトリのブランチ。 このパラメーターは、code_sourceパラメーターと一緒に使用されます。 | STRING | はい |
code_commit | いいえ | コードリポジトリのコミットID。 このパラメーターは、code_sourceパラメーターと一緒に使用されます。 | STRING | はい |
thirdparty_libs | いいえ | サードパーティのPythonライブラリ。 複数のライブラリはコンマ (,) で区切ります。 デフォルトでは、このパラメータは空のままです。 | STRING | はい |
thirdparty_lib_dir | いいえ | requirements.txtという名前のテキストファイルを含むディレクトリ。 このファイルは、サードパーティのPythonライブラリをインストールするために使用されます。 デフォルトでは、このパラメータは空のままです。 | STRING | いいえ |
vpc_id | いいえ | ジョブで使用可能な仮想プライベートクラウド (VPC) のID。 デフォルトでは、このパラメータは空のままです。 | STRING | はい |
switch_id | いいえ (vpc_idパラメーターが設定されている場合は必須) | vpc_idパラメーターで指定された、VPC内のジョブで使用可能なvSwitchのID。 デフォルトでは、このパラメータは空のままです。 | STRING | はい |
security_group_id | いいえ (vpc_idパラメーターが設定されている場合は必須) | vpc_idパラメーターで指定された、VPC内のジョブで使用可能なセキュリティグループのID。 デフォルトでは、このパラメータは空のままです。 | STRING | はい |
job_ファイル | いいえ | ジョブのパラメーター記述ファイル。 このパラメーターを指定した場合、ファイルに記述されているパラメーターが優先されます。 記述ファイルのパラメーターを | STRING | いいえ |
インタラクティブ | いいえ | 対話モードでジョブを開始するかどうかを指定します。 | BOOL | はい |
job_max_running_time_分 | いいえ | ジョブの最大稼働時間。 デフォルト値は0で、ジョブの稼働時間が無制限であることを示します。 | INT64 | はい |
success_policy | いいえ | TensorFlowジョブのみがサポートされています。 有効な値:
デフォルトでは、このパラメータは空のままで、AllWorkersと同等です。 | STRING | はい |
envs | いいえ | ワーカーノードの環境変数。 環境変数はコンマ (,) で区切ります。 環境変数のキーと値を等号 (=) で区切ります。 環境変数を | StringToString | はい |
tags | いいえ | ジョブに追加するタグ。 タグはコンマ (,) で区切ります。 タグ内のキーと値を等号 (=) で区切ります。 環境変数を | StringToString | はい |
売られ過ぎ_タイプ | いいえ | オフピーク時のコンピューティングリソースがジョブに使用される方法。 有効な値:
| STRING | はい |
ドライバー | いいえ | ジョブに使用されるGPUドライバーのバージョン。 | STRING | はい |
default_route | いいえ | 仮想プライベートクラウド (VPC) を選択した場合のインターネットへのアクセス方法。 有効な値:
| STRING | はい |
優先度 | いいえ | ジョブの優先度。 有効値: 1~9。 デフォルト値は 1 です。
| INT32 | はい |
exit_code_on_停止 | いいえ | 対話モードで実行されているタスクが停止したときのCMLの終了コード。 デフォルト値:0 | INT32 | はい |
job_reserved_分 | いいえ | タスク終了後の保持期間。 単位は分です。 デフォルト値:0 | INT32 | はい |
job_reserved_ポリシー | いいえ | タスクを保持するために使用されるポリシー。 有効な値:
| STRING | はい |
TensorFlowトレーニング求人を提出
説明
TensorFlowトレーニングジョブを送信します。
構文
関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してTensorFlowトレーニングジョブを送信できます。
./dlc submit tfjob [flags]
パラメータ説明
関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で
<parameterName >=< parameterValue>
形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、TensorFlowジョブの送信に固有のパラメーターを示します。表 2. TensorFlowトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
workspace_id
はい
ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。
STRING
はい
チーフ
いいえ
チーフノードを起動するかどうかを指定します。 デフォルト値:false 有効な値:
false: チーフノードを起動しません。
true: チーフノードを開始します。
BOOL
はい
チーフ_イメージ
いいえ
チーフノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
チーフ_スペック
いいえ
チーフノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_image
いいえ
マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_spec
いいえ
マスターノードのノードタイプ。
STRING
はい
マスター
いいえ
マスターノードの数を示します。 デフォルト値:0
INT
はい
ps
いいえ
パラメーターサーバーの数。 デフォルト値:0
INT
はい
ps_image
いいえ
パラメーターサーバーのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
ps_spec
いいえ
パラメーターサーバーのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_image
いいえ
ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_spec
いいえ
ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
労働者
いいえ
ワーカーノードの数。 デフォルト値:0
INT
はい
evaluator_image
いいえ
評価者ノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
evaluator_spec
いいえ
評価者ノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
評価者
いいえ
エバリュエータノードの数。 デフォルト値:0
INT
はい
graphlearn_image
いいえ
GraphLearnノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
graphlearn_spec
いいえ
GraphLearnノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
graphlears
いいえ
GraphLearnノードの数。 デフォルト値:0
INT
はい
表 3. TensorFlowトレーニングジョブを専用リソースグループに送信するためのパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
resource_id
いいえ (専用リソースグループにジョブを送信する場合は必須)
専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
STRING
はい
優先度
いいえ
ジョブの優先度。 デフォルト値は 1 です。
INT
はい
チーフ_cpu
いいえ
チーフノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
チーフ_gpu
いいえ
チーフノードによって使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
chief_gpu_type
いいえ
チーフノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
はい
チーフ_メモリ
いいえ
チーフノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
chief_shared_メモリ
いいえ
チーフノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
master_cpu
いいえ
マスターノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_gpu
いいえ
マスターノードによって使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_gpu_type
いいえ
マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
はい
master_メモリ
いいえ
マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
master_shared_メモリ
いいえ
マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
*_cpu
いいえ
指定されたタイプのノードで使用されるCPUコアの数。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
はい
*_gpu
いいえ
指定されたタイプのノードで使用されるGPUコアの数。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
はい
*_gpu_タイプ
いいえ
指定されたタイプのノードのGPUタイプ。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: GU50。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
はい
*_メモリ
いいえ
指定されたタイプのノードによって使用されるメモリ量。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
はい
*_shared_memory
いいえ
指定されたタイプのノードによって共有されるメモリの量。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
はい
例
コマンドを実行して、2つのワーカーノードと1つのパラメーターサーバーを含むジョブを送信します。
./dlc submit tfjob --name=test_2021 --ps=1 \ --ps_spec=ecs.g6.8xlarge \ --ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \ --workers=2 \ --worker_spec=ecs.g6.4xlarge \ --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \ --command="python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/" \ --workspace_id=***** \ --data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx
次のような情報が表示されます。
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlcmp6vwljkz**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
パラメーター説明ファイルを使用して、2つのワーカーノードと1つのパラメーターサーバーを含むジョブを送信します。
./dlc submit tfjob --job_file=job_file.dist_mnist.1ps2w
job_file.dist_mnist.1ps 2wは、パラメータが
<parameterName >=< parameterValue>
形式で提供されるパラメータ記述ファイルを示します。 job_file.dist_mnist.1ps 2wファイルには、次の内容が含まれています。name=test_2021 workers=2 worker_spec=ecs.g6.4xlarge worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 ps=1 ps_spec=ecs.g6.8xlarge ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 command=python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/ workspace_id=***** data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx
PyTorchトレーニングの仕事を提出する
説明
PyTorchトレーニングジョブを提出します。
構文
関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してPyTorchトレーニングジョブを送信できます。
./dlc submit pytorchjob [flags]
パラメータ説明
関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で
<parameterName >=< parameterValue>
形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、PyTorchジョブの送信に固有のパラメーターを示します。表 4. PyTorchトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
workspace_id
はい
ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。
STRING
はい
master_image
いいえ
マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_spec
いいえ
マスターノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
マスター
いいえ
マスターノードの数を示します。 デフォルト値:0
INT
はい
worker_image
いいえ
ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_spec
いいえ
ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
労働者
いいえ
ワーカーノードの数。 デフォルト値:0
INT
はい
表 5. PyTorchトレーニングジョブを専用リソースグループに送信するためのパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
resource_id
いいえ (専用リソースグループにジョブを送信する場合は必須)
専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
STRING
はい
優先度
いいえ
ジョブの優先度。 コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。
INT
はい
master_cpu
いいえ
マスターノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_gpu
いいえ
マスターノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_gpu_type
いいえ
マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
はい
master_メモリ
いいえ
マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
master_shared_メモリ
いいえ
マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
worker_cpu
いいえ
ワーカーノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_gpu
いいえ
ワーカーノードで使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_gpu_type
いいえ
ワーカーノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
はい
worker_memory
いいえ
ワーカーノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
worker_shared_メモリ
いいえ
ワーカーノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
例
関連パラメーターを含むコマンドを実行して、GPUモデルトレーニングジョブを送信します。
./dlc submit pytorchjob --name=test_pt_face \ --workers=1 \ --worker_spec=ecs.gn6e-c12g1.3xlarge \ --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 \ --command="apt-get update; apt-get -y --allow-downgrades install libpcre3=2:8.38-3.1 libpcre3-dev libgl1-mesa-glx libglib2.0-dev; cd /root/data/face; python train.py --num_workers 0 --save_folder outputs" \ --data_sources=data-20210410224621-xxxxxxxxxxxx \ --workspace_id=*****
次のような情報が表示されます。
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlcu704xxuxk**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
XGBoostトレーニングの仕事を提出
説明
XGBoostトレーニングの仕事を提出します。
構文
関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してXGBoostトレーニングジョブを送信できます。
./dlc submit xgboostjob [flags]
パラメータ説明
関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で
<parameterName >=< parameterValue>
形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、XGBoostトレーニングジョブの送信に固有のパラメーターを示します。表 6. XGBoostトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
workspace_id
はい
ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。
STRING
はい
master_image
いいえ
マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_spec
いいえ
マスターノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
マスター
いいえ
マスターノードの数を示します。 デフォルト値:0
INT
はい
worker_image
いいえ
ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_spec
いいえ
ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
はい
労働者
いいえ
ワーカーノードの数。 デフォルト値:0
INT
はい
表7. 専用リソースグループへのXGBoostトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
resource_id
いいえ (専用リソースグループにジョブを送信する場合は必須)
専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
STRING
はい
優先度
いいえ
ジョブの優先度。 コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。
INT
はい
master_cpu
いいえ
マスターノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_gpu
いいえ
マスターノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
master_gpu_type
いいえ
マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
はい
master_メモリ
いいえ
マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
master_shared_メモリ
いいえ
マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
worker_cpu
いいえ
ワーカーノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_gpu
いいえ
ワーカーノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
はい
worker_gpu_type
いいえ
ワーカーノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
はい
worker_memory
いいえ
ワーカーノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
worker_shared_メモリ
いいえ
ワーカーノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
はい
例
関連パラメーターを含むコマンドを実行して、XGBoostトレーニングジョブを送信します。
./dlc submit xgboostjob --name=test_xgboost \ --workers=1 \ --worker_spec=ecs.gn6e-c12g1.3xlarge \ --worker_image=xgboost-training:1.6.0-cpu-py36-ubuntu18.04 \ --command="python /root/code/horovod/xgboost/main.py --job_type=Train --xgboost_parameter=objective:multi:softprob,num_class:3 --n_estimators=50 --model_path=autoAI/xgb-opt/2" \ --workspace_id=*****
次のような情報が表示されます。
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlc1nvu3gli0**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
ジョブを送信するときのノードの指定
Lingjunまたは一般的なコンピューティングリソースの割り当てでトレーニングジョブを送信するときに、DLCクライアントを使用してノードを指定するようにパラメーターを設定できます。
この機能は、ホワイトリストのユーザーのみが使用できます。 アカウントをホワイトリストに追加するには、アカウントマネージャーにお問い合わせください。
パラメーター
パラメーター
説明
例
-- allow_nodes="${allow_nodes}"
許可されたノードのリスト。 複数のモードはコンマ (,) で区切ります。 間にスペースを含めないことをお勧めします。
lingjuc47iextvg9-***,lingjuc47iextvg9-***
-- deny_nodes="${deny_nodes}"
拒否されたノードのリスト。 複数のモードはコンマ (,) で区切ります。 間にスペースを含めないことをお勧めします。
lingjuc47iextvg9-***,lingjuc47iextvg9-***
例
コマンドラインパラメータ
ノードが指定されていません
./dlc submit pytorchjob --name=assign_node_test_no_node \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi'
許可されたノードの指定
./dlc submit pytorchjob --name=assign_node_test_2_allow_nodes \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
拒否されたノードの指定
./dlc submit pytorchjob --name=assign_node_test_two_deny_nodes \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
許可ノードと拒否ノードの指定
./dlc submit pytorchjob --name=assign_node_test_two_allow_two_deny \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" \ --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
読み取りファイル
コマンドライン
./dlc submit pytorchjob -f job_file
job_fileの例
ノードが指定されていません
name=assign_node_test_no_node workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi
許可されたノードの指定
name=assign_node_test_2_allow_nodes workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
拒否されたノードの指定
name=assign_node_test_two_allow_two_deny workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
許可ノードと拒否ノードの指定
name=assign_node_test_two_allow_two_deny workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-**** deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
関連ドキュメント
ジョブを送信した後、DLCクライアントを使用してジョブを管理できます。 詳細については、「トレーニングジョブの停止に使用するコマンド」および「ログまたはジョブのクエリに使用するコマンド」をご参照ください。
送信されたジョブは、PAIコンソールで管理することもできます。 詳細については、「トレーニングジョブの管理」をご参照ください。