ディープラーニングコンテナ (DLC) クライアントを使用して、さまざまなタイプのトレーニングジョブを送信できます。 このトピックでは、呼び出し形式、パラメーターの説明、使用例など、トレーニングジョブの送信に使用されるコマンドについて説明します。
トレーニングジョブの送信に使用される共通パラメーター
次の表に示すパラメーターは、トレーニングジョブがTensorFlow、PyTorch、またはXGBoostのいずれのタイプであるかに関係なく、DLCクライアントを使用してトレーニングジョブを送信するために必要です。 次の表に、トレーニングジョブの送信に使用される共通パラメーターを示します。
表 1. トレーニングジョブの送信に使用される共通パラメーター
パラメーター | 必須 | 説明 | タイプ | パラメーター記述ファイルでサポート |
name | 必須 | ジョブの名前 名前は一意である必要はありません。 | STRING | 必須 |
コマンド | 必須 | ノードを起動するために実行されるコマンド。 | STRING | 必須 |
data_sources | 選択可能 | 関連付けられたデータセットのID。 [データセット] ページでデータセットIDを取得できます。 詳細については、「データセットの作成と管理」をご参照ください。 複数のデータソースはコンマ (,) で区切ります。 デフォルトでは、このパラメータは空のままです。 | STRING | 必須 |
code_source | 選択可能 | コードセットのID。 コードセットIDは、[ソースコードリポジトリ] ページで取得できます。 詳細については、「コードビルド」をご参照ください。 指定できるコードソースは1つだけです。 デフォルトでは、このパラメータは空のままです。 | STRING | 必須 |
code_branch | 選択可能 | コードリポジトリのブランチ。 このパラメーターは、code_sourceパラメーターと一緒に使用されます。 | STRING | 必須 |
code_commit | 選択可能 | コードリポジトリのコミットID。 このパラメーターは、code_sourceパラメーターと一緒に使用されます。 | STRING | 必須 |
thirdparty_libs | 選択可能 | サードパーティのPythonライブラリ。 複数のライブラリはコンマ (,) で区切ります。 デフォルトでは、このパラメータは空のままです。 | STRING | 必須 |
thirdparty_lib_dir | 選択可能 | requirements.txtという名前のテキストファイルを含むディレクトリ。 このファイルは、サードパーティのPythonライブラリをインストールするために使用されます。 デフォルトでは、このパラメータは空のままです。 | STRING | 選択可能 |
vpc_id | 選択可能 | ジョブで使用可能な仮想プライベートクラウド (VPC) のID。 デフォルトでは、このパラメータは空のままです。 | STRING | 必須 |
switch_id | いいえ (vpc_idパラメーターが設定されている場合は必須) | vpc_idパラメーターで指定された、VPC内のジョブで使用可能なvSwitchのID。 デフォルトでは、このパラメータは空のままです。 | STRING | 必須 |
security_group_id | いいえ (vpc_idパラメーターが設定されている場合は必須) | vpc_idパラメーターで指定された、VPC内のジョブで使用可能なセキュリティグループのID。 デフォルトでは、このパラメータは空のままです。 | STRING | 必須 |
job_ファイル | 選択可能 | ジョブのパラメーター記述ファイル。 このパラメーターを指定した場合、ファイルに記述されているパラメーターが優先されます。 記述ファイルのパラメーターを | STRING | 選択可能 |
インタラクティブ | 選択可能 | 対話モードでジョブを開始するかどうかを指定します。 | BOOL | 必須 |
job_max_running_time_分 | 選択可能 | ジョブの最大稼働時間。 デフォルト値は0で、ジョブの稼働時間が無制限であることを示します。 | INT64 | 必須 |
success_policy | 選択可能 | TensorFlowジョブのみがサポートされています。 有効な値:
デフォルトでは、このパラメータは空のままで、AllWorkersと同等です。 | STRING | 必須 |
envs | 選択可能 | ワーカーノードの環境変数。 環境変数はコンマ (,) で区切ります。 環境変数のキーと値を等号 (=) で区切ります。 環境変数を | StringToString | 必須 |
tags | 選択可能 | ジョブに追加するタグ。 タグはコンマ (,) で区切ります。 タグ内のキーと値を等号 (=) で区切ります。 環境変数を | StringToString | 必須 |
売られ過ぎ_タイプ | 選択可能 | オフピーク時のコンピューティングリソースがジョブに使用される方法。 有効な値:
| STRING | 必須 |
ドライバー | 選択可能 | ジョブに使用されるGPUドライバーのバージョン。 | STRING | 必須 |
default_route | 選択可能 | 仮想プライベートクラウド (VPC) を選択した場合のインターネットへのアクセス方法。 有効な値:
| STRING | 必須 |
優先度 | 選択可能 | ジョブの優先度。 有効値: 1~9。 デフォルト値は 1 です。
| INT32 | 必須 |
exit_code_on_停止 | 選択可能 | 対話モードで実行されているタスクが停止したときのCMLの終了コード。 デフォルト値:0 | INT32 | 必須 |
job_reserved_分 | 選択可能 | タスク終了後の保持期間。 単位は分です。 デフォルト値:0 | INT32 | 必須 |
job_reserved_ポリシー | 選択可能 | タスクを保持するために使用されるポリシー。 有効な値:
| STRING | 必須 |
TensorFlowトレーニングジョブを提出
説明
TensorFlowトレーニングジョブを送信します。
構文
関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してTensorFlowトレーニングジョブを送信できます。
./dlc submit tfjob [flags]
パラメータ説明
関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で
<parameterName >=< parameterValue>
形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、TensorFlowジョブの送信に固有のパラメーターを示します。表 2. TensorFlowトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
workspace_id
必須
ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。
STRING
必須
チーフ
選択可能
チーフノードを起動するかどうかを指定します。 デフォルト値:false 有効な値:
false: チーフノードを起動しません。
true: チーフノードを開始します。
BOOL
必須
チーフ_イメージ
選択可能
チーフノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
チーフ_スペック
選択可能
チーフノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_image
選択可能
マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_spec
選択可能
マスターノードのノードタイプ。
STRING
必須
マスター
選択可能
マスターノードの数を示します。 デフォルト値:0
INT
必須
ps
選択可能
パラメーターサーバーの数。 デフォルト値:0
INT
必須
ps_image
選択可能
パラメーターサーバーのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
ps_spec
選択可能
パラメーターサーバーのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_image
選択可能
ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_spec
選択可能
ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
労働者
選択可能
ワーカーノードの数。 デフォルト値:0
INT
必須
evaluator_image
選択可能
評価者ノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
evaluator_spec
選択可能
評価者ノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
評価者
選択可能
エバリュエータノードの数。 デフォルト値:0
INT
必須
graphlearn_image
選択可能
GraphLearnノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
graphlearn_spec
選択可能
GraphLearnノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
graphlears
選択可能
GraphLearnノードの数。 デフォルト値:0
INT
必須
表 3. TensorFlowトレーニングジョブを専用リソースグループに送信するためのパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
resource_id
いいえ (専用リソースグループにジョブを送信する場合は必須)
専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
STRING
必須
優先度
選択可能
ジョブの優先度。 デフォルト値は 1 です。
INT
必須
チーフ_cpu
選択可能
チーフノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
チーフ_gpu
選択可能
チーフノードによって使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
chief_gpu_type
選択可能
チーフノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
必須
チーフ_メモリ
選択可能
チーフノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
chief_shared_メモリ
選択可能
チーフノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
master_cpu
選択可能
マスターノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_gpu
選択可能
マスターノードによって使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_gpu_type
選択可能
マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
必須
master_メモリ
選択可能
マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
master_shared_メモリ
選択可能
マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
*_cpu
選択可能
指定されたタイプのノードで使用されるCPUコアの数。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
必須
*_gpu
選択可能
指定されたタイプのノードで使用されるGPUコアの数。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
必須
*_gpu_タイプ
選択可能
指定されたタイプのノードのGPUタイプ。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: GU50。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
必須
*_メモリ
選択可能
指定されたタイプのノードによって使用されるメモリ量。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
必須
*_shared_memory
選択可能
指定されたタイプのノードによって共有されるメモリの量。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。
STRING
必須
例
コマンドを実行して、2つのワーカーノードと1つのパラメーターサーバーを含むジョブを送信します。
./dlc submit tfjob --name=test_2021 --ps=1 \ --ps_spec=ecs.g6.8xlarge \ --ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \ --workers=2 \ --worker_spec=ecs.g6.4xlarge \ --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \ --command="python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/" \ --workspace_id=***** \ --data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx
次のような情報が表示されます。
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlcmp6vwljkz**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
パラメーター説明ファイルを使用して、2つのワーカーノードと1つのパラメーターサーバーを含むジョブを送信します。
./dlc submit tfjob --job_file=job_file.dist_mnist.1ps2w
job_file.dist_mnist.1ps 2wは、パラメータが
<parameterName >=< parameterValue>
形式で提供されるパラメータ記述ファイルを示します。 job_file.dist_mnist.1ps 2wファイルには、次の内容が含まれています。name=test_2021 workers=2 worker_spec=ecs.g6.4xlarge worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 ps=1 ps_spec=ecs.g6.8xlarge ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 command=python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/ workspace_id=***** data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx
PyTorchトレーニングの仕事を提出する
説明
PyTorchトレーニングジョブを提出します。
構文
関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してPyTorchトレーニングジョブを送信できます。
./dlc submit pytorchjob [flags]
パラメータ説明
関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で
<parameterName >=< parameterValue>
形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、PyTorchジョブの送信に固有のパラメーターを示します。表 4. PyTorchトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
workspace_id
必須
ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。
STRING
必須
master_image
選択可能
マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_spec
選択可能
マスターノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
マスター
選択可能
マスターノードの数を示します。 デフォルト値:0
INT
必須
worker_image
選択可能
ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_spec
選択可能
ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
労働者
選択可能
ワーカーノードの数。 デフォルト値:0
INT
必須
表 5. PyTorchトレーニングジョブを専用リソースグループに送信するためのパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
resource_id
いいえ (専用リソースグループにジョブを送信する場合は必須)
専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
STRING
必須
優先度
選択可能
ジョブの優先度。 コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。
INT
必須
master_cpu
選択可能
マスターノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_gpu
選択可能
マスターノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_gpu_type
選択可能
マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
必須
master_メモリ
選択可能
マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
master_shared_メモリ
選択可能
マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
worker_cpu
選択可能
ワーカーノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_gpu
選択可能
ワーカーノードで使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_gpu_type
選択可能
ワーカーノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
必須
worker_memory
選択可能
ワーカーノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
worker_shared_メモリ
選択可能
ワーカーノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
例
関連パラメーターを含むコマンドを実行して、GPUモデルトレーニングジョブを送信します。
./dlc submit pytorchjob --name=test_pt_face \ --workers=1 \ --worker_spec=ecs.gn6e-c12g1.3xlarge \ --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 \ --command="apt-get update; apt-get -y --allow-downgrades install libpcre3=2:8.38-3.1 libpcre3-dev libgl1-mesa-glx libglib2.0-dev; cd /root/data/face; python train.py --num_workers 0 --save_folder outputs" \ --data_sources=data-20210410224621-xxxxxxxxxxxx \ --workspace_id=*****
次のような情報が表示されます。
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlcu704xxuxk**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
XGBoostトレーニングの仕事を提出
説明
XGBoostトレーニングの仕事を提出します。
構文
関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してXGBoostトレーニングジョブを送信できます。
./dlc submit xgboostjob [flags]
パラメータ説明
関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で
<parameterName >=< parameterValue>
形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、XGBoostトレーニングジョブの送信に固有のパラメーターを示します。表 6. XGBoostトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
workspace_id
必須
ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。
STRING
必須
master_image
選択可能
マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_spec
選択可能
マスターノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
マスター
選択可能
マスターノードの数を示します。 デフォルト値:0
INT
必須
worker_image
選択可能
ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_spec
選択可能
ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。
STRING
必須
労働者
選択可能
ワーカーノードの数。 デフォルト値:0
INT
必須
表7. 専用リソースグループへのXGBoostトレーニングジョブの送信に固有のパラメーター
パラメーター
必須
説明
タイプ
パラメーター記述ファイルでサポート
resource_id
いいえ (専用リソースグループにジョブを送信する場合は必須)
専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
STRING
必須
優先度
選択可能
ジョブの優先度。 コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。
INT
必須
master_cpu
選択可能
マスターノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_gpu
選択可能
マスターノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
master_gpu_type
選択可能
マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
必須
master_メモリ
選択可能
マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
master_shared_メモリ
選択可能
マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
worker_cpu
選択可能
ワーカーノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_gpu
選択可能
ワーカーノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。
STRING
必須
worker_gpu_type
選択可能
ワーカーノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。
STRING
必須
worker_memory
選択可能
ワーカーノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
worker_shared_メモリ
選択可能
ワーカーノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。
STRING
必須
例
関連パラメーターを含むコマンドを実行して、XGBoostトレーニングジョブを送信します。
./dlc submit xgboostjob --name=test_xgboost \ --workers=1 \ --worker_spec=ecs.gn6e-c12g1.3xlarge \ --worker_image=xgboost-training:1.6.0-cpu-py36-ubuntu18.04 \ --command="python /root/code/horovod/xgboost/main.py --job_type=Train --xgboost_parameter=objective:multi:softprob,num_class:3 --n_estimators=50 --model_path=autoAI/xgb-opt/2" \ --workspace_id=*****
次のような情報が表示されます。
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlc1nvu3gli0**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
トレーニングジョブの送信に使用される高度なパラメーター
ジョブを送信するときのノードの指定
Lingjunまたは一般的なコンピューティングリソースの割り当てでトレーニングジョブを送信するときに、DLCクライアントを使用してノードを指定するようにパラメーターを設定できます。
この機能は、ホワイトリストのユーザーのみが使用できます。 アカウントをホワイトリストに追加するには、アカウントマネージャーにお問い合わせください。
パラメーター
パラメーター
説明
例
-- allow_nodes="${allow_nodes}"
許可されたノードのリスト。 複数のモードはコンマ (,) で区切ります。 間にスペースを含めないことをお勧めします。
lingjuc47iextvg9-***,lingjuc47iextvg9-***
-- deny_nodes="${deny_nodes}"
拒否されたノードのリスト。 複数のモードはコンマ (,) で区切ります。 間にスペースを含めないことをお勧めします。
lingjuc47iextvg9-***,lingjuc47iextvg9-***
例
コマンドラインパラメータ
サンプルコマンド:
ノードが指定されていません
./dlc submit pytorchjob --name=assign_node_test_no_node \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi'
許可されたノードの指定
./dlc submit pytorchjob --name=assign_node_test_2_allow_nodes \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
拒否されたノードの指定
./dlc submit pytorchjob --name=assign_node_test_two_deny_nodes \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
許可ノードと拒否ノードの指定
./dlc submit pytorchjob --name=assign_node_test_two_allow_two_deny \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" \ --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
読み取りファイル
サンプルコマンド:
./dlc submit pytorchjob -f job_file
ジョブパラメータ設定ファイルjob_fileの例:
ノードが指定されていません
name=assign_node_test_no_node workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi
許可されたノードの指定
name=assign_node_test_2_allow_nodes workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
拒否されたノードの指定
name=assign_node_test_two_allow_two_deny workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
許可ノードと拒否ノードの指定
name=assign_node_test_two_allow_two_deny workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-**** deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
ジョブの送信時に従量課金在庫チェックを無効にする
DLCクライアントを使用してトレーニングジョブを送信するときに、disable_ecs_stock_checkパラメーターを設定して、従量課金の在庫チェックを無効にすることができます。
パラメーター
パラメーター
説明
例
disable_ecs_stock_check
従量課金の在庫チェックを無効にするかどうか。 有効な値:
false (デフォルト): 従量課金の在庫チェックを有効にします。
true: 従量課金の在庫チェックを無効にします。
true または false
例
コマンドラインパラメータ
サンプルコマンド:
従量課金の在庫チェックを有効にする
./dlc submit pytorchjob \ --name=test_skip_checking3 \ --command='sleep 1000' \ --workspace_id=**** \ --priority=1 \ --workers=1 \ --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 \ --worker_spec=ecs.g6.xlarge
従量課金の在庫チェックを無効にする
./dlc submit pytorchjob \ --name=test_skip_checking3 \ --command='sleep 1000' \ --workspace_id=**** \ --priority=1 \ --workers=1 \ --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 \ --worker_spec=ecs.g6.xlarge \ --disable_ecs_stock_check=true
ファイルを読み取る
サンプルコマンド:
./dlc submit pytorchjob -f job_file
ジョブパラメータ設定ファイルjob_fileの例:
従量課金の在庫チェックを有効にする
name=test_skip_checking3 workers=1 worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 command=sleep 1000 workspace_id=**** worker_spec=ecs.g6.xlarge
従量課金の在庫チェックを無効にする
name=test_skip_checking3 workers=1 worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 command=sleep 1000 workspace_id=**** worker_spec=ecs.g6.xlarge disable_ecs_stock_check=true
関連ドキュメント
ジョブを送信した後、DLCクライアントを使用してジョブを管理できます。 詳細については、「トレーニングジョブの停止に使用するコマンド」および「ログまたはジョブのクエリに使用するコマンド」をご参照ください。
送信されたジョブは、PAIコンソールで管理することもできます。 詳細については、「トレーニングジョブの管理」をご参照ください。