すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ジョブの送信に使用するコマンド

最終更新日:Sep 27, 2024

ディープラーニングコンテナ (DLC) クライアントを使用して、さまざまなタイプのトレーニングジョブを送信できます。 このトピックでは、呼び出し形式、パラメーターの説明、使用例など、トレーニングジョブの送信に使用されるコマンドについて説明します。

トレーニングジョブの送信に使用される共通パラメーター

次の表に示すパラメーターは、トレーニングジョブがTensorFlow、PyTorch、またはXGBoostのいずれのタイプであるかに関係なく、DLCクライアントを使用してトレーニングジョブを送信するために必要です。 次の表に、トレーニングジョブの送信に使用される共通パラメーターを示します。

表 1. トレーニングジョブの送信に使用される共通パラメーター

パラメーター

必須

説明

タイプ

パラメーター記述ファイルでサポート

name

はい

ジョブの名前 名前は一意である必要はありません。

STRING

はい

コマンド

はい

ノードを起動するために実行されるコマンド。

STRING

はい

data_sources

いいえ

関連付けられたデータセットのID。 [データセット] ページでデータセットIDを取得できます。 詳細については、「データセットの作成と管理」をご参照ください。 複数のデータソースはコンマ (,) で区切ります。 デフォルトでは、このパラメータは空のままです。

STRING

はい

code_source

いいえ

コードセットのID。 コードセットIDは、[ソースコードリポジトリ] ページで取得できます。 詳細については、「コードビルド」をご参照ください。 指定できるコードソースは1つだけです。 デフォルトでは、このパラメータは空のままです。

STRING

はい

code_branch

いいえ

コードリポジトリのブランチ。 このパラメーターは、code_sourceパラメーターと一緒に使用されます。

STRING

はい

code_commit

いいえ

コードリポジトリのコミットID。 このパラメーターは、code_sourceパラメーターと一緒に使用されます。

STRING

はい

thirdparty_libs

いいえ

サードパーティのPythonライブラリ。 複数のライブラリはコンマ (,) で区切ります。 デフォルトでは、このパラメータは空のままです。

STRING

はい

thirdparty_lib_dir

いいえ

requirements.txtという名前のテキストファイルを含むディレクトリ。 このファイルは、サードパーティのPythonライブラリをインストールするために使用されます。 デフォルトでは、このパラメータは空のままです。

STRING

いいえ

vpc_id

いいえ

ジョブで使用可能な仮想プライベートクラウド (VPC) のID。 デフォルトでは、このパラメータは空のままです。

STRING

はい

switch_id

いいえ (vpc_idパラメーターが設定されている場合は必須)

vpc_idパラメーターで指定された、VPC内のジョブで使用可能なvSwitchのID。 デフォルトでは、このパラメータは空のままです。

STRING

はい

security_group_id

いいえ (vpc_idパラメーターが設定されている場合は必須)

vpc_idパラメーターで指定された、VPC内のジョブで使用可能なセキュリティグループのID。 デフォルトでは、このパラメータは空のままです。

STRING

はい

job_ファイル

いいえ

ジョブのパラメーター記述ファイル。 このパラメーターを指定した場合、ファイルに記述されているパラメーターが優先されます。 記述ファイルのパラメーターをkey=value形式で指定します。 キーは、クライアントで使用されるパラメータのキーと同じです。

STRING

いいえ

インタラクティブ

いいえ

対話モードでジョブを開始するかどうかを指定します。

BOOL

はい

job_max_running_time_分

いいえ

ジョブの最大稼働時間。 デフォルト値は0で、ジョブの稼働時間が無制限であることを示します。

INT64

はい

success_policy

いいえ

TensorFlowジョブのみがサポートされています。 有効な値:

  • ChiefWorker: チーフノードのポッドが終了すると、ジョブは完了します。

  • AllWorkers: ジョブは、すべてのノードのポッドが終了した場合にのみ完了します。

デフォルトでは、このパラメータは空のままで、AllWorkersと同等です。

STRING

はい

envs

いいえ

ワーカーノードの環境変数。 環境変数はコンマ (,) で区切ります。 環境変数のキーと値を等号 (=) で区切ります。 環境変数をkey1=value1,key2=value2形式で設定します。

StringToString

はい

tags

いいえ

ジョブに追加するタグ。 タグはコンマ (,) で区切ります。 タグ内のキーと値を等号 (=) で区切ります。 環境変数をkey1=value1,key2=value2形式で設定します。

StringToString

はい

売られ過ぎ_タイプ

いいえ

オフピーク時のコンピューティングリソースがジョブに使用される方法。 有効な値:

  • AcceptQuotaOverSold: オフピーク時のコンピューティングリソースをジョブに使用できます。

  • ForceQuotaOverSold: オフピーク時のコンピューティングリソースのみをジョブに使用できます。

  • ForbiddenQuotaOverSold: 関連するクォータのリソースのみをジョブに使用できます。 オフピーク時のコンピューティングリソースは、ジョブに使用できません。

STRING

はい

ドライバー

いいえ

ジョブに使用されるGPUドライバーのバージョン。

STRING

はい

default_route

いいえ

仮想プライベートクラウド (VPC) を選択した場合のインターネットへのアクセス方法。 有効な値:

  • eth0 (デフォルト): パブリックゲートウェイはインターネットにアクセスするために使用されます。

  • eth1: 専用ゲートウェイを使用して、選択したVPC経由でインターネットにアクセスします。

STRING

はい

優先度

いいえ

ジョブの優先度。 有効値: 1~9。 デフォルト値は 1 です。

  • 値1は、最も低い優先度を示す。

  • 値9は、最も高い優先度を示す。

INT32

はい

exit_code_on_停止

いいえ

対話モードで実行されているタスクが停止したときのCMLの終了コード。 デフォルト値:0

INT32

はい

job_reserved_分

いいえ

タスク終了後の保持期間。 単位は分です。 デフォルト値:0

INT32

はい

job_reserved_ポリシー

いいえ

タスクを保持するために使用されるポリシー。 有効な値:

  • Always (デフォルト): タスクが正常に実行されたか失敗したかに関係なく、タスクは保持されます。

  • OnFailure: タスクが失敗した場合、タスクは保持されます。

  • OnSucceed: タスクが正常に実行された場合、タスクは保持されます。

STRING

はい

TensorFlowトレーニング求人を提出

  • 説明

    TensorFlowトレーニングジョブを送信します。

  • 構文

    関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してTensorFlowトレーニングジョブを送信できます。

    ./dlc submit tfjob [flags]
  • パラメータ説明

    関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で <parameterName >=< parameterValue> 形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、TensorFlowジョブの送信に固有のパラメーターを示します。

    表 2. TensorFlowトレーニングジョブの送信に固有のパラメーター

    パラメーター

    必須

    説明

    タイプ

    パラメーター記述ファイルでサポート

    workspace_id

    はい

    ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。

    STRING

    はい

    チーフ

    いいえ

    チーフノードを起動するかどうかを指定します。 デフォルト値:false 有効な値:

    • false: チーフノードを起動しません。

    • true: チーフノードを開始します。

    BOOL

    はい

    チーフ_イメージ

    いいえ

    チーフノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    チーフ_スペック

    いいえ

    チーフノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_image

    いいえ

    マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_spec

    いいえ

    マスターノードのノードタイプ。

    STRING

    はい

    マスター

    いいえ

    マスターノードの数を示します。 デフォルト値:0

    INT

    はい

    ps

    いいえ

    パラメーターサーバーの数。 デフォルト値:0

    INT

    はい

    ps_image

    いいえ

    パラメーターサーバーのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    ps_spec

    いいえ

    パラメーターサーバーのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_image

    いいえ

    ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_spec

    いいえ

    ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    労働者

    いいえ

    ワーカーノードの数。 デフォルト値:0

    INT

    はい

    evaluator_image

    いいえ

    評価者ノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    evaluator_spec

    いいえ

    評価者ノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    評価者

    いいえ

    エバリュエータノードの数。 デフォルト値:0

    INT

    はい

    graphlearn_image

    いいえ

    GraphLearnノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    graphlearn_spec

    いいえ

    GraphLearnノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    graphlears

    いいえ

    GraphLearnノードの数。 デフォルト値:0

    INT

    はい

    表 3. TensorFlowトレーニングジョブを専用リソースグループに送信するためのパラメーター

    パラメーター

    必須

    説明

    タイプ

    パラメーター記述ファイルでサポート

    resource_id

    いいえ (専用リソースグループにジョブを送信する場合は必須)

    専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。

    STRING

    はい

    優先度

    いいえ

    ジョブの優先度。 デフォルト値は 1 です。

    INT

    はい

    チーフ_cpu

    いいえ

    チーフノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    チーフ_gpu

    いいえ

    チーフノードによって使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    chief_gpu_type

    いいえ

    チーフノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。

    STRING

    はい

    チーフ_メモリ

    いいえ

    チーフノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    chief_shared_メモリ

    いいえ

    チーフノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    master_cpu

    いいえ

    マスターノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_gpu

    いいえ

    マスターノードによって使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_gpu_type

    いいえ

    マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。

    STRING

    はい

    master_メモリ

    いいえ

    マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    master_shared_メモリ

    いいえ

    マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    *_cpu

    いいえ

    指定されたタイプのノードで使用されるCPUコアの数。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。

    STRING

    はい

    *_gpu

    いいえ

    指定されたタイプのノードで使用されるGPUコアの数。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。

    STRING

    はい

    *_gpu_タイプ

    いいえ

    指定されたタイプのノードのGPUタイプ。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: GU50。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。

    STRING

    はい

    *_メモリ

    いいえ

    指定されたタイプのノードによって使用されるメモリ量。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。

    STRING

    はい

    *_shared_memory

    いいえ

    指定されたタイプのノードによって共有されるメモリの量。ワイルドカード文字 (*) で示されます。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。 ワイルドカード文字 (*) は、パラメーターサーバー、worker、evaluator、またはGraphLearnを表すことができます。

    STRING

    はい

    • コマンドを実行して、2つのワーカーノードと1つのパラメーターサーバーを含むジョブを送信します。

      ./dlc submit tfjob --name=test_2021 --ps=1 \
        --ps_spec=ecs.g6.8xlarge \
        --ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \
        --workers=2 \
        --worker_spec=ecs.g6.4xlarge \
        --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \
        --command="python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/" \
        --workspace_id=***** \
        --data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx

      次のような情報が表示されます。

      +----------------------------------+--------------------------------------+
      |              JobId               |              RequestId               |
      +----------------------------------+--------------------------------------+
      | dlcmp6vwljkz****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
      +----------------------------------+--------------------------------------+
    • パラメーター説明ファイルを使用して、2つのワーカーノードと1つのパラメーターサーバーを含むジョブを送信します。

      ./dlc submit tfjob --job_file=job_file.dist_mnist.1ps2w

      job_file.dist_mnist.1ps 2wは、パラメータが <parameterName >=< parameterValue> 形式で提供されるパラメータ記述ファイルを示します。 job_file.dist_mnist.1ps 2wファイルには、次の内容が含まれています。

      name=test_2021
      workers=2
      worker_spec=ecs.g6.4xlarge
      worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04
      ps=1
      ps_spec=ecs.g6.8xlarge
      ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04
      command=python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/
      workspace_id=*****
      data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx

PyTorchトレーニングの仕事を提出する

  • 説明

    PyTorchトレーニングジョブを提出します。

  • 構文

    関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してPyTorchトレーニングジョブを送信できます。

    ./dlc submit pytorchjob [flags]
  • パラメータ説明

    関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で <parameterName >=< parameterValue> 形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、PyTorchジョブの送信に固有のパラメーターを示します。

    表 4. PyTorchトレーニングジョブの送信に固有のパラメーター

    パラメーター

    必須

    説明

    タイプ

    パラメーター記述ファイルでサポート

    workspace_id

    はい

    ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。

    STRING

    はい

    master_image

    いいえ

    マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_spec

    いいえ

    マスターノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    マスター

    いいえ

    マスターノードの数を示します。 デフォルト値:0

    INT

    はい

    worker_image

    いいえ

    ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_spec

    いいえ

    ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    労働者

    いいえ

    ワーカーノードの数。 デフォルト値:0

    INT

    はい

    表 5. PyTorchトレーニングジョブを専用リソースグループに送信するためのパラメーター

    パラメーター

    必須

    説明

    タイプ

    パラメーター記述ファイルでサポート

    resource_id

    いいえ (専用リソースグループにジョブを送信する場合は必須)

    専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。

    STRING

    はい

    優先度

    いいえ

    ジョブの優先度。 コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。

    INT

    はい

    master_cpu

    いいえ

    マスターノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_gpu

    いいえ

    マスターノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_gpu_type

    いいえ

    マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。

    STRING

    はい

    master_メモリ

    いいえ

    マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    master_shared_メモリ

    いいえ

    マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    worker_cpu

    いいえ

    ワーカーノードによって使用されるCPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_gpu

    いいえ

    ワーカーノードで使用されるGPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_gpu_type

    いいえ

    ワーカーノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。

    STRING

    はい

    worker_memory

    いいえ

    ワーカーノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    worker_shared_メモリ

    いいえ

    ワーカーノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

  • 関連パラメーターを含むコマンドを実行して、GPUモデルトレーニングジョブを送信します。

    ./dlc submit pytorchjob --name=test_pt_face \
      --workers=1 \
      --worker_spec=ecs.gn6e-c12g1.3xlarge \
      --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 \
      --command="apt-get update; apt-get -y --allow-downgrades install libpcre3=2:8.38-3.1 libpcre3-dev libgl1-mesa-glx libglib2.0-dev; cd /root/data/face; python train.py --num_workers 0 --save_folder outputs" \
      --data_sources=data-20210410224621-xxxxxxxxxxxx \
      --workspace_id=*****

    次のような情報が表示されます。

    +----------------------------------+--------------------------------------+
    |              JobId               |              RequestId               |
    +----------------------------------+--------------------------------------+
    | dlcu704xxuxk****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
    +----------------------------------+--------------------------------------+

XGBoostトレーニングの仕事を提出

  • 説明

    XGBoostトレーニングの仕事を提出します。

  • 構文

    関連するパラメーターを含むコマンドを使用するか、パラメーター説明ファイルを使用してXGBoostトレーニングジョブを送信できます。

    ./dlc submit xgboostjob [flags]
  • パラメータ説明

    関連するパラメーターを含むコマンドを使用する場合は、パラメーターキーとその実際の値の両方をコマンドに含めます。 パラメーター説明ファイルを使用する場合は、ファイル内で <parameterName >=< parameterValue> 形式で関連パラメーターを指定します。 すべてのタイプのトレーニングジョブに共通するパラメーターについては、このトピックの「トレーニングジョブの送信に使用される共通パラメーター」セクションで説明します。 次の表に、XGBoostトレーニングジョブの送信に固有のパラメーターを示します。

    表 6. XGBoostトレーニングジョブの送信に固有のパラメーター

    パラメーター

    必須

    説明

    タイプ

    パラメーター記述ファイルでサポート

    workspace_id

    はい

    ジョブの送信に使用されるワークスペースのID。 デフォルトでは、このパラメータは空のままです。 ワークスペースの作成方法については、「ワークスペースの作成」をご参照ください。

    STRING

    はい

    master_image

    いいえ

    マスターノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_spec

    いいえ

    マスターノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    マスター

    いいえ

    マスターノードの数を示します。 デフォルト値:0

    INT

    はい

    worker_image

    いいえ

    ワーカーノードのイメージ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_spec

    いいえ

    ワーカーノードのノードタイプ。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    労働者

    いいえ

    ワーカーノードの数。 デフォルト値:0

    INT

    はい

    表7. 専用リソースグループへのXGBoostトレーニングジョブの送信に固有のパラメーター

    パラメーター

    必須

    説明

    タイプ

    パラメーター記述ファイルでサポート

    resource_id

    いいえ (専用リソースグループにジョブを送信する場合は必須)

    専用リソースクォータのID。 デフォルトでは、このパラメータは空のままです。 専用リソースのクォータを作成する方法の詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。

    STRING

    はい

    優先度

    いいえ

    ジョブの優先度。 コンポーネントによって使用されるスレッドの数。 デフォルト値は 1 です。

    INT

    はい

    master_cpu

    いいえ

    マスターノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_gpu

    いいえ

    マスターノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    master_gpu_type

    いいえ

    マスターノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。

    STRING

    はい

    master_メモリ

    いいえ

    マスターノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    master_shared_メモリ

    いいえ

    マスターノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    worker_cpu

    いいえ

    ワーカーノードで使用されているCPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_gpu

    いいえ

    ワーカーノードで使用されているGPUコアの数。 デフォルトでは、このパラメータは空のままです。

    STRING

    はい

    worker_gpu_type

    いいえ

    ワーカーノードで使用されるGPUタイプ。 デフォルトでは、このパラメータは空のままです。 例: GU50。

    STRING

    はい

    worker_memory

    いいえ

    ワーカーノードによって使用されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

    worker_shared_メモリ

    いいえ

    ワーカーノードによって共有されるメモリの量。 デフォルトでは、このパラメータは空のままです。 例: 500Miと1Gi。

    STRING

    はい

  • 関連パラメーターを含むコマンドを実行して、XGBoostトレーニングジョブを送信します。

    ./dlc submit xgboostjob --name=test_xgboost \
      --workers=1 \
      --worker_spec=ecs.gn6e-c12g1.3xlarge \
      --worker_image=xgboost-training:1.6.0-cpu-py36-ubuntu18.04 \
      --command="python /root/code/horovod/xgboost/main.py --job_type=Train --xgboost_parameter=objective:multi:softprob,num_class:3 --n_estimators=50 --model_path=autoAI/xgb-opt/2" \
      --workspace_id=*****

    次のような情報が表示されます。

    +----------------------------------+--------------------------------------+
    |              JobId               |              RequestId               |
    +----------------------------------+--------------------------------------+
    | dlc1nvu3gli0****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
    +----------------------------------+--------------------------------------+

ジョブを送信するときのノードの指定

Lingjunまたは一般的なコンピューティングリソースの割り当てでトレーニングジョブを送信するときに、DLCクライアントを使用してノードを指定するようにパラメーターを設定できます。

説明

この機能は、ホワイトリストのユーザーのみが使用できます。 アカウントをホワイトリストに追加するには、アカウントマネージャーにお問い合わせください。

  • パラメーター

    パラメーター

    説明

    -- allow_nodes="${allow_nodes}"

    許可されたノードのリスト。 複数のモードはコンマ (,) で区切ります。 間にスペースを含めないことをお勧めします。

    lingjuc47iextvg9-***,lingjuc47iextvg9-***

    -- deny_nodes="${deny_nodes}"

    拒否されたノードのリスト。 複数のモードはコンマ (,) で区切ります。 間にスペースを含めないことをお勧めします。

    lingjuc47iextvg9-***,lingjuc47iextvg9-***

  • コマンドラインパラメータ

    • ノードが指定されていません

      ./dlc submit pytorchjob --name=assign_node_test_no_node  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi'  
    • 許可されたノードの指定

      ./dlc submit pytorchjob --name=assign_node_test_2_allow_nodes  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" 
    • 拒否されたノードの指定

       ./dlc submit pytorchjob --name=assign_node_test_two_deny_nodes  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
    • 許可ノードと拒否ノードの指定

      ./dlc submit pytorchjob --name=assign_node_test_two_allow_two_deny  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" \
          --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"

    読み取りファイル

    • コマンドライン

      ./dlc submit pytorchjob -f job_file
    • job_fileの例

      • ノードが指定されていません

        name=assign_node_test_no_node
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        
      • 許可されたノードの指定

        name=assign_node_test_2_allow_nodes
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        
      • 拒否されたノードの指定

        name=assign_node_test_two_allow_two_deny
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        
      • 許可ノードと拒否ノードの指定

        name=assign_node_test_two_allow_two_deny
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        

関連ドキュメント