DLC (Deep Learning Containers) クライアントを使用して、DLCジョブログ、ジョブリスト、およびジョブの詳細を表示できます。 このトピックでは、構文やパラメーターなど、ログやジョブのクエリに使用されるコマンドの詳細について説明します。 このトピックでは例も示します。
logsコマンド
説明
このコマンドは、トレーニングジョブのログを照会するために使用されます。
構文
./dlc logs <yourJobId> <yourPodId> [--max_events_num <yourMaxNum>] [--start_time <yourStartTime>] [--end_time <yourEndTime>]
パラメーター
パラメーター
必須
説明
データ型
<yourJobId>
可
照会するトレーニングジョブのID。
STRING
<yourPodId>
可
ログを表示するポッドのID。 分散ジョブが作成されるシナリオでは、複数のポッドを指定する必要があります。
STRING
max_events_num <yourMaxNum>
不可
返されるログエントリの最大数。 デフォルト値: 2000。
INT
start_time <yourStartTime>
不可
クエリの開始時刻。 デフォルト値は、現在時刻の7日前です。 例: start_time 2020-11-08T16:00:00Z
STRING
end_time <yourEndTime>
不可
クエリの終了時刻。 デフォルト値は現在の時刻です。 例: end_time 2020-11-08T17:00:00Z
STRING
例
分散トレーニングジョブのワーカーノード0の10行のログを取得します。
./dlc logs dlcdys3r9jlu**** dlcdys3r********-worker-0 --max_events_num 10
システムは次のような情報を返します。
WARN: ./requirements.txt not found, skip installing requirements. ================================================ | PAI Tensorflow powered by Aliyun PAI Team. | ================================================ Network is under initialization... Network successfully initialized. [2021-04-16 12:27:56.368026] [INFO] [7#7] [tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 AVX512F FMA [2021-04-16 12:27:56.375586] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:80] ====================CPU Architecture===================== [2021-04-16 12:27:56.375600] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:84] Disable AVX512. [2021-04-16 12:27:56.375605] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:87] CPU Vendor ID: GenuineIntel
get jobコマンド
説明
このコマンドは、トレーニングジョブに関する情報を取得するために使用されます。 ジョブIDを指定しない場合、すべてのジョブが照会されます。 ジョブIDを指定すると、指定されたジョブのみが照会されます。
構文
./dlc get job [JOB_ID] [--workspace_id <yourWorkspaceId>] [--display_name <yourJobName>] [--job_type <yourJobType>] [--status <yourJobStatus>] [--start_time <yourStartTime>] [--end_time <yourEndTime>] [--page_num <yourPageNum>] [--page_size <yourPageSize>] [--max_events_num <yourMaxNum>] [--events] [--events_only]
パラメータ説明
パラメーター
必須
説明
データ型
JOB_ID
不可
照会するトレーニングジョブのID。
STRING
workspace_id <yourWorkspaceId>
不可
ワークスペースID。
STRING
display_name <yourJobName>
不可
ジョブの名前 あいまいなクエリがサポートされています。 名前は大文字と小文字が区別されません。 ワイルドカードはサポートされていません。
STRING
job_type <yourJobType>
不可
ジョブの種類。 すべてのタイプのジョブをクエリできます。 このパラメーターはデフォルトで空で、すべての型を示します。
STRING
status <yourJobStatus>
不可
ジョブのステータス。 有効値: このパラメーターはデフォルトで空で、すべての状態を示します。
STRING
start_time <yourStartTime>
不可
クエリの開始時刻。 例: start_time 2022-08-04T02:09:32Z
STRING
end_time <yourEndTime>
不可
クエリの終了時刻。 例: end_time 2022-08-04T02:09:32Z
STRING
page_num <yourPageNum>
不可
現在のクエリで返されるページの番号。 ページ番号は1から始まります。 デフォルト値は 1 です。
INT
page_size <yourPageSize>
不可
各ページで返されるエントリ数です。 デフォルト値は 10 です。
INT
max_events_num <yourMaxNum>
不可
返されるシステムイベントの最大行数。 デフォルト値: 2000。
INT
イベント
不可
ジョブのシステムイベントを照会するかどうかを指定します。 このパラメーターは、単一のジョブが照会された場合にのみ有効です。 デフォルト値:false
BOOL
events_only
不可
ジョブのシステムイベントのみを照会するかどうかを指定します。 このパラメーターは、単一のジョブが照会された場合にのみ有効です。 デフォルト値:false
BOOL
例
あいまい一致に基づいて名前でトレーニングジョブを照会します。
. /dlc get job -- display_name epl
システムは次のような情報を返します。
+--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+ | Name | JobId | WorkspaceId | WorkspaceName | ResourceId | ResourceName | JobType | Priority | JobStatus | UserId | CreateTime | SubmittedTime | RunningTime | SuccessedTime | StoppedTime | FailedTime | FinishTime | Duration(seconds) | +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+ | test_epl_test-**** | dlc02xipvt5z**** | 23**** | doc_test_**** | | public-cluster | TFJob | 1 | Succeeded | 144963168668**** | 2022-08-01T06:41:05Z | 2022-08-01T06:45:08Z | 2022-08-01T06:48:57Z | 2022-08-01T06:53:21Z | | | 2022-08-01T06:53:21Z | 736 | | test_epl_**** | dlc1iyv3szl2**** | 23**** | doc_test_**** | | public-cluster | TFJob | 1 | Succeeded | 144963168668**** | 2022-08-01T03:23:51Z | 2022-08-01T03:27:22Z | 2022-08-01T03:27:50Z | 2022-08-01T03:33:48Z | | | 2022-08-01T03:33:48Z | 597 | +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+
指定されたトレーニングジョブを照会します。
./dlc get job dlc02xipvt5z****
システムは次のような情報を返します。
{ "ClusterId": "", "CodeSource": { "Branch": "main", "CodeSourceId": "code-29****c****c4****ae0c9ec75a5****", "MountPath": "" }, "DataSources": [ { "DataSourceId": "d-ya7gc2p2iqq240****", "MountPath": "" } ], "DisplayName": "test_epl_test-****", "Duration": 736, "ElasticSpec": { "AIMasterType": "", "EnableElasticTraining": false, "MaxParallelism": 0, "MinParallelism": 0 }, "EnabledDebugger": false, "GmtCreateTime": "2022-08-01T06:41:05Z", "GmtFinishTime": "2022-08-01T06:53:21Z", "GmtRunningTime": "2022-08-01T06:48:57Z", "GmtSubmittedTime": "2022-08-01T06:45:08Z", "GmtSuccessedTime": "2022-08-01T06:53:21Z", "JobId": "dlc02xipvt5z****", "JobSpecs": [ { "AssignNodeSpec": { "EnableAssignNode": false, "NodeNames": "" }, "EcsSpec": "ecs.gn6v-c8g1.2xlarge", "Image": "registry.cn-shanghai.aliyuncs.com/pai-dlc/tensorflow-training:1.15-gpu-py36-cu100-ubuntu1****", "PodCount": 2, "ResourceConfig": { "CPU": "", "GPU": "", "GPUType": "", "Memory": "", "SharedMemory": "" }, "Type": "Worker", "UseSpotInstance": false } ], "JobType": "TFJob", "Pods": [ { "GmtCreateTime": "2022-08-01T06:45:08Z", "GmtFinishTime": "2022-08-01T06:53:20Z", "GmtStartTime": "2022-08-01T06:52:06Z", "Ip": "10.224.xx.xx", "PodId": "dlc02xipvt5z****-worker-0", "PodUid": "", "Status": "Succeeded", "Type": "worker" }, { "GmtCreateTime": "2022-08-01T06:45:08Z", "GmtFinishTime": "2022-08-01T06:53:20Z", "GmtStartTime": "2022-08-01T06:48:57Z", "Ip": "10.224.xx.xx", "PodId": "dlc02xipvt5z****-worker-1", "PodUid": "", "Status": "Succeeded", "Type": "worker" } ], "ReasonCode": "JobSucceeded", "ReasonMessage": "TFJob dlc02xipvt5z**** successfully completed.", "RequestId": "76FC3500-xxxx-533F-B24A-AC9B2A72****", "ResourceId": "", "Priority": 1, "ResourceLevel": "", "Settings": { "BusinessUserId": "", "Caller": "", "EnableErrorMonitoringInAIMaster": false, "EnableTideResource": false, "ErrorMonitoringArgs": "", "PipelineId": "" }, "Status": "Succeeded", "ThirdpartyLibDir": "", "UserCommand": "cd /root/xxxx/xxxx/\npip install .\ncd examples/resnet\nbash scripts/xxxx_dp.sh", "UserId": "144963168668****", "WorkspaceId": "23****", "WorkspaceName": "doc_test_****" }
関連ドキュメント
コンソールでジョブの詳細を表示できます。 詳細については、「トレーニングの詳細の表示」をご参照ください。