すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ログまたはジョブの照会に使用するコマンド

最終更新日:Jul 22, 2024

DLC (Deep Learning Containers) クライアントを使用して、DLCジョブログ、ジョブリスト、およびジョブの詳細を表示できます。 このトピックでは、構文やパラメーターなど、ログやジョブのクエリに使用されるコマンドの詳細について説明します。 このトピックでは例も示します。

logsコマンド

  • 説明

    このコマンドは、トレーニングジョブのログを照会するために使用されます。

  • 構文

    ./dlc logs <yourJobId> <yourPodId> [--max_events_num <yourMaxNum>] [--start_time <yourStartTime>] [--end_time <yourEndTime>]
  • パラメーター

    パラメーター

    必須

    説明

    データ型

    <yourJobId>

    照会するトレーニングジョブのID。

    STRING

    <yourPodId>

    ログを表示するポッドのID。 分散ジョブが作成されるシナリオでは、複数のポッドを指定する必要があります。

    STRING

    max_events_num <yourMaxNum>

    不可

    返されるログエントリの最大数。 デフォルト値: 2000。

    INT

    start_time <yourStartTime>

    不可

    クエリの開始時刻。 デフォルト値は、現在時刻の7日前です。 例: start_time 2020-11-08T16:00:00Z

    STRING

    end_time <yourEndTime>

    不可

    クエリの終了時刻。 デフォルト値は現在の時刻です。 例: end_time 2020-11-08T17:00:00Z

    STRING

  • 分散トレーニングジョブのワーカーノード0の10行のログを取得します。

    ./dlc logs dlcdys3r9jlu**** dlcdys3r********-worker-0 --max_events_num 10

    システムは次のような情報を返します。

    WARN: ./requirements.txt not found, skip installing requirements.
    ================================================
    |  PAI Tensorflow powered by Aliyun PAI Team.  |
    ================================================
    Network is under initialization...
    Network successfully initialized.
    [2021-04-16 12:27:56.368026] [INFO] [7#7] [tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 AVX512F FMA
    [2021-04-16 12:27:56.375586] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:80] ====================CPU Architecture=====================
    [2021-04-16 12:27:56.375600] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:84] Disable AVX512.
    [2021-04-16 12:27:56.375605] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:87] CPU Vendor ID: GenuineIntel

get jobコマンド

  • 説明

    このコマンドは、トレーニングジョブに関する情報を取得するために使用されます。 ジョブIDを指定しない場合、すべてのジョブが照会されます。 ジョブIDを指定すると、指定されたジョブのみが照会されます。

  • 構文

    ./dlc get job [JOB_ID] [--workspace_id <yourWorkspaceId>] [--display_name <yourJobName>] [--job_type <yourJobType>] [--status <yourJobStatus>] [--start_time <yourStartTime>] [--end_time <yourEndTime>] [--page_num <yourPageNum>] [--page_size <yourPageSize>] [--max_events_num <yourMaxNum>] [--events] [--events_only]
  • パラメータ説明

    パラメーター

    必須

    説明

    データ型

    JOB_ID

    不可

    照会するトレーニングジョブのID。

    STRING

    workspace_id <yourWorkspaceId>

    不可

    ワークスペースID。

    STRING

    display_name <yourJobName>

    不可

    ジョブの名前 あいまいなクエリがサポートされています。 名前は大文字と小文字が区別されません。 ワイルドカードはサポートされていません。

    STRING

    job_type <yourJobType>

    不可

    ジョブの種類。 すべてのタイプのジョブをクエリできます。 このパラメーターはデフォルトで空で、すべての型を示します。

    STRING

    status <yourJobStatus>

    不可

    ジョブのステータス。 有効値: このパラメーターはデフォルトで空で、すべての状態を示します。

    STRING

    start_time <yourStartTime>

    不可

    クエリの開始時刻。 例: start_time 2022-08-04T02:09:32Z

    STRING

    end_time <yourEndTime>

    不可

    クエリの終了時刻。 例: end_time 2022-08-04T02:09:32Z

    STRING

    page_num <yourPageNum>

    不可

    現在のクエリで返されるページの番号。 ページ番号は1から始まります。 デフォルト値は 1 です。

    INT

    page_size <yourPageSize>

    不可

    各ページで返されるエントリ数です。 デフォルト値は 10 です。

    INT

    max_events_num <yourMaxNum>

    不可

    返されるシステムイベントの最大行数。 デフォルト値: 2000。

    INT

    イベント

    不可

    ジョブのシステムイベントを照会するかどうかを指定します。 このパラメーターは、単一のジョブが照会された場合にのみ有効です。 デフォルト値:false

    BOOL

    events_only

    不可

    ジョブのシステムイベントのみを照会するかどうかを指定します。 このパラメーターは、単一のジョブが照会された場合にのみ有効です。 デフォルト値:false

    BOOL

    • あいまい一致に基づいて名前でトレーニングジョブを照会します。

      . /dlc get job -- display_name epl

      システムは次のような情報を返します。

      +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+
      |        Name        |      JobId       | WorkspaceId |  WorkspaceName   | ResourceId |  ResourceName  | JobType | Priority | JobStatus |      UserId      |      CreateTime      |    SubmittedTime     |     RunningTime      |    SuccessedTime     | StoppedTime | FailedTime |      FinishTime      | Duration(seconds) |
      +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+
      | test_epl_test-**** | dlc02xipvt5z**** | 23****      | doc_test_**** |            | public-cluster | TFJob   | 1        | Succeeded | 144963168668**** | 2022-08-01T06:41:05Z | 2022-08-01T06:45:08Z | 2022-08-01T06:48:57Z | 2022-08-01T06:53:21Z |             |            | 2022-08-01T06:53:21Z | 736               |
      | test_epl_****      | dlc1iyv3szl2**** | 23****      | doc_test_**** |            | public-cluster | TFJob   | 1        | Succeeded | 144963168668**** | 2022-08-01T03:23:51Z | 2022-08-01T03:27:22Z | 2022-08-01T03:27:50Z | 2022-08-01T03:33:48Z |             |            | 2022-08-01T03:33:48Z | 597               |
      +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+
    • 指定されたトレーニングジョブを照会します。

      ./dlc get job dlc02xipvt5z****

      システムは次のような情報を返します。

      {
         "ClusterId": "",
         "CodeSource": {
            "Branch": "main",
            "CodeSourceId": "code-29****c****c4****ae0c9ec75a5****",
            "MountPath": ""
         },
         "DataSources": [
            {
               "DataSourceId": "d-ya7gc2p2iqq240****",
               "MountPath": ""
            }
         ],
         "DisplayName": "test_epl_test-****",
         "Duration": 736,
         "ElasticSpec": {
            "AIMasterType": "",
            "EnableElasticTraining": false,
            "MaxParallelism": 0,
            "MinParallelism": 0
         },
         "EnabledDebugger": false,
         "GmtCreateTime": "2022-08-01T06:41:05Z",
         "GmtFinishTime": "2022-08-01T06:53:21Z",
         "GmtRunningTime": "2022-08-01T06:48:57Z",
         "GmtSubmittedTime": "2022-08-01T06:45:08Z",
         "GmtSuccessedTime": "2022-08-01T06:53:21Z",
         "JobId": "dlc02xipvt5z****",
         "JobSpecs": [
            {
               "AssignNodeSpec": {
                  "EnableAssignNode": false,
                  "NodeNames": ""
               },
               "EcsSpec": "ecs.gn6v-c8g1.2xlarge",
               "Image": "registry.cn-shanghai.aliyuncs.com/pai-dlc/tensorflow-training:1.15-gpu-py36-cu100-ubuntu1****",
               "PodCount": 2,
               "ResourceConfig": {
                  "CPU": "",
                  "GPU": "",
                  "GPUType": "",
                  "Memory": "",
                  "SharedMemory": ""
               },
               "Type": "Worker",
               "UseSpotInstance": false
            }
         ],
         "JobType": "TFJob",
         "Pods": [
            {
               "GmtCreateTime": "2022-08-01T06:45:08Z",
               "GmtFinishTime": "2022-08-01T06:53:20Z",
               "GmtStartTime": "2022-08-01T06:52:06Z",
               "Ip": "10.224.xx.xx",
               "PodId": "dlc02xipvt5z****-worker-0",
               "PodUid": "",
               "Status": "Succeeded",
               "Type": "worker"
            },
            {
               "GmtCreateTime": "2022-08-01T06:45:08Z",
               "GmtFinishTime": "2022-08-01T06:53:20Z",
               "GmtStartTime": "2022-08-01T06:48:57Z",
               "Ip": "10.224.xx.xx",
               "PodId": "dlc02xipvt5z****-worker-1",
               "PodUid": "",
               "Status": "Succeeded",
               "Type": "worker"
            }
         ],
         "ReasonCode": "JobSucceeded",
         "ReasonMessage": "TFJob dlc02xipvt5z**** successfully completed.",
         "RequestId": "76FC3500-xxxx-533F-B24A-AC9B2A72****",
         "ResourceId": "",
         "Priority": 1,
         "ResourceLevel": "",
         "Settings": {
            "BusinessUserId": "",
            "Caller": "",
            "EnableErrorMonitoringInAIMaster": false,
            "EnableTideResource": false,
            "ErrorMonitoringArgs": "",
            "PipelineId": ""
         },
         "Status": "Succeeded",
         "ThirdpartyLibDir": "",
         "UserCommand": "cd /root/xxxx/xxxx/\npip install .\ncd examples/resnet\nbash scripts/xxxx_dp.sh",
         "UserId": "144963168668****",
         "WorkspaceId": "23****",
         "WorkspaceName": "doc_test_****"
      }

関連ドキュメント

コンソールでジョブの詳細を表示できます。 詳細については、「トレーニングの詳細の表示」をご参照ください。