トレーニングジョブを送信した後、ジョブの基本情報、構成、イベント、リソースビュー、およびログを表示して、ジョブの詳細を取得できます。
ジョブの基本情報と構成の表示
PAIコンソールにログインします。 リージョンとワークスペースを選択します。
左側のナビゲーションウィンドウで、
を選択します。目的のジョブの名前をクリックします。
[概要] タブで、ジョブの基本情報、環境情報、およびリソース情報を表示します。
ジョブのイベントの表示
DLCでジョブのスケジューリングイベントとリソース関連イベントを表示し、イベントに基づいて問題をトラブルシューティングできます。
ジョブのイベントを表示します。
[イベント] タブをクリックし、ジョブイベントを表示します。
ノードイベントを表示します。
[概要] タブの下部にある [インスタンス] セクションで、[操作] 列の [ログ] をクリックします。 表示されるダイアログボックスで、[イベント] タブをクリックし、ノードイベントを表示します。
リソースビューの表示
リソースビューを使用すると、GPU使用率、GPUメモリ使用率、CPU使用率、メモリ使用率、ネットワークI/Oなどの多数のメトリックを表示できます。 [監視] タブでは、ジョブのリソース使用状況をリアルタイムで確認できます。 これにより、ジョブのリソース要件を理解し、費用対効果の高い方法でリソースを割り当てることができます。
[モニタリング] タブに移動し、ジョブのリソースビューを表示します。
ジョブ、ポッド、およびGPUディメンションのメトリックがサポートされています。
ジョブログの表示
ジョブが予期せず実行されている場合、またはジョブの実行履歴を表示したい場合は、ジョブの実行中に重要な情報を取得するためにジョブログを表示できます。 次のいずれかの方法を使用して、ログを表示できます。
ジョブの [概要] タブの下部にある [インスタンス] セクションで、[操作] 列の [ログ] をクリックして、ノードの出力ログを表示します。
ジョブの [ログ] タブに移動し、キーワードでログを検索します。 詳細については、「コンテナートレーニングジョブの作成と管理」トピックの「キーワードによる集計ログの検索」セクションをご参照ください。
動作イベントの表示
AIプラットフォーム (PAI) はActionTrailと統合されています。 ActionTrailで、過去90日間のAlibaba CloudアカウントのDLC動作イベントを表示および検索できます。 詳細については、「ActionTrailを使用した動作イベントのクエリ」をご参照ください。
関連ドキュメント
ステータスに基づいてトレーニングジョブを管理できます。 詳細については、「トレーニングジョブの管理」をご参照ください。