Platform for AI (PAI) コンソールの分散トレーニングジョブページでは、コンテナートレーニングジョブを視覚化して一元管理できます。 トレーニングジョブは、PAIのディープラーニングコンテナ (DLC) モジュールによって提供されます。 このトピックでは、コンテナートレーニングジョブを作成および管理する方法について説明します。
アカウントと権限の要件
Alibaba Cloudアカウント: Alibaba Cloudアカウントを使用して、追加の権限なしですべての操作を完了できます。
RAMユーザー: RAM (Resource Access Management) ユーザーを、特定のロールを持つワークスペースメンバーとして追加し、ロールに権限を割り当てる必要があります。 詳細については、「付録: ロールと権限」をご参照ください。
コンテナートレーニングジョブの作成
[分散トレーニングジョブ] ページでDLCトレーニングジョブを作成できます。
[分散トレーニングジョブ] ページに移動
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、 分散トレーニングジョブページに移動します。
ディープラーニングコンテナ (DLC)タブで、ジョブの作成をクリックします。
[ジョブの作成] ページでパラメーターを設定し、[送信] をクリックします。
パラメーターの設定方法の詳細については、「トレーニングジョブの送信」をご参照ください。
コンテナートレーニングジョブの管理
[分散トレーニングジョブ] ページには、DLCタブでDLC CLIを使用して送信された分散トレーニングジョブと、Machine Learning Designerを使用して送信されたパイプラインタスクが表示されます。 ページに表示されるジョブおよびタスクの管理手順を次の図に示します。
削除されたDLCジョブは復元できません。 作業は慎重に行ってください。
①: [ジョブ名] 、[ジョブID] 、[実行期間] 、[ジョブの種類] 、[ステータス] を使用して、管理するトレーニングジョブを検索できます。
②: ジョブの名前をクリックすると、ジョブの詳細ページに移動し、ジョブの状態、インスタンスの実行状態、リソースビュー、ログの詳細を表示できます。
③: 前の図の ③ セクションに示すように、ジョブの状態の横にあるアイコンの上にポインターを移動して、ジョブの状態を表示することもできます。
④: 管理するジョブを見つけて、[操作] 列の [クローン] をクリックしてジョブを複製します。 [アクション] 列の [TensorBoard] をクリックして、ジョブのTensorBoardインスタンスを作成し、TensorBoardページでジョブの視覚化されたトレーニング結果を表示することもできます。
キーワードで集計ログを検索
手順
[ログ] タブのキーワードでログイベントを検索するには、次の手順を実行します。
左側のナビゲーションウィンドウで、[AIコンピューティングアセットの管理] > [ジョブ] を選択します。 [Deep Learning Containers (DLC)] ページで、ジョブ名をクリックします。
[ログ] タブをクリックし、パラメーターを設定します。
[ジョブ情報] セクションで、ログ収集の時間範囲を選択します。
説明ログは、ジョブの終了時刻より後に収集される場合があります。 実際の状況に基づいて時間を選択します。
[インスタンス] セクションで、インスタンスを選択します。
右側の入力ボックスにキーワードを入力して、関連するログまたはイベントを検索します。
基本的な検索ルール
DLCでは、集約ログを検索するために完全な単語をキーワードとして入力する必要があります。 一方、Simple Log Service (SLS) は、単語セグメンテーションを使用してログを照会します。 正確な検索に基づいてフレーズを完全に一致させることはできません。
たとえば、キーワードフレーズabc defを使用する場合、検索結果にはabcまたはdefを含むすべてのログが含まれます。 完全なフレーズabc defを含むログは一致できません。
あいまいな検索ルール
集計されたログをキーワードで検索する場合、アスタリスク (*) と疑問符 (?) を使用してファジー検索を実行できます。 その他の特殊文字は無効です。 次のセクションでは、ルールの詳細について説明します。
アスタリスク (*) は、文字のゼロ以上の出現を示します。 疑問符 (?) は、文字の1回の出現を示します。
キーワードの中央または末尾にアスタリスク (*) または疑問符 (?) をワイルドカード文字として追加して、あいまい検索を実行できます。 ワイルドカード文字で始まるキーワードは無効です。
たとえば、キーワードabc * を使用してabcで始まる単語を検索し、キーワードab?dを使用してabで始まりdで終わる単語を検索します。
SLSはすべてのログを検索し、指定された条件を満たす最大100文字列を取得します。 次に、SLSは、1つ以上の100文字列を含み、検索条件を満たすログを返します。 プレフィックスが短い場合、一致する単語の数は100を超える可能性があります。 この場合、一致したログの一部のみが返されます。 キーワードがより正確であるほど、検索結果はより正確です。
区切り文字の制限
DLCのSLSは、次の一般的な文字を区切り文字として使用します。, '";=()[\",\"]{}?@&<>/:\n\t\r
区切り文字は、ログの内容を複数の文字列に分割するために使用されます。 したがって、区切り文字のみを含む文字列はキーワードとして使用できません。 結果は返されません。
例1: 文字列 &&&& はキーワードとして使用できず、ログは返されません。 検索するキーワードのコンテキストに基づいて、別のキーワードを使用することをお勧めします。
例2: a&bを含むログを検索する場合、キーワードを & ではなくa&bに設定することを推奨します。 キーワードa&bを使用すると、aまたはbを含むログが返されます。 キーワードがより詳細であるほど、結果はより正確になります。
キーワードの例
要件 | 例キーワード |
[エラー] を含むログを検索します。 | エラー |
lossとaccを含むログを検索します。 | 損失acc |
Tracebackを含むログのあいまい検索。 | Traceback * |
abc&defを含むログを検索します。 | abc&def |