Platform for AI (PAI) でディープラーニングコンテナ (DLC) ジョブ用のTensorBoardインスタンスを作成し、TensorBoardでモデルトレーニング結果の視覚化された分析レポートを表示できます。 このトピックでは、TensorBoardインスタンスを作成および管理する方法について説明します。
前提条件
DLCジョブが作成され、データセットに関連付けられます。 詳細については、「トレーニングジョブの送信」をご参照ください。
制限事項
TensorBoardを使用して、データセットに関連付けられているトレーニングジョブの分析レポートのみを表示できます。
TensorBoardインスタンスの作成
Deep Learning Containers (DLC) ページに移動します。
にログインします。PAIコンソール.
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 管理するワークスペースを見つけて、ワークスペースIDをクリックします。
左側のナビゲーションウィンドウで、
を選択します。
目的のジョブを見つけて、[操作] 列の [TensorBoard] をクリックします。 TensorBoardパネルで、[TensorBoardの作成] をクリックします。
[TensorBoardの作成] ページで、パラメーターを設定し、[OK] をクリックします。 下表に追加のパラメーターを示します。
基本情報
パラメーター
説明
TensorBoard名
TensorBoardインスタンスの名前。
TensorBoard設定
次の設定タイプがサポートされています。
データセットによる
データセット: ワークスペースで作成されたデータセットを選択します。
概要パス: データセット内の概要ディレクトリの相対パスを入力します。
Object Storage Service (OSS)
OSS: OSSストレージパスを選択します。
Summary Path: OSSのsummaryディレクトリの相対パスを入力します。
タスク別
DLCジョブ: 既存のDLCジョブを選択します。
概要パス: タスクの概要ディレクトリの絶対パスを入力します。 たとえば、サマリーファイルがデータセットの
/tensorboards/summary
ディレクトリにあり、DLCジョブ内のデータセットのマウントパスが/mnt/data
の場合、DLCジョブ内のサマリーファイルの絶対パスは/mnt/data/tensorboards/summary
です。
[追加] をクリックすると、TensorBoardインスタンスごとに複数のサマリーパスをマウントし、複数のジョブ間でメトリックを比較できます。
リソース設定
次の表に、サポートされるリソースタイプを示します。
リソースタイプ
説明
無料クォータ
システムは一定量の無料リソースを提供します。 各インスタンスは、最大2 vCPUと4 GiBのメモリを使用できます。
パブリックリソース
フリーリソースが要件を満たせない場合は、パブリックリソースを使用してTensorBoardインスタンスを起動できます。 パブリックリソースは、従量課金の課金方法を使用します。 空きリソースが使い果たされた場合は、空きリソースを使用しているTensorBoardインスタンスを停止して、関連する空きリソースを解放できます。 このようにして、無料のリソースを引き続き使用できます。
リソースクォータ
無料のリソースが要件を満たせない場合は、リソースクォータを使用してインスタンスを作成できます。
説明この機能は、ホワイトリストのユーザーのみが使用できます。 この機能を使用する場合は、アカウントマネージャーに連絡してホワイトリストを設定してください。
次のパラメーターを設定する必要があります。
リソースクォータ: 一般的なコンピューティングリソースのクォータまたはLingjunリソースのクォータを選択します。 リソースクォータの作成方法については、「リソースクォータの作成」をご参照ください。 使用可能なリソースクォータがない場合は、[リソースクォータの関連付け] をクリックして、リソースクォータをワークスペースに関連付けることができます。
Priority: TensorBoardインスタンスの優先度。 有効値: 1~9。 値1は、最も低い優先度を示す。
ジョブリソース: TensorBoardインスタンスの実行に使用するリソース。 リソースには、vCPUとメモリの数が含まれます。 メモリサイズの単位はGiBである。
VPC設定
[パブリックリソース] を使用してTensorBoardインスタンスを作成する場合、VPC関連のパラメーターを使用できます。
仮想プライベートクラウド (VPC) を設定しない場合、インターネット接続が使用されます。 ただし、インターネット接続の帯域幅が限られているため、TensorBoardインスタンスの起動中やレポートの表示中にシステムが故障することがあります。
十分なネットワーク帯域幅と安定したパフォーマンスを確保するために、VPCを設定することを推奨します。
現在のリージョンでVPC、vSwitch、およびセキュリティグループを選択します。 設定が完了すると、TensorBoardインスタンスが実行されているクラスターは、選択したVPCのサービスにアクセスし、指定したセキュリティグループを使用してアクセスを制御できます。
重要TensorBoardインスタンスが、VPCを必要とするデータセット (Cloud Parallel File Storage (CPFS) データセットやVPCにマウントターゲットがあるNASデータセットなど) を使用する場合、VPCを設定する必要があります。
TensorBoardページに移動して分析レポートを表示します。
ワークスペースページの左側のナビゲーションウィンドウで、
を選択します。[TensorBoard] タブで、TensorBoardインスタンスの [ステータス] が [実行中] の場合、[操作] 列の [TensorBoardの表示] をクリックします。
TensorBoardページが表示されます。
TensorBoardインスタンスの管理
TensorBoardインスタンスを管理するには、次の手順を実行します。
[分散トレーニングジョブ] ページに移動
にログインします。PAIコンソール.
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、 分散トレーニングジョブページに移動します。
TensorBoardインスタンスを管理します。
TensorBoardインスタンスの詳細を表示します。
[Tensorboard] タブで、TensorBoardインスタンスの名前をクリックします。 [TensorBoardインスタンスの詳細] ページで、[基本情報] および [設定情報] を表示できます。
関連するDLCジョブを表示します。
TensorBoardインスタンスに関連付けるDLCジョブの数を表示できます。 [Tensorboard] タブで、[関連タスク] 列のアイコンの上にポインターを移動して、関連するDLCジョブのIDを表示します。 IDをクリックすると、DLCジョブの詳細ページに移動できます。
関連するデータセットを表示します。
TensorBoardインスタンスに関連付けるデータセットの数を表示できます。 [Tensorboard] タブで、[Associated Dataset] 列のアイコンの上にポインターを移動して、関連付けられたデータセットのIDを表示します。 IDをクリックすると、データセットの詳細ページに移動できます。
実行期間を表示します。
TensorBoardインスタンスの実行期間を表示できます。 実行期間は、インスタンスの起動時に開始されます。 TensorBoardインスタンスを停止すると、実行期間がリセットされます。 [Tensorboard] タブで、[running duration] 列にTensorBoardインスタンスの実行期間を表示します。
TensorBoardインスタンスを停止します。
TensorBoardインスタンスの [操作] 列で [停止] をクリックします。
TensorBoardインスタンスの [操作] 列で [自動停止設定] をクリックして、インスタンスを自動的に停止する時刻を指定します。
関連ドキュメント
TensorBoardインスタンスの作成と管理」をご参照ください。
ページで、DLCジョブ用のTensorBoardインスタンスを作成できます。 詳細については、「