すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:TensorBoard

最終更新日:Aug 22, 2024

Platform for AI (PAI) でディープラーニングコンテナ (DLC) ジョブ用のTensorBoardインスタンスを作成し、TensorBoardでモデルトレーニング結果の視覚化された分析レポートを表示できます。 このトピックでは、TensorBoardインスタンスを作成および管理する方法について説明します。

前提条件

DLCジョブが作成され、データセットに関連付けられます。 詳細については、「トレーニングジョブの送信」をご参照ください。

制限事項

TensorBoardを使用して、データセットに関連付けられているトレーニングジョブの分析レポートのみを表示できます。

TensorBoardインスタンスの作成

  1. Deep Learning Containers (DLC) ページに移動します。

    1. にログインします。PAIコンソール.

    2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 管理するワークスペースを見つけて、ワークスペースIDをクリックします。

    3. 左側のナビゲーションウィンドウで、[モデルトレーニング] > [ディープラーニングコンテナ (DLC)] を選択します。

  2. 目的のジョブを見つけて、[操作] 列の [TensorBoard] をクリックします。 TensorBoardパネルで、[TensorBoardの作成] をクリックします。image

  3. [TensorBoardの作成] ページで、パラメーターを設定し、[OK] をクリックします。 下表に追加のパラメーターを示します。

    • 基本情報

      パラメーター

      説明

      TensorBoard名

      TensorBoardインスタンスの名前。

      TensorBoard設定

      次の設定タイプがサポートされています。

      • データセットによる

        • データセット: ワークスペースで作成されたデータセットを選択します。

        • 概要パス: データセット内の概要ディレクトリの相対パスを入力します。

      • Object Storage Service (OSS)

        • OSS: OSSストレージパスを選択します。

        • Summary Path: OSSのsummaryディレクトリの相対パスを入力します。

      • タスク別

        • DLCジョブ: 既存のDLCジョブを選択します。

        • 概要パス: タスクの概要ディレクトリの絶対パスを入力します。 たとえば、サマリーファイルがデータセットの /tensorboards/summaryディレクトリにあり、DLCジョブ内のデータセットのマウントパスが /mnt/dataの場合、DLCジョブ内のサマリーファイルの絶対パスは /mnt/data/tensorboards/summaryです。

      [追加] をクリックすると、TensorBoardインスタンスごとに複数のサマリーパスをマウントし、複数のジョブ間でメトリックを比較できます。

    • リソース設定

      次の表に、サポートされるリソースタイプを示します。

      リソースタイプ

      説明

      無料クォータ

      システムは一定量の無料リソースを提供します。 各インスタンスは、最大2 vCPUと4 GiBのメモリを使用できます。

      パブリックリソース

      フリーリソースが要件を満たせない場合は、パブリックリソースを使用してTensorBoardインスタンスを起動できます。 パブリックリソースは、従量課金の課金方法を使用します。 空きリソースが使い果たされた場合は、空きリソースを使用しているTensorBoardインスタンスを停止して、関連する空きリソースを解放できます。 このようにして、無料のリソースを引き続き使用できます。

      リソースクォータ

      無料のリソースが要件を満たせない場合は、リソースクォータを使用してインスタンスを作成できます。

      説明

      この機能は、ホワイトリストのユーザーのみが使用できます。 この機能を使用する場合は、アカウントマネージャーに連絡してホワイトリストを設定してください。

      次のパラメーターを設定する必要があります。

      • リソースクォータ: 一般的なコンピューティングリソースのクォータまたはLingjunリソースのクォータを選択します。 リソースクォータの作成方法については、「リソースクォータの作成」をご参照ください。 使用可能なリソースクォータがない場合は、[リソースクォータの関連付け] をクリックして、リソースクォータをワークスペースに関連付けることができます。

      • Priority: TensorBoardインスタンスの優先度。 有効値: 1~9。 値1は、最も低い優先度を示す。

      • ジョブリソース: TensorBoardインスタンスの実行に使用するリソース。 リソースには、vCPUメモリの数が含まれます。 メモリサイズの単位はGiBである。

    • VPC設定

      [パブリックリソース] を使用してTensorBoardインスタンスを作成する場合、VPC関連のパラメーターを使用できます。

      • 仮想プライベートクラウド (VPC) を設定しない場合、インターネット接続が使用されます。 ただし、インターネット接続の帯域幅が限られているため、TensorBoardインスタンスの起動中やレポートの表示中にシステムが故障することがあります。

      • 十分なネットワーク帯域幅と安定したパフォーマンスを確保するために、VPCを設定することを推奨します。

        現在のリージョンでVPC、vSwitch、およびセキュリティグループを選択します。 設定が完了すると、TensorBoardインスタンスが実行されているクラスターは、選択したVPCのサービスにアクセスし、指定したセキュリティグループを使用してアクセスを制御できます。

        重要

        TensorBoardインスタンスが、VPCを必要とするデータセット (Cloud Parallel File Storage (CPFS) データセットやVPCにマウントターゲットがあるNASデータセットなど) を使用する場合、VPCを設定する必要があります。

  4. TensorBoardページに移動して分析レポートを表示します。

    1. ワークスペースページの左側のナビゲーションウィンドウで、[AIコンピューティングアセット管理] > [ジョブ] を選択します。

    2. [TensorBoard] タブで、TensorBoardインスタンスの [ステータス][実行中] の場合、[操作] 列の [TensorBoardの表示] をクリックします。

      TensorBoardページが表示されます。image

TensorBoardインスタンスの管理

TensorBoardインスタンスを管理するには、次の手順を実行します。

  1. [分散トレーニングジョブ] ページに移動

    1. にログインします。PAIコンソール.

    2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、AIコンピューティング資産管理 > 仕事分散トレーニングジョブページに移動します。

  2. TensorBoardインスタンスを管理します。image

    • TensorBoardインスタンスの詳細を表示します。

      [Tensorboard] タブで、TensorBoardインスタンスの名前をクリックします。 [TensorBoardインスタンスの詳細] ページで、[基本情報] および [設定情報] を表示できます。

    • 関連するDLCジョブを表示します。

      TensorBoardインスタンスに関連付けるDLCジョブの数を表示できます。 [Tensorboard] タブで、[関連タスク] 列のimageアイコンの上にポインターを移動して、関連するDLCジョブのIDを表示します。 IDをクリックすると、DLCジョブの詳細ページに移動できます。

    • 関連するデータセットを表示します。

      TensorBoardインスタンスに関連付けるデータセットの数を表示できます。 [Tensorboard] タブで、[Associated Dataset] 列のimageアイコンの上にポインターを移動して、関連付けられたデータセットのIDを表示します。 IDをクリックすると、データセットの詳細ページに移動できます。

    • 実行期間を表示します。

      TensorBoardインスタンスの実行期間を表示できます。 実行期間は、インスタンスの起動時に開始されます。 TensorBoardインスタンスを停止すると、実行期間がリセットされます。 [Tensorboard] タブで、[running duration] 列にTensorBoardインスタンスの実行期間を表示します。

    • TensorBoardインスタンスを停止します。

      • TensorBoardインスタンスの [操作] 列で [停止] をクリックします。

      • TensorBoardインスタンスの [操作] 列で [自動停止設定] をクリックして、インスタンスを自動的に停止する時刻を指定します。

関連ドキュメント

[AIアセット管理] > [ジョブ] ページで、DLCジョブ用のTensorBoardインスタンスを作成できます。 詳細については、「TensorBoardインスタンスの作成と管理」をご参照ください。