すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:TensorBoardインスタンスの作成と管理

最終更新日:Sep 18, 2024

Platform for AI (PAI) コンソールの [ジョブ] ページの [TensorBoard] タブで、TensorBoardインスタンスを作成および管理できます。 TensorBoardインスタンスは、データセットまたはDLC (Deep Learning Containers) ジョブに関連付けることができます。 インスタンスの起動後、TensorBoardのモデルトレーニング結果の視覚化された分析レポートを表示できます。 このトピックでは、TensorBoardインスタンスを作成および管理する方法について説明します。

制限事項

TensorBoard機能は、マレーシア (クアラルンプール) リージョンで作成されたDLCジョブには使用できません。

アカウントと権限の要件

  • Alibaba Cloudアカウント: Alibaba Cloudアカウントを使用して、追加の権限なしですべての操作を完了できます。

  • RAMユーザー: RAMユーザーをメンバーとしてワークスペースに追加し、必要なロールをメンバーに割り当てて、メンバーに関連する操作権限を付与する必要があります。 各ロールの権限の詳細については、「付録: ロールと権限」をご参照ください。

TensorBoardインスタンスの作成

TensorBoardインスタンスを作成するには、次の手順を実行します。

  1. [分散トレーニングジョブ] ページに移動

    1. PAIコンソールにログインします。

    2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、AIコンピューティング資産管理 > 仕事分散トレーニングジョブページに移動します。

  2. [TensorBoard] タブで、[TensorBoardの作成] をクリックします。

  3. [TensorBoardの作成] ページで、パラメーターを設定し、[OK] をクリックします。 下表に追加のパラメーターを示します。

    • 基本情報

      パラメーター

      説明

      TensorBoard名

      TensorBoardインスタンスの名前。

      TensorBoard設定

      次の設定タイプがサポートされています。

      • データセットによる

        • データセット: ワークスペースで作成されたデータセットを選択します。

        • 概要パス: データセット内の概要ディレクトリの相対パスを入力します。

      • Object Storage Service (OSS)

        • OSS: OSSストレージパスを選択します。

        • Summary Path: OSSのsummaryディレクトリの相対パスを入力します。

      • タスク別

        • DLCジョブ: 既存のDLCジョブを選択します。

        • 概要パス: タスクの概要ディレクトリの絶対パスを入力します。 たとえば、サマリーファイルがデータセットの /tensorboards/summaryディレクトリにあり、DLCジョブ内のデータセットのマウントパスが /mnt/dataの場合、DLCジョブ内のサマリーファイルの絶対パスは /mnt/data/tensorboards/summaryです。

      [追加] をクリックすると、TensorBoardインスタンスごとに複数のサマリーパスをマウントし、複数のジョブ間でメトリックを比較できます。

    • リソース設定

      次の表に、サポートされるリソースタイプを示します。

      リソースタイプ

      説明

      無料クォータ

      システムは一定量の無料リソースを提供します。 各インスタンスは、最大2 vCPUと4 GiBのメモリを使用できます。

      パブリックリソース

      フリーリソースが要件を満たせない場合は、パブリックリソースを使用してTensorBoardインスタンスを起動できます。 パブリックリソースは、従量課金の課金方法を使用します。 空きリソースが使い果たされた場合は、空きリソースを使用しているTensorBoardインスタンスを停止して、関連する空きリソースを解放できます。 このようにして、無料のリソースを引き続き使用できます。

      リソースクォータ

      無料のリソースが要件を満たせない場合は、リソースクォータを使用してインスタンスを作成できます。

      説明

      この機能は、ホワイトリストのユーザーのみが使用できます。 この機能を使用する場合は、アカウントマネージャーに連絡してホワイトリストを設定してください。

      次のパラメーターを設定する必要があります。

      • リソースクォータ: 一般的なコンピューティングリソースのクォータまたはLingjunリソースのクォータを選択します。 リソースクォータの作成方法については、「リソースクォータの作成」をご参照ください。 使用可能なリソースクォータがない場合は、[リソースクォータの関連付け] をクリックして、リソースクォータをワークスペースに関連付けることができます。

      • Priority: TensorBoardインスタンスの優先度。 有効値: 1~9。 値1は、最も低い優先度を示します。

      • ジョブリソース: TensorBoardインスタンスの実行に使用するリソース。 リソースには、vCPUメモリの数が含まれます。 メモリサイズの単位はGiBです。

    • VPC設定

      [パブリックリソース] を使用してTensorBoardインスタンスを作成する場合、VPC関連のパラメーターを使用できます。

      • 仮想プライベートクラウド (VPC) を設定しない場合、インターネット接続が使用されます。 ただし、インターネット接続の帯域幅が限られているため、TensorBoardインスタンスの起動中やレポートの表示中にシステムが故障することがあります。

      • 十分なネットワーク帯域幅と安定したパフォーマンスを確保するために、VPCを設定することを推奨します。

        現在のリージョンでVPC、vSwitch、およびセキュリティグループを選択します。 設定が完了すると、TensorBoardインスタンスが実行されているクラスターは、選択したVPCのサービスにアクセスし、指定したセキュリティグループを使用してアクセスを制御できます。

        重要

        TensorBoardインスタンスが、VPCを必要とするデータセット (Cloud Parallel File Storage (CPFS) データセットやVPCにマウントターゲットがあるNASデータセットなど) を使用する場合、VPCを設定する必要があります。

  4. 作成したTensorBoardインスタンスを見つけ、TensorBoardインスタンスが [実行中] 状態になった後、[操作] 列の [TensorBoardの表示] をクリックします。

    TensorBoardページが表示されます。 TensorBoardを使用すると、トレーニング中にデータセットまたは要約ログファイルを視覚化して表示し、トレーニングの理解とデバッグを向上させることができます。 これにより、トレーニング効果が向上します。image

TensorBoardインスタンスの管理

image

  • TensorBoardインスタンスの詳細を表示します。

    [Tensorboard] タブで、TensorBoardインスタンスの名前をクリックします。 [TensorBoardインスタンスの詳細] ページで、[基本情報] および [設定情報] を表示できます。

  • 関連するDLCジョブを表示します。

    TensorBoardインスタンスに関連付けるDLCジョブの数を表示できます。 [Tensorboard] タブで、[関連タスク] 列のimageアイコンの上にポインターを移動して、関連するDLCジョブのIDを表示します。 IDをクリックすると、DLCジョブの詳細ページに移動できます。

  • 関連するデータセットを表示します。

    TensorBoardインスタンスに関連付けるデータセットの数を表示できます。 [Tensorboard] タブで、[Associated Dataset] 列のimageアイコンの上にポインターを移動して、関連付けられたデータセットのIDを表示します。 IDをクリックすると、データセットの詳細ページに移動できます。

  • 実行期間を表示します。

    TensorBoardインスタンスの実行期間を表示できます。 実行期間は、インスタンスの起動時に開始されます。 TensorBoardインスタンスを停止すると、実行期間がリセットされます。 [Tensorboard] タブで、[running duration] 列にTensorBoardインスタンスの実行期間を表示します。

  • TensorBoardインスタンスを停止します。

    • TensorBoardインスタンスの [操作] 列で [停止] をクリックします。

    • TensorBoardインスタンスの [操作] 列で [自動停止設定] をクリックして、インスタンスを自動的に停止する時刻を指定します。

関連ドキュメント

また、Deep Learning Containers (DLC) ページでTensorBoardインスタンスを作成および管理することもできます。 詳細については、「TensorBoard」をご参照ください。