Platform for AI (PAI) コンソールの [ジョブ] ページの [TensorBoard] タブで、TensorBoardインスタンスを作成および管理できます。 TensorBoardインスタンスは、データセットまたはDLC (Deep Learning Containers) ジョブに関連付けることができます。 インスタンスの起動後、TensorBoardのモデルトレーニング結果の視覚化された分析レポートを表示できます。 このトピックでは、TensorBoardインスタンスを作成および管理する方法について説明します。
制限事項
TensorBoard機能は、マレーシア (クアラルンプール) リージョンで作成されたDLCジョブには使用できません。
アカウントと権限の要件
Alibaba Cloudアカウント: Alibaba Cloudアカウントを使用して、追加の権限なしですべての操作を完了できます。
RAMユーザー: RAMユーザーをメンバーとしてワークスペースに追加し、必要なロールをメンバーに割り当てて、メンバーに関連する操作権限を付与する必要があります。 各ロールの権限の詳細については、「付録: ロールと権限」をご参照ください。
TensorBoardインスタンスの作成
TensorBoardインスタンスを作成するには、次の手順を実行します。
[分散トレーニングジョブ] ページに移動
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、 分散トレーニングジョブページに移動します。
[TensorBoard] タブで、[TensorBoardの作成] をクリックします。
[TensorBoardの作成] ページで、パラメーターを設定し、[OK] をクリックします。 下表に追加のパラメーターを示します。
基本情報
パラメーター
説明
TensorBoard名
TensorBoardインスタンスの名前。
TensorBoard設定
次の設定タイプがサポートされています。
データセットによる
データセット: ワークスペースで作成されたデータセットを選択します。
概要パス: データセット内の概要ディレクトリの相対パスを入力します。
Object Storage Service (OSS)
OSS: OSSストレージパスを選択します。
Summary Path: OSSのsummaryディレクトリの相対パスを入力します。
タスク別
DLCジョブ: 既存のDLCジョブを選択します。
概要パス: タスクの概要ディレクトリの絶対パスを入力します。 たとえば、サマリーファイルがデータセットの
/tensorboards/summary
ディレクトリにあり、DLCジョブ内のデータセットのマウントパスが/mnt/data
の場合、DLCジョブ内のサマリーファイルの絶対パスは/mnt/data/tensorboards/summary
です。
[追加] をクリックすると、TensorBoardインスタンスごとに複数のサマリーパスをマウントし、複数のジョブ間でメトリックを比較できます。
リソース設定
次の表に、サポートされるリソースタイプを示します。
リソースタイプ
説明
無料クォータ
システムは一定量の無料リソースを提供します。 各インスタンスは、最大2 vCPUと4 GiBのメモリを使用できます。
パブリックリソース
フリーリソースが要件を満たせない場合は、パブリックリソースを使用してTensorBoardインスタンスを起動できます。 パブリックリソースは、従量課金の課金方法を使用します。 空きリソースが使い果たされた場合は、空きリソースを使用しているTensorBoardインスタンスを停止して、関連する空きリソースを解放できます。 このようにして、無料のリソースを引き続き使用できます。
リソースクォータ
無料のリソースが要件を満たせない場合は、リソースクォータを使用してインスタンスを作成できます。
説明この機能は、ホワイトリストのユーザーのみが使用できます。 この機能を使用する場合は、アカウントマネージャーに連絡してホワイトリストを設定してください。
次のパラメーターを設定する必要があります。
リソースクォータ: 一般的なコンピューティングリソースのクォータまたはLingjunリソースのクォータを選択します。 リソースクォータの作成方法については、「リソースクォータの作成」をご参照ください。 使用可能なリソースクォータがない場合は、[リソースクォータの関連付け] をクリックして、リソースクォータをワークスペースに関連付けることができます。
Priority: TensorBoardインスタンスの優先度。 有効値: 1~9。 値1は、最も低い優先度を示します。
ジョブリソース: TensorBoardインスタンスの実行に使用するリソース。 リソースには、vCPUとメモリの数が含まれます。 メモリサイズの単位はGiBです。
VPC設定
[パブリックリソース] を使用してTensorBoardインスタンスを作成する場合、VPC関連のパラメーターを使用できます。
仮想プライベートクラウド (VPC) を設定しない場合、インターネット接続が使用されます。 ただし、インターネット接続の帯域幅が限られているため、TensorBoardインスタンスの起動中やレポートの表示中にシステムが故障することがあります。
十分なネットワーク帯域幅と安定したパフォーマンスを確保するために、VPCを設定することを推奨します。
現在のリージョンでVPC、vSwitch、およびセキュリティグループを選択します。 設定が完了すると、TensorBoardインスタンスが実行されているクラスターは、選択したVPCのサービスにアクセスし、指定したセキュリティグループを使用してアクセスを制御できます。
重要TensorBoardインスタンスが、VPCを必要とするデータセット (Cloud Parallel File Storage (CPFS) データセットやVPCにマウントターゲットがあるNASデータセットなど) を使用する場合、VPCを設定する必要があります。
作成したTensorBoardインスタンスを見つけ、TensorBoardインスタンスが [実行中] 状態になった後、[操作] 列の [TensorBoardの表示] をクリックします。
TensorBoardページが表示されます。 TensorBoardを使用すると、トレーニング中にデータセットまたは要約ログファイルを視覚化して表示し、トレーニングの理解とデバッグを向上させることができます。 これにより、トレーニング効果が向上します。
TensorBoardインスタンスの管理
TensorBoardインスタンスの詳細を表示します。
[Tensorboard] タブで、TensorBoardインスタンスの名前をクリックします。 [TensorBoardインスタンスの詳細] ページで、[基本情報] および [設定情報] を表示できます。
関連するDLCジョブを表示します。
TensorBoardインスタンスに関連付けるDLCジョブの数を表示できます。 [Tensorboard] タブで、[関連タスク] 列のアイコンの上にポインターを移動して、関連するDLCジョブのIDを表示します。 IDをクリックすると、DLCジョブの詳細ページに移動できます。
関連するデータセットを表示します。
TensorBoardインスタンスに関連付けるデータセットの数を表示できます。 [Tensorboard] タブで、[Associated Dataset] 列のアイコンの上にポインターを移動して、関連付けられたデータセットのIDを表示します。 IDをクリックすると、データセットの詳細ページに移動できます。
実行期間を表示します。
TensorBoardインスタンスの実行期間を表示できます。 実行期間は、インスタンスの起動時に開始されます。 TensorBoardインスタンスを停止すると、実行期間がリセットされます。 [Tensorboard] タブで、[running duration] 列にTensorBoardインスタンスの実行期間を表示します。
TensorBoardインスタンスを停止します。
TensorBoardインスタンスの [操作] 列で [停止] をクリックします。
TensorBoardインスタンスの [操作] 列で [自動停止設定] をクリックして、インスタンスを自動的に停止する時刻を指定します。
関連ドキュメント
また、Deep Learning Containers (DLC) ページでTensorBoardインスタンスを作成および管理することもできます。 詳細については、「TensorBoard」をご参照ください。