全部產品
Search
文件中心

Platform For AI:Tensorboard

更新時間:Aug 02, 2024

您可以為分布式訓練(DLC)任務建立Tensorboard執行個體,通過Tensorboard的可視化介面更直觀地查看模型訓練結果分析報告。本文為您介紹如何建立和管理Tensorboard執行個體。

前提條件

已建立DLC任務,且綁定了資料集。具體操作,請參見建立訓練任務

使用限制

僅添加資料集配置的DLC任務支援使用Tensorboard查看分析報告。

建立Tensorboard執行個體

  1. 進入分布式訓練任務頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 分布式訓練(DLC)

  2. 在目標任務操作列下,單擊Tensorboard,在彈出的Tensorboard面板中,單擊建立Tensorboardimage

  3. 建立Tensorboard頁面中,配置以下參數,然後單擊確定

    • 基本資料

      參數

      描述

      Tensorboard名稱

      自訂Tensorboard執行個體名稱。

      Tensorboard配置

      支援以下三種配置類型:

      • 按資料集

        • 資料集:選擇該工作空間中已建立的資料集。

        • Summary目錄:請填寫Summary目錄在資料集中的相對路徑。

      • 按Object Storage Service

        • OSS:選擇OSS儲存路徑。

        • Summary目錄:請填寫Summary目錄在OSS儲存路徑中的相對路徑。

      • 按任務

        • DLC任務:選擇已建立的DLC任務。

        • Summary目錄:請填寫Summary目錄在任務中的絕對路徑。例如,Summary檔案在資料集的/tensorboards/summary內,而該資料集在DLC任務中的掛載路徑為/mnt/data,則Summary檔案在DLC任務中的絕對路徑為/mnt/data/tensorboards/summary

      您可以單擊添加按鈕,為每個Tensorboard掛載多個Summary目錄,以便跨多個任務比較各項指標。

    • 資源配置

      支援配置以下幾種資源類型:

      資源類型

      描述

      免費資源

      系統為您提供一定額度的免費資源,每個執行個體支援使用的資源上限為2vCPU,4 GiB記憶體。

      公用資源

      當免費資源額度不能滿足您的需求時,您可以選擇使用公用資源來啟動Tensorboard執行個體,計費方式為隨用隨付,您也可以關閉運行中的免費執行個體,以繼續使用免費額度。

      資源配額

      當免費資源額度不能滿足您的需求時,您可以選擇使用資源配額(Quota)來建立執行個體。

      說明

      該功能暫時僅供白名單使用者使用。如有需要,請聯絡您的商務經理添加白名單。

      同時您需要配置以下參數:

      • 資源配額:選擇已建立的通用計算資源配額或靈駿智算資源配額,關於如何建立資源配額,請參見新增資源配額。如果沒有可選的資源配額,您可以單擊關聯資源配額,為該工作空間關聯資源配額。

      • 優先順序:表示同時啟動並執行Tensorboard執行個體執行的優先順序,取值範圍為[1,9],其中1表示優先順序最低。

      • 任務資源:配置運行Tensorboard執行個體時使用的資源:CPU(核心數)記憶體(GiB)

    • 專用網路配置

      當使用公用資源建立Tensorboard執行個體時,支援配置該參數。

      • 不配置專用網路,將使用公網串連。由於公網串連的頻寬有限,在Tensorboard執行個體啟動過程或查看報告時,可能會出現卡頓或無法正常進行的情況。

      • 配置專用網路,以確保充足的網路頻寬和更穩定的效能。

        選擇當前地區可用的專用網路,並選擇對應的交換器與安全性群組。配置完成後,Tensorboard執行個體啟動並執行叢集將能夠直接存取此專用網路內的服務,並使用此處選擇的安全性群組進行安全訪問限制。

        重要

        如果Tensorboard執行個體使用了需要配置專用網路的資料集(例如CPFS類型的資料集,或掛載點在專用網路內的NAS類型資料集等),則必須設定專用網路。

  4. 前往Tensorboard頁面查看分析報告。

    1. 在工作空間頁面的左側導覽列選擇AI資產管理 > 任務

    2. 切換到Tensorboard頁簽,當目標Tensorboard執行個體的狀態運行中時,單擊操作列下的查看Tensorboard

      頁面自動跳轉到TensorBoard頁面。image

管理Tensorboard執行個體

您可以按照以下操作步驟,對已建立的Tensorboard執行個體進行管理操作。

  1. 進入任務管理頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在工作空間頁面的左側導覽列選擇AI資產管理 > 任務,進入任務管理頁面。

  2. 管理Tensorboard執行個體。image

    • 查看Tensorboard執行個體詳情

      Tensorboard頁簽,單擊目標Tensorboard執行個體名稱,進入Tensorboard詳情頁面。在該頁面查看Tensorboard的基本資料配置資訊

    • 查看關聯任務

      表示該Tensorboard執行個體關聯的DLC任務數。在Tensorboard頁簽,將滑鼠懸浮在關聯任務列下的表徵圖image上,您可以查看已關聯的DLC任務ID,並支援單擊跳轉到相關任務詳情頁面。

    • 查看關聯資料集

      表示該Tensorboard執行個體關聯的資料集個數。在Tensorboard頁簽,將滑鼠懸浮在關聯資料集列下的表徵圖image上,您可以查看已關聯的資料集ID,並支援單擊跳轉到相關資料集詳情頁面。

    • 查看執行時間長度

      表示該Tensorboard執行個體啟動成功後的運行時間長度。停止執行個體後,該時間將重設。在Tensorboard頁簽的執行時間長度列下,您可以查看目標Tensorboard執行個體的執行時間長度。

    • 停止Tensorboard執行個體:

      • 單擊目標執行個體操作列下的停止,直接停止執行個體。

      • 單擊目標執行個體操作列下的自動停止設定,設定自動停止時間。

相關文檔

您也可以在AI資產管理 > 任務頁面,為分布式訓練(DLC)任務建立Tensorboard執行個體。具體操作,請參見建立及管理Tensorboard執行個體