全部產品
Search
文件中心

Platform For AI:建立及管理Tensorboard執行個體

更新時間:Sep 13, 2024

您可以在任務管理頁面建立和管理Tensorboard執行個體。該執行個體可以與資料集或DLC任務進行關聯,在執行個體啟動成功後,您可以通過Tensorboard的可視化介面查看模型訓練結果分析報告。本文為您介紹如何建立和管理Tensorboard執行個體。

使用限制

目前,在馬來西亞(吉隆坡)地區建立的DLC任務,不支援使用Tensorboard功能。

操作帳號和許可權要求

  • 阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。

  • RAM使用者:需要為RAM使用者添加對應角色的工作空間成員,使其擁有對應操作的許可權,各角色的許可權詳情可前往附錄:角色及許可權列表查看。

建立Tensorboard執行個體

具體操作步驟如下。

  1. 進入任務管理頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在工作空間頁面的左側導覽列選擇AI資產管理 > 任務,進入任務管理頁面。

  2. Tensorboard頁簽,單擊建立Tensorboard

  3. 建立Tensorboard頁面中,配置以下參數,然後單擊確定

    • 基本資料

      參數

      描述

      Tensorboard名稱

      自訂Tensorboard執行個體名稱。

      Tensorboard配置

      支援以下三種配置類型:

      • 按資料集

        • 資料集:選擇該工作空間中已建立的資料集。

        • Summary目錄:請填寫Summary目錄在資料集中的相對路徑。

      • 按Object Storage Service

        • OSS:選擇OSS儲存路徑。

        • Summary目錄:請填寫Summary目錄在OSS儲存路徑中的相對路徑。

      • 按任務

        • DLC任務:選擇已建立的DLC任務。

        • Summary目錄:請填寫Summary目錄在任務中的絕對路徑。例如,Summary檔案在資料集的/tensorboards/summary內,而該資料集在DLC任務中的掛載路徑為/mnt/data,則Summary檔案在DLC任務中的絕對路徑為/mnt/data/tensorboards/summary

      您可以單擊添加按鈕,為每個Tensorboard掛載多個Summary目錄,以便跨多個任務比較各項指標。

    • 資源配置

      支援配置以下幾種資源類型:

      資源類型

      描述

      免費資源

      系統為您提供一定額度的免費資源,每個執行個體支援使用的資源上限為2vCPU,4 GiB記憶體。

      公用資源

      當免費資源額度不能滿足您的需求時,您可以選擇使用公用資源來啟動Tensorboard執行個體,計費方式為隨用隨付,您也可以關閉運行中的免費執行個體,以繼續使用免費額度。

      資源配額

      當免費資源額度不能滿足您的需求時,您可以選擇使用資源配額(Quota)來建立執行個體。

      說明

      該功能暫時僅供白名單使用者使用。如有需要,請聯絡您的商務經理添加白名單。

      同時您需要配置以下參數:

      • 資源配額:選擇已建立的通用計算資源配額或靈駿智算資源配額,關於如何建立資源配額,請參見新增資源配額。如果沒有可選的資源配額,您可以單擊關聯資源配額,為該工作空間關聯資源配額。

      • 優先順序:表示同時啟動並執行Tensorboard執行個體執行的優先順序,取值範圍為[1,9],其中1表示優先順序最低。

      • 任務資源:配置運行Tensorboard執行個體時使用的資源:CPU(核心數)記憶體(GiB)

    • 專用網路配置

      當使用公用資源建立Tensorboard執行個體時,支援配置該參數。

      • 不配置專用網路,將使用公網串連。由於公網串連的頻寬有限,在Tensorboard執行個體啟動過程或查看報告時,可能會出現卡頓或無法正常進行的情況。

      • 配置專用網路,以確保充足的網路頻寬和更穩定的效能。

        選擇當前地區可用的專用網路,並選擇對應的交換器與安全性群組。配置完成後,Tensorboard執行個體啟動並執行叢集將能夠直接存取此專用網路內的服務,並使用此處選擇的安全性群組進行安全訪問限制。

        重要

        如果Tensorboard執行個體使用了需要配置專用網路的資料集(例如CPFS類型的資料集,或掛載點在專用網路內的NAS類型資料集等),則必須設定專用網路。

  4. 當目標Tensorboard執行個體的狀態運行中時,單擊操作列下的查看Tensorboard

    頁面自動跳轉到TensorBoard頁面。TensorBoard已將資料集或訓練運行過程中的Summary記錄檔轉換為可視化介面,以便您更好地理解、調試訓練過程,進而提升訓練效果。image

管理Tensorboard執行個體

image

  • 查看Tensorboard執行個體詳情

    Tensorboard頁簽,單擊目標Tensorboard執行個體名稱,進入Tensorboard詳情頁面。在該頁面查看Tensorboard的基本資料配置資訊

  • 查看關聯任務

    表示該Tensorboard執行個體關聯的DLC任務數。在Tensorboard頁簽,將滑鼠懸浮在關聯任務列下的表徵圖image上,您可以查看已關聯的DLC任務ID,並支援單擊跳轉到相關任務詳情頁面。

  • 查看關聯資料集

    表示該Tensorboard執行個體關聯的資料集個數。在Tensorboard頁簽,將滑鼠懸浮在關聯資料集列下的表徵圖image上,您可以查看已關聯的資料集ID,並支援單擊跳轉到相關資料集詳情頁面。

  • 查看執行時間長度

    表示該Tensorboard執行個體啟動成功後的運行時間長度。停止執行個體後,該時間將重設。在Tensorboard頁簽的執行時間長度列下,您可以查看目標Tensorboard執行個體的執行時間長度。

  • 停止Tensorboard執行個體:

    • 單擊目標執行個體操作列下的停止,直接停止執行個體。

    • 單擊目標執行個體操作列下的自動停止設定,設定自動停止時間。

相關文檔

您也可以在分布式訓練(DLC)頁面建立和管理Tensorboard執行個體,詳情請參見Tensorboard