您可以在任務管理頁面建立和管理Tensorboard執行個體。該執行個體可以與資料集或DLC任務進行關聯,在執行個體啟動成功後,您可以通過Tensorboard的可視化介面查看模型訓練結果分析報告。本文為您介紹如何建立和管理Tensorboard執行個體。
使用限制
目前,在馬來西亞(吉隆坡)地區建立的DLC任務,不支援使用Tensorboard功能。
操作帳號和許可權要求
阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。
RAM使用者:需要為RAM使用者添加對應角色的工作空間成員,使其擁有對應操作的許可權,各角色的許可權詳情可前往附錄:角色及許可權列表查看。
建立Tensorboard執行個體
具體操作步驟如下。
進入任務管理頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導覽列選擇 ,進入任務管理頁面。
在Tensorboard頁簽,單擊建立Tensorboard。
在建立Tensorboard頁面中,配置以下參數,然後單擊確定。
基本資料
參數
描述
Tensorboard名稱
自訂Tensorboard執行個體名稱。
Tensorboard配置
支援以下三種配置類型:
按資料集
資料集:選擇該工作空間中已建立的資料集。
Summary目錄:請填寫Summary目錄在資料集中的相對路徑。
按Object Storage Service
OSS:選擇OSS儲存路徑。
Summary目錄:請填寫Summary目錄在OSS儲存路徑中的相對路徑。
按任務
DLC任務:選擇已建立的DLC任務。
Summary目錄:請填寫Summary目錄在任務中的絕對路徑。例如,Summary檔案在資料集的
/tensorboards/summary
內,而該資料集在DLC任務中的掛載路徑為/mnt/data
,則Summary檔案在DLC任務中的絕對路徑為/mnt/data/tensorboards/summary
。
您可以單擊添加按鈕,為每個Tensorboard掛載多個Summary目錄,以便跨多個任務比較各項指標。
資源配置
支援配置以下幾種資源類型:
資源類型
描述
免費資源
系統為您提供一定額度的免費資源,每個執行個體支援使用的資源上限為2vCPU,4 GiB記憶體。
公用資源
當免費資源額度不能滿足您的需求時,您可以選擇使用公用資源來啟動Tensorboard執行個體,計費方式為隨用隨付,您也可以關閉運行中的免費執行個體,以繼續使用免費額度。
資源配額
當免費資源額度不能滿足您的需求時,您可以選擇使用資源配額(Quota)來建立執行個體。
說明該功能暫時僅供白名單使用者使用。如有需要,請聯絡您的商務經理添加白名單。
同時您需要配置以下參數:
資源配額:選擇已建立的通用計算資源配額或靈駿智算資源配額,關於如何建立資源配額,請參見新增資源配額。如果沒有可選的資源配額,您可以單擊關聯資源配額,為該工作空間關聯資源配額。
優先順序:表示同時啟動並執行Tensorboard執行個體執行的優先順序,取值範圍為[1,9],其中1表示優先順序最低。
任務資源:配置運行Tensorboard執行個體時使用的資源:CPU(核心數)和記憶體(GiB)。
專用網路配置
當使用公用資源建立Tensorboard執行個體時,支援配置該參數。
不配置專用網路,將使用公網串連。由於公網串連的頻寬有限,在Tensorboard執行個體啟動過程或查看報告時,可能會出現卡頓或無法正常進行的情況。
配置專用網路,以確保充足的網路頻寬和更穩定的效能。
選擇當前地區可用的專用網路,並選擇對應的交換器與安全性群組。配置完成後,Tensorboard執行個體啟動並執行叢集將能夠直接存取此專用網路內的服務,並使用此處選擇的安全性群組進行安全訪問限制。
重要如果Tensorboard執行個體使用了需要配置專用網路的資料集(例如CPFS類型的資料集,或掛載點在專用網路內的NAS類型資料集等),則必須設定專用網路。
當目標Tensorboard執行個體的狀態為運行中時,單擊操作列下的查看Tensorboard。
頁面自動跳轉到TensorBoard頁面。TensorBoard已將資料集或訓練運行過程中的Summary記錄檔轉換為可視化介面,以便您更好地理解、調試訓練過程,進而提升訓練效果。
管理Tensorboard執行個體
查看Tensorboard執行個體詳情
在Tensorboard頁簽,單擊目標Tensorboard執行個體名稱,進入Tensorboard詳情頁面。在該頁面查看Tensorboard的基本資料和配置資訊。
查看關聯任務
表示該Tensorboard執行個體關聯的DLC任務數。在Tensorboard頁簽,將滑鼠懸浮在關聯任務列下的表徵圖上,您可以查看已關聯的DLC任務ID,並支援單擊跳轉到相關任務詳情頁面。
查看關聯資料集
表示該Tensorboard執行個體關聯的資料集個數。在Tensorboard頁簽,將滑鼠懸浮在關聯資料集列下的表徵圖上,您可以查看已關聯的資料集ID,並支援單擊跳轉到相關資料集詳情頁面。
查看執行時間長度
表示該Tensorboard執行個體啟動成功後的運行時間長度。停止執行個體後,該時間將重設。在Tensorboard頁簽的執行時間長度列下,您可以查看目標Tensorboard執行個體的執行時間長度。
停止Tensorboard執行個體:
單擊目標執行個體操作列下的停止,直接停止執行個體。
單擊目標執行個體操作列下的自動停止設定,設定自動停止時間。
相關文檔
您也可以在分布式訓練(DLC)頁面建立和管理Tensorboard執行個體,詳情請參見Tensorboard。