PAI為您提供任務管理頁面,支援通過任務管理頁面統一可視化的管理雲端式原生AI基礎平台DLC提交的分布式訓練任務。本文為您介紹如何建立及管理工作。
操作帳號和許可權要求
阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。
RAM使用者:需要為RAM使用者添加為對應角色的工作空間成員,使其擁有對應操作的許可權,各角色的許可權詳情可前往附錄:角色及許可權列表查看。
建立分布式訓練任務
您可以在分布式訓練(DLC)頁簽,建立DLC分布式訓練任務,具體操作步驟如下。
管理分布式訓練任務
分布式訓練任務匯總了從DLC、Designer中運行在DLC上的演算法節點、DLC命令列工具等入口提交的分布式訓練任務。您可以按照下圖操作指引,管理工作。
DLC任務刪除後無法恢複,請謹慎操作。
①:使用任務名稱、任務ID、時間區間、架構或狀態快速定位到目標任務。
②:單擊任務名稱,進入任務詳情頁面,查看任務執行狀態、執行個體執行狀態、資源檢視及日誌等。
③:將滑鼠懸浮到③位置,快速查看任務執行狀態。
④:您可以複製一個新的任務,或單擊操作列下的Tensorboard,為該任務建立一個Tensorboard執行個體,通過Tensorboard可視化介面更直觀地查看該任務的訓練結果。
通過關鍵詞查詢彙總日誌
操作步驟
您可以在日誌頁簽通過關鍵詞進行相關日誌事件搜尋,具體操作步驟如下。
在左側導覽列選擇AI資產管理>任務,然後在分布式訓練(DLC)頁面單擊任務名稱。
單擊日誌頁簽,進行相關設定。
在任務資訊上方選擇日誌採集時間範圍。
說明日誌採集時間可能晚於任務結束時間,請根據實際情況進行選擇。
在執行個體列表地區勾選執行個體。
在右側搜尋方塊內輸入關鍵詞,搜尋相關日誌或事件。
基本查詢規則
彙總日誌關鍵詞查詢需要使用完整的詞進行查詢,但由於DLC使用的SLSLog Service查詢採用的是分詞法,精確查詢時並不能完全符合關鍵詞。
例如,關鍵詞為abc def,查詢結果將包含所有abc和def的日誌,無法完全符合完整的abc def。
模糊查詢規則
在彙總日誌關鍵詞查詢時,可以使用星號(*)和半形問號(?)來實現模糊查詢,其餘特殊符號無效。具體規則如下:
星號(*)代表多個任一字元的詞,半形問號(?)代表單個字元的詞。
星號(*)和半形問號(?)需要加在關鍵詞的中間或者末尾,放在關鍵詞的開頭會被視為無效。
例如,關鍵詞abc*代表查詢以abc開頭的詞,關鍵詞ab?d代表查詢以ab開頭、d結尾且中間包含單個字元的詞。
使用模糊查詢時,會在日誌庫中的所有日誌中為您查詢合格100個模糊搜尋字詞。最後返回包含這100個模糊搜尋字詞的日誌。因此,您設定的模糊條件首碼很短且日誌中超過100個詞,可能存在不精準的情況。指定的詞越精確,查詢結果越精確。
分詞符限制
DLC使用的SLSLog Service為了更好地對DLC任務的訓練日誌進行分詞,將以下幾種常見的字元內建為分詞符:, '";=()[\",\"]{}?@&<>/:\n\t\r
分詞符的作用在於將日誌內容拆分成多個分詞,並用於搜尋。因此,在使用僅有分詞符組成的字串作為關鍵詞進行搜尋時,不會被當作完整的詞進行處理,返回的結果將為空白。
樣本一:關鍵詞為&&&,無法成功查詢到相關的日誌,建議結合待查詢的關鍵詞的上下文重新構建關鍵詞。
樣本二:若需要查詢日誌內容包含a&b的日誌時,建議選擇a&b為關鍵詞,而不是以&為關鍵詞。以a&b為關鍵詞,會返回包含a和b的日誌,關鍵詞越詳細,精準度會越高。
關鍵詞樣本
查詢需求 | 關鍵詞樣本 |
搜尋包含Error的日誌。 | Error |
搜尋包含loss和acc的日誌。 | loss acc |
模糊搜尋關於所有涉及Traceback的日誌。 | Traceback* |
搜尋包含abc&def的日誌。 | abc&def |