全部產品
Search
文件中心

Platform For AI:建立及管理分布式訓練任務

更新時間:Sep 13, 2024

PAI為您提供任務管理頁面,支援通過任務管理頁面統一可視化的管理雲端式原生AI基礎平台DLC提交的分布式訓練任務。本文為您介紹如何建立及管理工作。

操作帳號和許可權要求

  • 阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。

  • RAM使用者:需要為RAM使用者添加為對應角色的工作空間成員,使其擁有對應操作的許可權,各角色的許可權詳情可前往附錄:角色及許可權列表查看。

建立分布式訓練任務

您可以在分布式訓練(DLC)頁簽,建立DLC分布式訓練任務,具體操作步驟如下。

  1. 進入任務管理頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在工作空間頁面的左側導覽列選擇AI資產管理 > 任務,進入任務管理頁面。

  2. 分布式訓練(DLC)頁簽,單擊建立任務

  3. 建立任務頁面,配置參數,並單擊確認

    關於如何配置參數,詳情請參見建立訓練任務

管理分布式訓練任務

分布式訓練任務匯總了從DLC、Designer中運行在DLC上的演算法節點、DLC命令列工具等入口提交的分布式訓練任務。您可以按照下圖操作指引,管理工作。a95d0b5d2be165babe046176dcf0cdc8

警告

DLC任務刪除後無法恢複,請謹慎操作。

  • ①:使用任務名稱、任務ID、時間區間、架構或狀態快速定位到目標任務。

  • ②:單擊任務名稱,進入任務詳情頁面,查看任務執行狀態、執行個體執行狀態、資源檢視及日誌等。

  • ③:將滑鼠懸浮到③位置,快速查看任務執行狀態。

  • ④:您可以複製一個新的任務,或單擊操作列下的Tensorboard,為該任務建立一個Tensorboard執行個體,通過Tensorboard可視化介面更直觀地查看該任務的訓練結果。

通過關鍵詞查詢彙總日誌

操作步驟

您可以在日誌頁簽通過關鍵詞進行相關日誌事件搜尋,具體操作步驟如下。

  1. 在左側導覽列選擇AI資產管理>任務,然後在分布式訓練(DLC)頁面單擊任務名稱。

  2. 單擊日誌頁簽,進行相關設定。

    1. 任務資訊上方選擇日誌採集時間範圍。

      說明

      日誌採集時間可能晚於任務結束時間,請根據實際情況進行選擇。

    2. 執行個體列表地區勾選執行個體。

    3. 在右側搜尋方塊內輸入關鍵詞,搜尋相關日誌或事件。

基本查詢規則

彙總日誌關鍵詞查詢需要使用完整的詞進行查詢,但由於DLC使用的SLSLog Service查詢採用的是分詞法,精確查詢時並不能完全符合關鍵詞。

例如,關鍵詞為abc def,查詢結果將包含所有abcdef的日誌,無法完全符合完整的abc def

模糊查詢規則

在彙總日誌關鍵詞查詢時,可以使用星號(*)和半形問號(?)來實現模糊查詢,其餘特殊符號無效。具體規則如下:

  • 星號(*)代表多個任一字元的詞,半形問號(?)代表單個字元的詞。

  • 星號(*)和半形問號(?)需要加在關鍵詞的中間或者末尾,放在關鍵詞的開頭會被視為無效。

例如,關鍵詞abc*代表查詢以abc開頭的詞,關鍵詞ab?d代表查詢以ab開頭、d結尾且中間包含單個字元的詞。

說明

使用模糊查詢時,會在日誌庫中的所有日誌中為您查詢合格100個模糊搜尋字詞。最後返回包含這100個模糊搜尋字詞的日誌。因此,您設定的模糊條件首碼很短且日誌中超過100個詞,可能存在不精準的情況。指定的詞越精確,查詢結果越精確。

分詞符限制

DLC使用的SLSLog Service為了更好地對DLC任務的訓練日誌進行分詞,將以下幾種常見的字元內建為分詞符:, '";=()[\",\"]{}?@&<>/:\n\t\r

分詞符的作用在於將日誌內容拆分成多個分詞,並用於搜尋。因此,在使用僅有分詞符組成的字串作為關鍵詞進行搜尋時,不會被當作完整的詞進行處理,返回的結果將為空白。

樣本一:關鍵詞為&&&,無法成功查詢到相關的日誌,建議結合待查詢的關鍵詞的上下文重新構建關鍵詞。

樣本二:若需要查詢日誌內容包含a&b的日誌時,建議選擇a&b為關鍵詞,而不是以&為關鍵詞。以a&b為關鍵詞,會返回包含ab的日誌,關鍵詞越詳細,精準度會越高。

關鍵詞樣本

查詢需求

關鍵詞樣本

搜尋包含Error的日誌。

Error

搜尋包含loss和acc的日誌。

loss acc

模糊搜尋關於所有涉及Traceback的日誌。

Traceback*

搜尋包含abc&def的日誌。

abc&def