成功提交訓練任務後,您可以通過查看任務基本資料與配置、任務事件、資源檢視以及任務日誌等內容來全面瞭解任務的運行情況。
查看任務基本資料及配置
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入DLC。
單擊目標任務名稱,進入任務概覽頁面。
在概覽頁面,您可以查看該任務的基本資料、環境資訊和資源資訊等。
查看任務事件
事件記錄中記錄了任務調度以及資源相關的進度日誌,您可以通過查看任務事件來定位和排查問題。
查看作業事件記錄:
切換到事件頁簽,查看作業事件記錄。
查看節時間點事件日誌:
在概覽頁面下方的執行個體地區,單擊執行個體操作列下的日誌,在事件頁簽查看具體的節時間點事件日誌。
查看資源檢視
目前資源檢視支援查看的主要指標包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通過查看資源檢視即時監控任務使用的各種資源,從而全面瞭解任務對不同資源的需求程度,監控資源的利用率和消耗情況,方便您進行資源最佳化和規劃。
您可以切換到監控頁簽,在該頁簽中查看任務資源檢視。
目前支援作業維度、POD維度及GPU維度的監控指標展示。您可以通過監控警示功能,對DLC任務的資源水位進行即時監控,具體操作,請參見訓練監控與警示。
查看任務日誌
當任務運行異常或需要查看任務執行的記錄時,您可以通過查看任務日誌,瞭解任務執行過程中的關鍵資訊。支援以下兩種查看方法:
在概覽頁面下方的執行個體地區,單擊執行個體操作列下的日誌,查看某個節點的輸出日誌。
切換到日誌頁簽,通過關鍵詞進行相關日誌事件的搜尋。具體操作,請參見通過關鍵詞查詢彙總日誌。
查看行為事件記錄
PAI已整合至Action Trail(ActionTrail)中,您可以在ActionTrail中查看和檢索阿里雲帳號最近90天的DLC行為事件記錄。具體操作,請參見Action Trail。
相關文檔
您可以根據任務的運行情況,進行相應的管理操作,詳情請參見管理訓練任務。