全部產品
Search
文件中心

Platform For AI:查看訓練詳情

更新時間:Jul 13, 2024

成功提交訓練任務後,您可以通過查看任務基本資料與配置、任務事件、資源檢視以及任務日誌等內容來全面瞭解任務的運行情況。

查看任務基本資料及配置

  1. 進入分布式訓練任務頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 分布式訓練(DLC)

  2. 單擊目標任務名稱,進入任務概覽頁面。

  3. 概覽頁面,您可以查看該任務的基本資料、環境資訊和資源資訊等。image

查看任務事件

事件記錄中記錄了任務調度以及資源相關的進度日誌,您可以通過查看任務事件來定位和排查問題。

  • 查看作業事件記錄:

    切換到事件頁簽,查看作業事件記錄。image

  • 查看節時間點事件日誌:

    概覽頁面下方的執行個體地區,單擊執行個體操作列下的日誌,在事件頁簽查看具體的節時間點事件日誌。image

查看資源檢視

目前資源檢視支援查看的主要指標包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通過查看資源檢視即時監控任務使用的各種資源,從而全面瞭解任務對不同資源的需求程度,監控資源的利用率和消耗情況,方便您進行資源最佳化和規劃。

您可以切換到監控頁簽,在該頁簽中查看任務資源檢視。image

目前支援作業維度POD維度GPU維度的監控指標展示。您可以通過監控警示功能,對DLC任務的資源水位進行即時監控,具體操作,請參見監控與警示

查看任務日誌

當任務運行異常或需要查看任務執行的記錄時,您可以通過查看任務日誌,瞭解任務執行過程中的關鍵資訊。支援以下兩種查看方法:

  • 概覽頁面下方的執行個體地區,單擊執行個體操作列下的日誌,查看某個節點的輸出日誌。image

  • 切換到日誌頁簽,通過關鍵詞進行相關日誌事件的搜尋。具體操作,請參見通過關鍵詞查詢彙總日誌image

查看行為事件記錄

PAI已整合至Action Trail(ActionTrail)中,您可以在ActionTrail中查看和檢索阿里雲帳號最近90天的DLC行為事件記錄。具體操作,請參見Action Trail

相關文檔

您可以根據任務的運行情況,進行相應的管理操作,詳情請參見管理訓練任務