全部產品
Search
文件中心

Platform For AI:監控與警示

更新時間:Jul 13, 2024

DLC支援查看並監控資源狀況,並且提供了全面詳細的監控指標,協助您更好地掌握資源負載情況。通過監控警示功能,您可以對分布式訓練(DLC)任務的資源水位進行即時監控,並靈活地配置警示規則和警示通知。如果資源水位出現波動,例如低於GPU使用率超過設定閾值,則會發送警示通知。本文為您介紹如何查看監控資料、配置監控警示通知、訂閱監控指標。

前提條件

設定DLC的監控與警示,您需要先建立一個或多個分布式訓練(DLC)任務。詳情請參見建立訓練任務

使用限制

功能分類

支援的資源類型

支援的地區

DLC

靈駿智算資源

  • 華北6(烏蘭察布)

  • 新加坡

通用計算資源

  • 華北2(北京)

  • 華東2(上海)

  • 華東1(杭州)

  • 華南1(深圳)

  • 華北6(烏蘭察布)

  • 新加坡

操作帳號和許可權要求

  • 阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。

  • RAM帳號:

    • 當您需要查看某個工作空間相應DLC任務的監控資料時,您需要為RAM帳號添加以下許可權:

      • 將RAM使用者添加為工作空間成員,並賦予其管理員、演算法開發或演算法營運角色。詳情請參見管理工作空間成員

      • 為RAM使用者添加唯讀訪問CloudMonitor的許可權(AliyunCloudMonitorReadOnlyAccess)。詳情請參見為RAM使用者授權

    • 當您需要查看某個工作空間相應DLC任務的監控資料,並配置監控警示通知時,您需要為RAM帳號添加以下許可權:

      • 將RAM使用者添加為工作空間成員,並賦予其管理員、演算法開發或演算法營運角色。詳情請參見管理工作空間成員

      • 為RAM使用者添加管理CloudMonitor的許可權(AliyunCloudMonitorFullAccess)。詳情請參見為RAM使用者授權

查看監控資料

監控大盤

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇可視化(Dashboard) > 雲產品大盤

  3. 雲產品大盤頁面,選擇PAI-分布式訓練(DLC)。在工作空間ID搜尋方塊內,選擇或搜尋工作空間ID,該工作空間中DLC任務對應的監控圖表會在頁面下方展示。如何查詢工作空間ID,請參見管理工作空間image在對應監控圖表中,可以進行以下操作:

    • 切換監控維度:目前支援作業維度、POD(Worker)維度及GPU維度監控指標展示。

      • 單擊作業維度,您可以選擇或輸入DLC任務ID,查看單個任務的監控資料檢視。image

      • 單擊POD維度,您可以選擇或輸入POD ID,查看單個POD的監控資料檢視。image

      • 單擊GPU維度,您可以選擇或輸入POD ID,查看指定DLC任務單個POD的GPU維度監控資料檢視。image

    • 切換展示時間範圍image

    • 放大視圖:您可以單擊每個圖表右上方的放大按鈕image.png,查看監控資料的細節視圖。image

監控指標及說明

監控指標主要包括CPU、記憶體、磁碟、網路、RDMA、CPFS,以及GPU相關指標,如顯存使用率、算力使用率、SM裝置使用率、PCIe及NVLink接收/發送資料量等。當前維度主要支援:作業(任務)維度、Pod(Worker)維度和GPU單卡維度。下面是一些典型的健康指標,全量指標列表及細節說明請參見分布式訓練(DLC)指標列表

作業(任務)維度

監控指標

描述

CPU使用率(作業維度)

指定作業的CPU使用百分比。

記憶體使用量率(作業維度)

指定作業的記憶體使用量百分比。

磁碟讀取資料量(作業維度)

指定作業的磁碟讀取資料量(MB)。

磁碟寫入資料量(作業維度)

指定作業的磁碟寫入資料量(MB)。

網路接收資料量(作業維度)

指定作業的網路接收資料量(MB)。

網路發送資料量(作業維度)

指定作業的網路發送資料量(MB)。

GPU算力使用率(作業維度)

指定作業的GPU算力使用率。

GPU顯存使用率(作業維度)

指定作業的GPU顯存使用率。

GPU SM裝置使用率(作業維度)

指定作業的GPU SM裝置使用率。

GPU裝置功耗(作業維度)

指定作業的GPU裝置功耗。

GPU溫度(作業維度)

指定作業的GPU溫度。

GPU整卡健康情況(作業維度)

指定作業的包含的GPU整體健康情況(100%為健康,低於100%則存在部分卡異常)。

RDMA接收資料量(作業維度)

指定作業的RDMA接收資料量。

RDMA發送資料量(作業維度)

指定作業的RDMA發送資料量。

CPFS寫入資料量(作業維度)

指定作業的CPFS裝置寫入資料量(MB)。

CPFS讀取資料量(作業維度)

指定作業的CPFS裝置讀取資料量(MB)。

NVLink接收資料量(作業維度)

指定作業的GPU裝置NVLink上的接收資料量。

NVLink發送資料量(作業維度)

指定作業的GPU裝置NVLink上的發送資料量。

PCIE接收資料量(作業維度)

指定作業的GPU裝置PCIe上的接收資料量。

PCIE發送資料量(作業維度)

指定作業的GPU裝置PCIe上的發送資料量。

更多指標,請參考分布式訓練(DLC)指標列表

Pod(Worker)維度

監控指標

描述

CPU使用率(Pod維度)

指定Pod的CPU使用百分比。

記憶體使用量率(Pod維度)

指定Pod的記憶體使用量百分比。

磁碟讀取資料量(Pod維度)

指定Pod的磁碟讀取資料量(MB)。

磁碟寫入資料量(Pod維度)

指定Pod的磁碟寫入資料量(MB)。

網路接收資料量(Pod維度)

指定Pod的網路接收資料量(MB)。

網路發送資料量(Pod維度)

指定Pod的網路發送資料量(MB)。

GPU算力使用率(Pod維度)

指定Pod的GPU算力使用率。

GPU顯存使用率(Pod維度)

指定Pod的GPU顯存使用率。

GPU SM裝置使用率(Pod維度)

指定Pod的GPU SM裝置使用率。

GPU裝置功耗(Pod維度)

指定Pod的GPU裝置功耗。

GPU溫度(Pod維度)

指定Pod的GPU溫度。

GPU整卡健康情況(Pod維度)

指定Pod的包含的GPU整體健康情況(100%為健康,低於100%則存在部分卡異常)。

RDMA接收資料量(Pod維度)

指定Pod的RDMA接收資料量(MB)。

RDMA發送資料量(Pod維度)

指定Pod的RDMA發送資料量(MB)。

CPFS寫入資料量(Pod維度)

指定Pod的CPFS裝置寫入資料量(MB)。

CPFS讀取資料量(Pod維度)

指定Pod的CPFS裝置讀取資料量(MB)。

NVLink接收資料量(Pod維度)

指定Pod的GPU裝置NVLink上的接收資料量。

NVLink發送資料量(Pod維度)

指定Pod的GPU裝置NVLink上的發送資料量。

PCIE接收資料量(Pod維度)

指定Pod的GPU裝置PCIe上的接收資料量。

PCIE發送資料量(Pod維度)

指定Pod的GPU裝置PCIe上的發送資料量。

更多指標,請參考分布式訓練(DLC)指標列表

GPU單卡維度

    監控指標

    描述

    GPU顯存裝置介面使用率(卡維度)

    指定Pod的單張/多張卡的GPU顯存裝置介面使用率。

    GPU SM裝置使用率(卡維度)

    指定Pod的單張/多張卡的GPU SM裝置使用率。

    GPU裝置功耗(卡維度)

    指定Pod的單張/多張卡的GPU裝置功耗。

    GPU溫度(卡維度)

    指定Pod的單張/多張卡的GPU裝置溫度。

    GPU整卡健康情況(卡維度)

    指定Pod的單張/多張卡的GPU整體健康情況(100%為健康,低於100%則存在部分卡異常)。

    更多指標,請參考分布式訓練(DLC)指標列表

配置監控警示通知

通過監控警示功能,您可以監控分布式訓練(DLC)任務的資源水位,並靈活地配置警示規則。如果資源水位出現波動,例如低於配置的警示規則時,則會發送警示通知。本章節為您介紹如何通過CloudMonitor控制台和API的方式,配置監控警示功能。

通過控制台配置警示通知

步驟一:配置警示連絡人

  1. 建立警示連絡人。

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,選擇警示服務 > 警示連絡人

    3. 警示連絡人頁簽,單擊建立連絡人

    4. 設定警示連絡人面板,填寫警示連絡人的姓名、郵箱和Webhook地址,其他參數均保持預設值。

      說明

      警示通知資訊語言預設為自動,表示CloudMonitor根據當前阿里雲帳號註冊時的語言,自動適配警示通知資訊的語言。

    5. 資訊驗證無誤後,單擊確認

  2. 建立警示聯絡組。

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,選擇警示服務 > 警示連絡人

    3. 單擊警示聯絡組頁簽。

    4. 警示聯絡組頁簽,單擊建立連絡人群組

    5. 建立連絡人群組面板,填寫警示連絡人群組的組名,並選擇已有警示連絡人。

    6. 單擊確認

步驟二:配置警示規則

  1. CloudMonitor控制台的左側導覽列,選擇雲資源監控 > 雲產品監控

  2. 雲產品監控頁面,搜尋並進入PAI-分布式訓練(DLC)image

  3. PAI-分布式訓練(DLC)頁面,選擇服務所在的地區,並單擊建立警示規則

  4. 建立警示規則面板,配置下列參數,並單擊確認

    參數

    描述

    產品

    CloudMonitor管理的產品名稱,選擇PAI-分布式訓練(DLC)

    資源範圍

    警示規則的作用範圍,目前支援全部資源、執行個體(作業):

    • 全部資源DLC的任何資源滿足警示規則,都會發送警示通知。

    • 執行個體:您需要選擇關聯資源(即工作空間ID),僅選中的工作空間下的DLC作業滿足警示規則時,才發送警示通知。

    規則描述

    警示規則主體,當監控資料滿足指定條件時,觸發警示規則。規則描述的設定方法如下:

    1. 單擊添加規則

    2. 設定規則描述面板,設定規則名稱、指標類型、監控指標、閾值及警示層級和警示方式等。

      • 規則名稱:自訂規則名稱。

      • 指標類型:單指標、多指標。

      • 監控指標:指標類型,包括作業、Pod或GPU維度指標。

        • 資源範圍選擇了執行個體,同時監控指標選擇Pod維度指標,您可以選擇Pod ID,對單個或多個Pod進行監控。image

        • 資源範圍選擇了執行個體,同時監控指標選擇GPU維度指標,您可以選擇GPU ID,對單張或多張GPU卡進行監控。

          image

      • 閾值及警示層級:根據緊急、警告、普通層級,配置監控周期和閾值。

      • 警示方式:支援電話、簡訊、郵件和DingTalkWebHook等。

    3. 單擊確定

    通道沉默周期

    警示發生後如果未恢複正常,間隔多久重複發送一次警示通知。

    生效時間

    警示規則的生效時間。警示規則只在生效時間內才會檢查監控資料是否需要警示。

    警示連絡人群組

    發送警示的連絡人群組,選擇已綁定警示連絡人的警示組。

    標籤

    自訂設定警示規則的標籤。包括標籤名稱和標籤值。

    image

  5. PAI-分布式訓練(DLC)頁面,單擊查看警示規則,即可查看已建立的警示規則詳情、警示歷史等,並支援修改規則。

通過API配置警示通知

您可以通過調用API的方式,配置監控警示服務,功能包括查看警示歷史、管理警示模板、配置警示規則和警示連絡人等。具體調用方法和詳情介紹,請參見CloudMonitorAPI目錄:警示服務

訂閱監控指標

CloudMonitor提供完善的API服務,您可以通過調用API的方式,訂閱DLC的監控指標及資料,搭建自己的監控系統和資料大盤。具體操作步驟,請參見雲產品監控API目錄

CloudMonitorAPI

標題

API概述

DescribeMetricLast

查詢指定監控項的最新監控資料

調用DescribeMetricLast介面查詢指定監控項的最新監控資料。

DescribeMetricList

查詢指定雲產品的指定監控項的監控資料

調用DescribeMetricList介面查詢指定雲產品的指定監控項的監控資料。

DescribeMetricData

查詢指定雲產品的某個監控項的監控資料

調用DescribeMetricData介面查詢指定雲產品的某個監控項的監控資料。

DescribeMetricMetaList

查詢CloudMonitor開放的監控項詳情

調用DescribeMetricMetaList介面查詢CloudMonitor開放的監控項詳情。

DescribeProjectMeta

查詢CloudMonitor支援的時序類監控項產品列表

調用DescribeProjectMeta介面查詢CloudMonitor支援的時序類監控項產品列表。

DescribeMetricTop

查詢排序後的最新監控資料

調用DescribeMetricTop介面先查詢指定雲產品的指定監控項的最新監控資料,再查詢該監控項排序後的監控資料。

DescribeMetricList介面為例,為您說明如何調用該API來查詢PAI-分布式訓練(DLC)產品下指定指標的監控資料。

  1. 前往分布式訓練(DLC)指標列表頁面。

  2. 在指標列表頁面,單擊目標指標操作列下的擷取指標資料image

  3. 在OpenAPI門戶頁面,配置以下關鍵參數,其他參數取預設配置。更多參數配置說明,請參見DescribeMetricList

    參數

    描述

    Namespace

    配置為acs_pai_dlc。

    MetricName

    配置為對應的監控指標。例如CARD_GPU_DRAM_ACTIVE_UTIL。

    StartTime

    開始時間。例如2024-05-15 00:00:00。

    EndTime

    結束時間。例如2024-05-28 00:00:00。

    說明

    StartTime和EndTime之間的間隔小於等於31天。

  4. 參數配置完成後,單擊發起調用,即可查看相應時間的監控資料。