PAI-AI訓練任務支援通過CloudMonitor或ARMS進行監控與警示 - Platform For AI

分布式訓練（DLC）任務支援查看和監控資源狀況，提供詳細的監控指標，協助您掌握資源負載情況。通過監控警示功能，您可以即時監控DLC任務的資源水位，並配置警示規則和通知。如果資源水位出現波動，例如GPU使用率超過設定閾值，會發送警示通知。本文為您介紹如何通過CloudMonitor和ARMS查看監控資料、配置監控警示通知和訂閱監控指標等。

前提條件

設定DLC訓練任務的監控與警示，您需要先建立一個或多個DLC訓練任務。詳情請參見建立訓練任務。

使用限制

功能分類	支援的資源類型	支援的地區
DLC	靈駿智算資源	華北6（烏蘭察布）新加坡
DLC	通用計算資源	華北2（北京）華東2（上海）華東1（杭州）華南1（深圳）華北6（烏蘭察布）新加坡

操作帳號和許可權要求

阿里雲主帳號：使用該帳號可完成所有操作，無需額外授權。
RAM帳號：
- 當您需要查看某個工作空間相應DLC任務的監控資料時，您需要為RAM帳號添加以下許可權：
  - 將RAM使用者添加為工作空間成員，並賦予其管理員、演算法開發或演算法營運角色。詳情請參見管理工作空間成員。
  - 為RAM使用者添加唯讀訪問CloudMonitor的許可權（AliyunCloudMonitorReadOnlyAccess）。詳情請參見為RAM使用者授權。
- 當您需要查看某個工作空間相應DLC任務的監控資料，並配置監控警示通知時，您需要為RAM帳號添加以下許可權：
  - 將RAM使用者添加為工作空間成員，並賦予其管理員、演算法開發或演算法營運角色。詳情請參見管理工作空間成員。
  - 為RAM使用者添加管理CloudMonitor的許可權（AliyunCloudMonitorFullAccess）。詳情請參見為RAM使用者授權。

監控指標說明

監控指標主要包括CPU、記憶體、磁碟、網路、RDMA、CPFS，以及顯存使用率、算力使用率、SM裝置使用率等GPU相關指標。支援的維度有作業（任務）、Pod（Worker）和GPU單卡維度。下面是一些典型的健康指標，全量指標列表及細節說明請參見分布式訓練（DLC）指標列表。

作業（任務）維度

監控指標	描述
CPU使用率（作業維度）	指定作業的CPU使用百分比。
記憶體使用量率（作業維度）	指定作業的記憶體使用量百分比。
磁碟讀取資料量（作業維度）	指定作業的磁碟讀取資料量（MiB）。
磁碟寫入資料量（作業維度）	指定作業的磁碟寫入資料量（MiB）。
網路接收資料量（作業維度）	指定作業的網路接收資料量（MiB）。
網路發送資料量（作業維度）	指定作業的網路發送資料量（MiB）。
GPU算力使用率（作業維度）	指定作業的GPU算力使用率。
GPU顯存使用率（作業維度）	指定作業的GPU顯存使用率。
GPU SM裝置使用率（作業維度）	指定作業的GPU SM裝置使用率。
GPU裝置功耗（作業維度）	指定作業的GPU裝置功耗。
GPU溫度（作業維度）	指定作業的GPU溫度。
GPU整卡健康情況（作業維度）	指定作業的包含的GPU整體健康情況（100%為健康，低於100%則存在部分卡異常）。
RDMA接收資料量（作業維度）	指定作業的RDMA接收資料量。
RDMA發送資料量（作業維度）	指定作業的RDMA發送資料量。
CPFS寫入資料量（作業維度）	指定作業的CPFS裝置寫入資料量（MB）。
CPFS讀取資料量（作業維度）	指定作業的CPFS裝置讀取資料量（MB）。
NVLink接收資料量（作業維度）	指定作業的GPU裝置NVLink上的接收資料量。
NVLink發送資料量（作業維度）	指定作業的GPU裝置NVLink上的發送資料量。
PCIE接收資料量（作業維度）	指定作業的GPU裝置PCIE上的接收資料量。
PCIE發送資料量（作業維度）	指定作業的GPU裝置PCIE上的發送資料量。
更多指標，請參考分布式訓練（DLC）指標列表。

Pod（Worker）維度

監控指標	描述
CPU使用率（Pod維度）	指定Pod的CPU使用百分比。
記憶體使用量率（Pod維度）	指定Pod的記憶體使用量百分比。
磁碟讀取資料量（Pod維度）	指定Pod的磁碟讀取資料量（MiB）。
磁碟寫入資料量（Pod維度）	指定Pod的磁碟寫入資料量（MiB）。
網路接收資料量（Pod維度）	指定Pod的網路接收資料量（MiB）。
網路發送資料量（Pod維度）	指定Pod的網路發送資料量（MiB）。
GPU算力使用率（Pod維度）	指定Pod的GPU算力使用率。
GPU顯存使用率（Pod維度）	指定Pod的GPU顯存使用率。
GPU SM裝置使用率（Pod維度）	指定Pod的GPU SM裝置使用率。
GPU裝置功耗（Pod維度）	指定Pod的GPU裝置功耗。
GPU溫度（Pod維度）	指定Pod的GPU溫度。
GPU整卡健康情況（Pod維度）	指定Pod的包含的GPU整體健康情況（100%為健康，低於100%則存在部分卡異常）。
RDMA接收資料量（Pod維度）	指定Pod的RDMA接收資料量（MiB）。
RDMA發送資料量（Pod維度）	指定Pod的RDMA發送資料量（MiB）。
CPFS讀取資料量（Pod維度）	指定Pod的CPFS裝置讀取資料量（MiB）。
CPFS寫入資料量（Pod維度）	指定Pod的CPFS裝置寫入資料量（MiB）。
NVLink接收資料量（Pod維度）	指定Pod的GPU裝置NVLink上的接收資料量。
NVLink發送資料量（Pod維度）	指定Pod的GPU裝置NVLink上的發送資料量。
PCIE接收資料量（Pod維度）	指定Pod的GPU裝置PCIE上的接收資料量。
PCIE發送資料量（Pod維度）	指定Pod的GPU裝置PCIE上的發送資料量。
更多指標，請參考分布式訓練（DLC）指標列表。

GPU單卡維度

監控指標	描述
GPU顯存裝置介面使用率（卡維度）	指定Pod的單張/多張卡的GPU顯存裝置介面使用率。
GPU SM裝置使用率（卡維度）	指定Pod的單張/多張卡的GPU SM裝置使用率。
GPU裝置功耗（卡維度）	指定Pod的單張/多張卡的GPU裝置功耗。
GPU溫度（卡維度）	指定Pod的單張/多張卡的GPU裝置溫度。
GPU整卡健康情況（卡維度）	指定Pod的單張/多張卡的GPU整體健康情況（100%為健康，低於100%則存在部分卡異常）。
更多指標，請參考分布式訓練（DLC）指標列表。

使用CloudMonitor

CloudMonitor（CloudMonitor）是一項針對阿里雲資源和互連網應用進行監控的服務，為雲上使用者提供開箱即用的企業級開放型一站式監控解決方案。您可以登入CloudMonitor控制台，查看PAI-分布式訓練（DLC）任務監控資料，並設定警示通知。CloudMonitor還支援通過API訂閱指標資料，助您建立自己的監控系統和資料大盤。更多關於CloudMonitor的詳細介紹，請參見什麼是CloudMonitor。

計費說明

使用CloudMonitor服務會產生一定的費用，詳細的計費說明，請參見CloudMonitor計費說明。

查看監控資料

登入CloudMonitor控制台。
在左側導覽列，選擇可視化（Dashboard） > 雲產品大盤。
在雲產品大盤頁面，選擇PAI-分布式訓練（DLC），並在搜尋方塊內，選擇或搜尋工作空間ID，即可查看對應的監控圖表。如何查詢工作空間ID，請參見管理工作空間。在對應監控圖表中，可以進行以下操作：
- 切換監控維度：目前支援作業維度、POD（Worker）維度及GPU維度監控指標展示。
  - 單擊作業維度，您可以選擇或輸入DLC任務ID，查看單個任務的監控資料檢視。
  - 單擊POD維度，您可以選擇或輸入POD ID，查看單個POD的監控資料檢視。
  - 單擊GPU維度，您可以選擇或輸入POD ID，查看指定DLC任務單個POD的GPU維度監控資料檢視。
- 切換展示時間範圍：
- 放大視圖：您可以單擊每個圖表右上方的放大按鈕，查看監控資料的細節視圖。

配置監控警示

通過監控警示功能，您可以監控分布式訓練（DLC）任務的資源水位，並靈活地配置警示規則。如果資源水位出現波動，例如低於配置的警示規則時，則會發送警示通知。本章節為您介紹如何通過CloudMonitor控制台和API的方式，配置監控警示功能。

配置警示連絡人

登入CloudMonitor控制台。
在左側導覽列，選擇警示服務 > 警示連絡人。
在警示連絡人頁簽，單擊建立連絡人，填寫警示連絡人的姓名、手機號碼、郵箱或Webhook地址，並單擊確認。
在警示聯絡組頁簽，單擊建立連絡人群組，填寫警示連絡人群組的組名，並選擇已有警示連絡人，然後單擊確認。

配置警示規則

在CloudMonitor控制台的左側導覽列，選擇雲資源監控 > 雲產品監控。
在雲產品監控頁面，搜尋並進入PAI-分布式訓練（DLC）。
在PAI-分布式訓練（DLC）頁面，選擇服務所在的地區，並單擊建立警示規則。

在建立警示規則面板，配置下列參數，並單擊確認。

參數	描述
產品	CloudMonitor管理的產品名稱，選擇PAI-分布式訓練（DLC）。
資源範圍	警示規則的作用範圍，目前支援全部資源、執行個體（作業）：全部資源：DLC的任何資源滿足警示規則，都會發送警示通知。執行個體：根據您選定的產品，您需要在關聯資源中添加需要關聯的工作空間。僅添加的工作空間下的DLC作業滿足警示規則時，才發送警示通知。
規則描述	警示規則主體，當監控資料滿足指定條件時，觸發警示規則。規則描述的設定方法，請參見建立警示規則。
通道沉默周期	警示發生後如果未恢複正常，間隔多久重複發送一次警示通知。
生效時間	警示規則的生效時間。警示規則只在生效時間內才會檢查監控資料是否需要警示。
標籤	自訂設定警示規則的標籤。包括標籤名稱和標籤值。
警示連絡人群組	發送警示的連絡人群組，選擇已綁定警示連絡人的警示組。

在PAI-分布式訓練（DLC）頁面，單擊查看警示規則，查看已建立的警示規則詳情、警示歷史等，並支援修改規則。

您可以通過調用API的方式，配置監控警示服務，功能包括查看警示歷史、管理警示模板、配置警示規則和警示連絡人等。具體調用方法和詳情介紹，請參見CloudMonitorAPI目錄：警示服務。

訂閱監控指標

CloudMonitor提供完善的API服務，您可以通過調用API的方式，訂閱DLC的監控指標及資料，搭建監控系統和資料大盤。具體操作步驟，請參見雲產品監控API目錄。

CloudMonitorAPI	API概述
DescribeMetricLast	查詢指定監控項的最新監控資料。
DescribeMetricList	查詢指定雲產品的指定監控項的監控資料。
DescribeMetricData	查詢指定雲產品的某個監控項的監控資料。
DescribeMetricMetaList	查詢CloudMonitor開放的監控項詳情。
DescribeProjectMeta	查詢CloudMonitor支援的時序類監控項產品列表。
DescribeMetricTop	先查詢指定雲產品的指定監控項的最新監控資料，再查詢該監控項排序後的監控資料。

以DescribeMetricList介面為例，為您說明如何調用該API來查詢PAI-分布式訓練（DLC）產品下指定指標的監控資料。

前往分布式訓練（DLC）指標列表頁面。
在指標列表頁面，單擊目標指標操作列下的擷取指標資料。

在OpenAPI門戶頁面，配置以下關鍵參數，其他參數取預設配置。更多參數配置說明，請參見DescribeMetricList。

參數	描述
Namespace	配置為acs_pai_dlc。
MetricName	配置對應的監控指標。例如CARD_GPU_DRAM_ACTIVE_UTIL。
StartTime	開始時間。例如2024-05-15 00:00:00。
EndTime	結束時間。例如2024-05-28 00:00:00。說明 StartTime和EndTime之間的間隔小於等於31天。

參數配置完成後，單擊發起調用，即可查看相應時間的監控資料。

使用ARMS

應用即時監控服務ARMS（Application Real-Time Monitoring Service）是一款阿里雲雲原生可觀測產品平台。基於ARMS提供的能力，您可以自訂一套PAI-DLC分布式訓練服務的Grafana大盤，以及使用Prometheus配置靈活的警示規則，協助您全面詳細地監控DLC任務指標資料。關於ARMS更詳細的內容介紹，請參見應用即時監控服務ARMS。

計費說明

使用ARMS服務會產生一定的費用，詳細的計費說明，請參見ARMS計費說明。

接入監控資料

具體操作步驟如下：

登入ARMS控制台，然後在左側導覽列，單擊接入中心。
在接入中心頁面，單擊左側人工智慧頁簽，然後單擊阿里雲 PAI-DLC分布式訓練服務。
在彈出面板的開始接入頁簽，選擇資料存放區地區並配置接入名稱，然後單擊確定。
大約需要等待1~2分鐘，即可完成PAI-DLC分布式訓練服務的接入。您也可以切換到效果預覽、採集指標及警示規則模板頁簽，分別查看指標監控大盤、支援採集的指標以及警示規則名稱和模板詳情。
安裝完成後，您可以單擊接入管理，查看已接入環境的詳細資料。

查看Grafana大盤

登入ARMS控制台，在左側導覽列選擇接入管理，並在已接入環境>雲端服務地區環境頁簽，單擊環境名稱。
在組件管理頁簽的組件類型地區，選擇阿里雲PAI-DLC分布式訓練服務，並單擊右側的大盤，即可查看內建的Grafana大盤。
單擊大盤名稱，查看監控大盤。

配置Prometheus警示

您可以通過Prometheus配置監控警示，具體操作步驟如下：

登入ARMS控制台，在左側導覽列選擇接入管理，並在已接入環境>雲端服務地區環境頁簽，單擊環境名稱。
在組件管理的組件類型列表中，選擇阿里雲PAI-DLC分布式訓練服務並單擊警示規則，即可查看內建的警示規則。
內建的警示規則會產生警示事件，但是不會進行警示通知，您可以通過以下兩種配置方法將警示通知發送到郵件或其他平台：
- 通過設定通知策略，制定針對警示事件的匹配規則。當匹配規則被觸發時，系統會以您指定的通知方式向通知對象發送警示資訊。具體操作，請參見通知策略。
- 通過編輯警示規則配置通知方式。在編輯Prometheus警示規則頁面，您也可以自訂警示條件、期間、警示內容以及警示通知等。有關警示詳細配置的資訊，請參見建立Prometheus警示規則。