分布式訓練(DLC)任務支援查看並監控資源狀況,並且提供了全面詳細的監控指標,協助您更好地掌握資源負載情況。通過監控警示功能,您可以對DLC訓練任務的資源水位進行即時監控,並靈活地配置警示規則和警示通知。如果資源水位出現波動,例如GPU使用率超過設定閾值,則會發送警示通知。本文為您介紹如何通過CloudMonitor和ARMS查看監控資料、配置監控警示通知、訂閱監控指標等。
前提條件
設定DLC訓練任務的監控與警示,您需要先建立一個或多個DLC訓練任務。詳情請參見建立訓練任務。
使用限制
功能分類 | 支援的資源類型 | 支援的地區 |
DLC | 靈駿智算資源 |
|
通用計算資源 |
|
操作帳號和許可權要求
阿里雲主帳號:使用該帳號可完成所有操作,無需額外授權。
RAM帳號:
當您需要查看某個工作空間相應DLC任務的監控資料時,您需要為RAM帳號添加以下許可權:
當您需要查看某個工作空間相應DLC任務的監控資料,並配置監控警示通知時,您需要為RAM帳號添加以下許可權:
監控指標說明
監控指標主要包括CPU、記憶體、磁碟、網路、RDMA、CPFS,以及GPU相關指標,如顯存使用率、算力使用率、SM裝置使用率、PCIE及NVLink接收/發送資料量等。當前維度主要支援:作業(任務)維度、Pod(Worker)維度和GPU單卡維度。下面是一些典型的健康指標,全量指標列表及細節說明請參見分布式訓練(DLC)指標列表。
作業(任務)維度
監控指標 | 描述 |
CPU使用率(作業維度) | 指定作業的CPU使用百分比。 |
記憶體使用量率(作業維度) | 指定作業的記憶體使用量百分比。 |
磁碟讀取資料量(作業維度) | 指定作業的磁碟讀取資料量(MiB)。 |
磁碟寫入資料量(作業維度) | 指定作業的磁碟寫入資料量(MiB)。 |
網路接收資料量(作業維度) | 指定作業的網路接收資料量(MiB)。 |
網路發送資料量(作業維度) | 指定作業的網路發送資料量(MiB)。 |
GPU算力使用率(作業維度) | 指定作業的GPU算力使用率。 |
GPU顯存使用率(作業維度) | 指定作業的GPU顯存使用率。 |
GPU SM裝置使用率(作業維度) | 指定作業的GPU SM裝置使用率。 |
GPU裝置功耗(作業維度) | 指定作業的GPU裝置功耗。 |
GPU溫度(作業維度) | 指定作業的GPU溫度。 |
GPU整卡健康情況(作業維度) | 指定作業的包含的GPU整體健康情況(100%為健康,低於100%則存在部分卡異常)。 |
RDMA接收資料量(作業維度) | 指定作業的RDMA接收資料量。 |
RDMA發送資料量(作業維度) | 指定作業的RDMA發送資料量。 |
CPFS寫入資料量(作業維度) | 指定作業的CPFS裝置寫入資料量(MB)。 |
CPFS讀取資料量(作業維度) | 指定作業的CPFS裝置讀取資料量(MB)。 |
NVLink接收資料量(作業維度) | 指定作業的GPU裝置NVLink上的接收資料量。 |
NVLink發送資料量(作業維度) | 指定作業的GPU裝置NVLink上的發送資料量。 |
PCIE接收資料量(作業維度) | 指定作業的GPU裝置PCIE上的接收資料量。 |
PCIE發送資料量(作業維度) | 指定作業的GPU裝置PCIE上的發送資料量。 |
更多指標,請參考分布式訓練(DLC)指標列表。 |
GPU單卡維度
監控指標 | 描述 |
GPU顯存裝置介面使用率(卡維度) | 指定Pod的單張/多張卡的GPU顯存裝置介面使用率。 |
GPU SM裝置使用率(卡維度) | 指定Pod的單張/多張卡的GPU SM裝置使用率。 |
GPU裝置功耗(卡維度) | 指定Pod的單張/多張卡的GPU裝置功耗。 |
GPU溫度(卡維度) | 指定Pod的單張/多張卡的GPU裝置溫度。 |
GPU整卡健康情況(卡維度) | 指定Pod的單張/多張卡的GPU整體健康情況(100%為健康,低於100%則存在部分卡異常)。 |
更多指標,請參考分布式訓練(DLC)指標列表。 |
Pod(Worker)維度
監控指標 | 描述 |
CPU使用率(Pod維度) | 指定Pod的CPU使用百分比。 |
記憶體使用量率(Pod維度) | 指定Pod的記憶體使用量百分比。 |
磁碟讀取資料量(Pod維度) | 指定Pod的磁碟讀取資料量(MiB)。 |
磁碟寫入資料量(Pod維度) | 指定Pod的磁碟寫入資料量(MiB)。 |
網路接收資料量(Pod維度) | 指定Pod的網路接收資料量(MiB)。 |
網路發送資料量(Pod維度) | 指定Pod的網路發送資料量(MiB)。 |
GPU算力使用率(Pod維度) | 指定Pod的GPU算力使用率。 |
GPU顯存使用率(Pod維度) | 指定Pod的GPU顯存使用率。 |
GPU SM裝置使用率(Pod維度) | 指定Pod的GPU SM裝置使用率。 |
GPU裝置功耗(Pod維度) | 指定Pod的GPU裝置功耗。 |
GPU溫度(Pod維度) | 指定Pod的GPU溫度。 |
GPU整卡健康情況(Pod維度) | 指定Pod的包含的GPU整體健康情況(100%為健康,低於100%則存在部分卡異常)。 |
RDMA接收資料量(Pod維度) | 指定Pod的RDMA接收資料量(MiB)。 |
RDMA發送資料量(Pod維度) | 指定Pod的RDMA發送資料量(MiB)。 |
CPFS讀取資料量(Pod維度) | 指定Pod的CPFS裝置讀取資料量(MiB)。 |
CPFS寫入資料量(Pod維度) | 指定Pod的CPFS裝置寫入資料量(MiB)。 |
NVLink接收資料量(Pod維度) | 指定Pod的GPU裝置NVLink上的接收資料量。 |
NVLink發送資料量(Pod維度) | 指定Pod的GPU裝置NVLink上的發送資料量。 |
PCIE接收資料量(Pod維度) | 指定Pod的GPU裝置PCIE上的接收資料量。 |
PCIE發送資料量(Pod維度) | 指定Pod的GPU裝置PCIE上的發送資料量。 |
更多指標,請參考分布式訓練(DLC)指標列表。 |
使用CloudMonitor
CloudMonitor(CloudMonitor)是一項針對阿里雲資源和互連網應用進行監控的服務,為雲上使用者提供開箱即用的企業級開放型一站式監控解決方案。您可以登入CloudMonitor控制台,查看PAI-分布式訓練(DLC)任務監控資料,並設定警示通知。CloudMonitor還支援通過API訂閱指標資料,助您建立自己的監控系統和資料大盤。更多關於CloudMonitor的詳細介紹,請參見什麼是CloudMonitor。
計費說明
使用CloudMonitor服務會產生一定的費用,詳細的計費說明,請參見CloudMonitor計費說明。
查看監控資料
在左側導覽列,選擇
。在雲產品大盤頁面,選擇PAI-分布式訓練(DLC)。在搜尋方塊內,選擇或搜尋工作空間ID,該工作空間中DLC任務對應的監控圖表會在頁面下方展示。如何查詢工作空間ID,請參見管理工作空間。在對應監控圖表中,可以進行以下操作:
切換監控維度:目前支援作業維度、POD(Worker)維度及GPU維度監控指標展示。
單擊作業維度,您可以選擇或輸入DLC任務ID,查看單個任務的監控資料檢視。
單擊POD維度,您可以選擇或輸入POD ID,查看單個POD的監控資料檢視。
單擊GPU維度,您可以選擇或輸入POD ID,查看指定DLC任務單個POD的GPU維度監控資料檢視。
切換展示時間範圍:
放大視圖:您可以單擊每個圖表右上方的放大按鈕,查看監控資料的細節視圖。
配置監控警示
通過監控警示功能,您可以監控分布式訓練(DLC)任務的資源水位,並靈活地配置警示規則。如果資源水位出現波動,例如低於配置的警示規則時,則會發送警示通知。本章節為您介紹如何通過CloudMonitor控制台和API的方式,配置監控警示功能。
配置警示連絡人
建立警示連絡人。
在左側導覽列,選擇 。
在警示連絡人頁簽,單擊建立連絡人。
在設定警示連絡人面板,填寫警示連絡人的姓名、郵箱和Webhook地址,其他參數均保持預設值。
說明警示通知資訊語言預設為自動,表示CloudMonitor根據當前阿里雲帳號註冊時的語言,自動適配警示通知資訊的語言。
資訊驗證無誤後,單擊確認。
建立警示聯絡組。
在左側導覽列,選擇 。
單擊警示聯絡組頁簽。
在警示聯絡組頁簽,單擊建立連絡人群組。
在建立連絡人群組面板,填寫警示連絡人群組的組名,並選擇已有警示連絡人。
單擊確認。
配置警示規則
在CloudMonitor控制台的左側導覽列,選擇 。
在雲產品監控頁面,搜尋並進入PAI-分布式訓練(DLC)。
在PAI-分布式訓練(DLC)頁面,選擇服務所在的地區,並單擊建立警示規則。
在建立警示規則面板,配置下列參數,並單擊確認。
參數
描述
產品
CloudMonitor管理的產品名稱,選擇PAI-分布式訓練(DLC)。
資源範圍
警示規則的作用範圍,目前支援全部資源、執行個體(作業):
全部資源:DLC的任何資源滿足警示規則,都會發送警示通知。
執行個體:根據您選定的產品,您需要在關聯資源中添加需要關聯的工作空間。僅添加的工作空間下的DLC作業滿足警示規則時,才發送警示通知。
規則描述
警示規則主體,當監控資料滿足指定條件時,觸發警示規則。規則描述的設定方法,請參見建立警示規則。
通道沉默周期
警示發生後如果未恢複正常,間隔多久重複發送一次警示通知。
生效時間
警示規則的生效時間。警示規則只在生效時間內才會檢查監控資料是否需要警示。
標籤
自訂設定警示規則的標籤。包括標籤名稱和標籤值。
警示連絡人群組
發送警示的連絡人群組,選擇已綁定警示連絡人的警示組。
在PAI-分布式訓練(DLC)頁面,單擊查看警示規則,即可查看已建立的警示規則詳情、警示歷史等,並支援修改規則。
您可以通過調用API的方式,配置監控警示服務,功能包括查看警示歷史、管理警示模板、配置警示規則和警示連絡人等。具體調用方法和詳情介紹,請參見CloudMonitorAPI目錄:警示服務。
訂閱監控指標
CloudMonitor提供完善的API服務,您可以通過調用API的方式,訂閱DLC的監控指標及資料,搭建自己的監控系統和資料大盤。具體操作步驟,請參見雲產品監控API目錄。
CloudMonitorAPI | API概述 |
調用DescribeMetricLast介面查詢指定監控項的最新監控資料。 | |
調用DescribeMetricList介面查詢指定雲產品的指定監控項的監控資料。 | |
調用DescribeMetricData介面查詢指定雲產品的某個監控項的監控資料。 | |
調用DescribeMetricMetaList介面查詢CloudMonitor開放的監控項詳情。 | |
調用DescribeProjectMeta介面查詢CloudMonitor支援的時序類監控項產品列表。 | |
調用DescribeMetricTop介面先查詢指定雲產品的指定監控項的最新監控資料,再查詢該監控項排序後的監控資料。 |
以DescribeMetricList介面為例,為您說明如何調用該API來查詢PAI-分布式訓練(DLC)產品下指定指標的監控資料。
前往分布式訓練(DLC)指標列表頁面。
在指標列表頁面,單擊目標指標操作列下的擷取指標資料。
在OpenAPI門戶頁面,配置以下關鍵參數,其他參數取預設配置。更多參數配置說明,請參見DescribeMetricList。
參數
描述
Namespace
配置為acs_pai_dlc。
MetricName
配置對應的監控指標。例如CARD_GPU_DRAM_ACTIVE_UTIL。
StartTime
開始時間。例如2024-05-15 00:00:00。
EndTime
結束時間。例如2024-05-28 00:00:00。
說明StartTime和EndTime之間的間隔小於等於31天。
參數配置完成後,單擊發起調用,即可查看相應時間的監控資料。
使用ARMS
應用即時監控服務ARMS(Application Real-Time Monitoring Service)是一款阿里雲雲原生可觀測產品平台。基於ARMS提供的能力,您可以自訂一套PAI-DLC分布式訓練服務的Grafana大盤,以及使用Prometheus配置靈活的警示規則,協助您全面詳細地監控DLC任務指標資料。關於ARMS更詳細的內容介紹,請參見應用即時監控服務ARMS。
計費說明
使用ARMS服務會產生一定的費用,詳細的計費說明,請參見ARMS計費說明。
接入監控資料
具體操作步驟如下:
登入ARMS控制台,然後在左側導覽列,單擊接入中心。
在接入中心頁面,單擊左側人工智慧頁簽,然後單擊阿里雲 PAI-DLC分布式訓練服務。
在彈出面板的開始接入頁簽,選擇資料存放區地區並配置接入名稱,然後單擊確定。
大約需要等待1~2分鐘,即可完成PAI-DLC分布式訓練服務的接入。您也可以切換到效果預覽、採集指標及警示規則模板頁簽,分別查看指標監控大盤、支援採集的指標以及警示規則名稱和模板詳情。
安裝完成後,您可以單擊接入管理,查看已接入環境的詳細資料。
查看Grafana大盤
進入雲端服務環境詳情頁面。具體操作,請參見步驟二:查看監控大盤。
在組件管理頁簽的組件類型地區,選擇阿里雲PAI-DLC分布式訓練服務,並單擊右側的大盤,即可查看內建的Grafana大盤。
單擊大盤名稱,查看監控大盤。
配置Prometheus警示
您可以通過Prometheus配置監控警示,具體操作步驟如下:
進入雲端服務環境詳情頁面。具體操作,請參見步驟二:查看監控大盤。
在組件管理的組件類型列表中,選擇阿里雲PAI-DLC分布式訓練服務並單擊警示規則,即可查看內建的警示規則。
內建的警示規則會產生警示事件,但是不會進行警示通知,您可以通過以下兩種配置方法將警示通知發送到郵件或其他平台:
通過設定通知策略,制定針對警示事件的匹配規則。當匹配規則被觸發時,系統會以您指定的通知方式向通知對象發送警示資訊。具體操作,請參見通知策略。
通過編輯警示規則配置通知方式。在編輯Prometheus警示規則頁面,您也可以自訂警示條件、期間、警示內容以及警示通知等。有關警示詳細配置的資訊,請參見Prometheus警示規則。