CloudMonitor通過安裝在阿里雲主機(ECS執行個體)上的CloudMonitor外掛程式,採集GPU的監控資料,您還可以為這些監控項設定警示規則。當某個監控項達到警示條件時,會給您發送警示通知,以便您及時關注其動態。
前提條件
請確保您已在Elastic Compute Service上建立GPU計算型執行個體,且已安裝GPU驅動。具體操作,請參見建立GPU執行個體。
說明如果您先安裝CloudMonitor外掛程式,再安裝GPU驅動,則需要重啟CloudMonitor外掛程式。關於如何重啟CloudMonitor外掛程式,請參見如何重啟CloudMonitorC++版本外掛程式?。
請確保您已在Elastic Compute Service上安裝CloudMonitor外掛程式。具體操作,請參見安裝CloudMonitor外掛程式。
監控項說明
您可以從GPU、執行個體和應用分組維度查看GPU相關監控項。GPU的監控項如下表所示。
監控項 | 單位 | MetricName | Dimensions |
(Agent)GPU維度解碼器使用率 | % | gpu_decoder_utilization | userId、instanceId、gpuId |
(Agent)GPU維度編碼器使用率 | % | gpu_encoder_utilization | userId、instanceId、gpuId |
(Agent)GPU維度GPU溫度 | ℃ | gpu_gpu_temperature | userId、instanceId、gpuId |
(Agent)GPU維度GPU使用率 | % | gpu_gpu_usedutilization | userId、instanceId、gpuId |
(Agent)GPU維度顯存空閑量 | Byte | gpu_memory_freespace | userId、instanceId、gpuId |
(Agent)GPU維度顯存空閑率 | % | gpu_memory_freeutilization | userId、instanceId、gpuId |
(Agent)GPU維度顯存使用量 | Byte | gpu_memory_usedspace | userId、instanceId、gpuId |
(Agent)GPU維度顯存使用率 | % | gpu_memory_usedutilization | userId、instanceId、gpuId |
(Agent)GPU維度GPU功率 | W | gpu_power_readings_power_draw | userId、instanceId、gpuId |
查看GPU的監控資料
在左側導覽列,選擇
。在主機監控頁面,單擊目標主機的執行個體名稱連結,或單擊目標主機對應操作列的監控圖表。
單擊GPU監控頁簽。