全部產品
Search
文件中心

CloudMonitor:GPU監控

更新時間:Jun 19, 2024

CloudMonitor通過安裝在阿里雲主機(ECS執行個體)上的CloudMonitor外掛程式,採集GPU的監控資料,您還可以為這些監控項設定警示規則。當某個監控項達到警示條件時,會給您發送警示通知,以便您及時關注其動態。

前提條件

  • 請確保您已在Elastic Compute Service上建立GPU計算型執行個體,且已安裝GPU驅動。具體操作,請參見建立GPU執行個體

    說明

    如果您先安裝CloudMonitor外掛程式,再安裝GPU驅動,則需要重啟CloudMonitor外掛程式。關於如何重啟CloudMonitor外掛程式,請參見如何重啟CloudMonitorC++版本外掛程式?

  • 請確保您已在Elastic Compute Service上安裝CloudMonitor外掛程式。具體操作,請參見安裝CloudMonitor外掛程式

監控項說明

您可以從GPU、執行個體和應用分組維度查看GPU相關監控項。GPU的監控項如下表所示。

監控項

單位

MetricName

Dimensions

(Agent)GPU維度解碼器使用率

%

gpu_decoder_utilization

userId、instanceId、gpuId

(Agent)GPU維度編碼器使用率

%

gpu_encoder_utilization

userId、instanceId、gpuId

(Agent)GPU維度GPU溫度

gpu_gpu_temperature

userId、instanceId、gpuId

(Agent)GPU維度GPU使用率

%

gpu_gpu_usedutilization

userId、instanceId、gpuId

(Agent)GPU維度顯存空閑量

Byte

gpu_memory_freespace

userId、instanceId、gpuId

(Agent)GPU維度顯存空閑率

%

gpu_memory_freeutilization

userId、instanceId、gpuId

(Agent)GPU維度顯存使用量

Byte

gpu_memory_usedspace

userId、instanceId、gpuId

(Agent)GPU維度顯存使用率

%

gpu_memory_usedutilization

userId、instanceId、gpuId

(Agent)GPU維度GPU功率

W

gpu_power_readings_power_draw

userId、instanceId、gpuId

查看GPU的監控資料

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇雲資源監控 > 主機監控

  3. 主機監控頁面,單擊目標主機的執行個體名稱連結,或單擊目標主機對應操作列的監控圖表

  4. 單擊GPU監控頁簽。

    GPU監控頁簽,查看GPU相關監控圖表。

    您可以查看目標主機的GPU監控資料,還可以為目標GPU監控的監控指標設定警示規則,並查看警示。具體操作,請參見為主機建立警示規則查看警示

相關文檔