全部產品
Search
文件中心

Hologres:CloudMonitor

更新時間:Dec 13, 2024

CloudMonitor為您提供企業級開放型一站式監控解決方案。Hologres已經接入CloudMonitor的雲端服務監控,方便您通過CloudMonitor全面瞭解Hologres執行個體的資源使用、業務運行及健康情況,及時收到異常警示並做出響應,保證應用程式運行順暢。本文為您介紹如何通過CloudMonitor監測Hologres執行個體的相關指標並上報警示。

前提條件

已開通Hologres,詳情請參見購買Hologres

使用建議

目前CloudMonitor已經支援按照Hologres執行個體類型(包括即時數倉Hologres(從執行個體)即時數倉Hologres(湖倉加速)即時數倉Hologres(通用型)即時數倉Hologres(計算群組))展示對應執行個體的監控指標,不同的執行個體類型對應專屬監控指標,以便更好的監控業務異常並處理,建議將即時數倉Hologres的監控切換為對應執行個體類型下的監控,以獲得更好的監控體驗。

CloudMonitor指標

當前CloudMonitor支援的Hologres執行個體監控指標詳情,請參見Hologres管控台的監控指標。更多有關CloudMonitor資訊

查看監控指標

您可以直接登入CloudMonitor控制台查看。

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,單擊雲產品監控

  3. 巨量資料(數加)地區,單擊目標執行個體類型(即時數倉Hologres(從執行個體)、即時數倉Hologres(湖倉加速)、即時數倉Hologres(通用型)或即時數倉Hologres(計算群組)),進入Hologres監控大盤。

  4. 單擊地區後的地區表徵圖,選擇目標地區。

  5. 單擊目標執行個體ID或操作列的監控圖表,查看執行個體相關指標的狀態。image

    說明

    您可以自訂查看執行個體指標的時間段,監控資料最多保留30天。

監控警示實踐

一鍵警示

Hologres支援您在CloudMonitor中開啟一鍵警示功能,為所有執行個體設定預設的警示規則,開啟後,會建立CPU使用率、磁碟使用率、記憶體使用量率、串連數等相關警示規則,作用於阿里雲帳號(主帳號)下的所有Hologres執行個體,方便對多個常見的重要指標進行異常警示,快速發現問題。預設警示規則包括:

  • 如果串連數使用率(Info)連續3次平均值>=95就通知,通知對象為雲帳號警示連絡人

  • 如果儲存水位(Warn)連續3次平均值>90就通知,通知對象為雲帳號警示連絡人

  • 如果記憶體水位(Warn)連續3次平均值>=90就通知,通知對象為雲帳號警示連絡人

  • 如果CPU水位(Info)連續3次平均值>=99就通知,通知對象為雲帳號警示連絡人

說明

預設每次警示的周期為5分鐘,可自訂設定。

建立警示規則

除預設的一鍵警示外,您還可以根據業務情況,對更多的監控指標設定警示,操作詳情如下:

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇警示服務 > 警示規則

  3. 警示規則頁面,單擊建立警示規則,根據提示設定警示資訊。具體操作,請參見建立警示規則

警示設定最佳實務

Hologres對於不同監控指標,推薦設定的警示如下:

執行個體CPU使用率(%)

該指標反映了Hologres的資源是否存在瓶頸,也反映了您的資源使用是否充分。推薦的警示如下:

  • 警示規則:

    • 緊急(Critical):“執行個體CPU使用率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測叢集的資源水位,長期打滿需要擴容。

    • 警告(Warn):“執行個體CPU使用率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致CPU打滿。

  • 不建議出現一次執行個體CPU使用率達到100%就警示。短時間內的CPU使用率達到100%並不表示系統過載或異常,而是代表了高效的資源利用。

  • 不建議CPU的警示水位設定過低。因為沒有任務運行時,也可能有系統組件在運行,會佔用一定資源。

Worker節點CPU使用率(%

該指標反映了Hologres中每個Worker資源是否存在瓶頸,也反映了資源使用是否充分。推薦警示如下:

  • 警示規則

    • 緊急(Critical):“Worker節點CPU使用率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測每個Worker的資源水位,長期打滿需要擴容。

    • 警告(Warn):“Worker節點CPU使用率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致CPU打滿。

  • 不推薦出現一次Worker節點CPU使用率達到100%就警示。短時間內的CPU使用率達到100%並不表示系統過載或異常,而是代表了高效的資源利用。

  • 不推薦CPU的警示水位設定過低,因為沒有任務運行時,也可能有系統組件在運行,會佔用一定資源。

執行個體記憶體使用量率(%)

該指標反映了執行個體的記憶體使用量情況。推薦的警示如下:

  • 警示規則

    • 緊急(Critical):“執行個體記憶體使用量率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測叢集的記憶體水位,長期打滿建議擴容。

    • 警告(Warn):“執行個體記憶體使用量率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致記憶體打滿。

  • 不推薦記憶體指標的警示水位設定過低。因為記憶體不僅用於Query運行,也用於Meta、Cache等部分,在執行個體任務空閑時也有一定的記憶體使用量。

Worker節點記憶體使用量率(%)

該指標反映了Worker的記憶體使用量情況。推薦的警示如下:

  • 警示規則

    • 緊急(Critical):“Worker節點記憶體使用量率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測叢集的記憶體水位,長期打滿建議擴容。

    • 警告(Warn):“Worker節點記憶體使用量率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致記憶體打滿。

  • 不推薦記憶體指標的警示水位設定過低,因為記憶體不僅用於Query運行,也用於Meta、Cache等部分,在執行個體任務空閑時也有一定的記憶體使用量。

串連數使用率最高的FE的串連數使用率(%

該指標反映了當前每個FE的串連數使用率最大值。推薦的警示規則如下:

警告(Warn):“串連數使用率最高的FE的串連數使用率連續5個周期(1周期=1分鐘),監控值>=95%”,可以有效監測叢集的串連數使用方式,及時清理空閑串連。

wal sender使用率最高的FE的wal sender使用率(%)

該指標反映了當前每個FE的Walsender使用率最大值。推薦的警示規則如下:

警告(Warn):“wal sender使用率最高的FE的wal sender使用率連續5個周期(1周期=1分鐘),監控值>=95%”,可以有效監測叢集的Walsender使用方式。

本執行個體正在運行中Query最長的時間長度(milliseconds)

該指標可以有效監測執行個體中當前時刻是否有長時間啟動並執行Query。推薦的警示規則如下:

警告(Warn):“本執行個體正在運行中Query最長的時間長度連續10個周期(1周期=1分鐘),監控值>=3600000milliseconds”。

正在啟動並執行 Serverless Computing 的查詢中,最長的時間長度(milliseconds)

該指標可以有效監測Serverless叢集中的任務運行情況,如果已耗用時間過長,可以及時取消相關任務。推薦的警示規則如下:

警告(Warn):“正在啟動並執行Serverless Computing的查詢中,最長的時間長度連續10個周期(1周期=1分鐘),監控值>=3600000milliseconds”。

失敗Query QPS(countS)

該指標反映了執行個體中運行Query的失敗情況,可以針對失敗Query設定警示,方便及時瞭解執行個體中Query運行情況。推薦的警示規則如下:

警告(Warn):“失敗Query QPS中,連續10個周期(1周期=1分鐘),監控值>=10countS”。如果執行個體中失敗Query較多,建議根據慢Query日誌查看詳情失敗詳情,並針對性治理。

FE replay延遲(milliseconds

該指標反映了每個FE的replay時間,如果時間過長,說明replay慢,可能原因為FE卡住,導致Query卡住,需要及時處理。推薦的警示如下:

  • 警示規則

    警告(Warn):“FE replay延遲連續10個周期(1周期=1分鐘),監控值>=300000milliseconds”,出現警示時,前往HoloWeb活躍Query查看是否有長時間啟動並執行Query,並嘗試取消Query。

  • 不推薦FE replay延遲設定的時間過短。因為執行個體中有中繼資料的修改就有FE的replay,通常情況下,FE的replay時間在秒級都屬於正常現象。

主從同步延遲(milliseconds)

該指標僅在從執行個體中展示,反映了主從同步的延遲情況,推薦的警示規則如下:

警告(Warn):“主從同步延遲連續10個周期(1周期=1分鐘),監控值>=600000milliseconds”。

每個DB統計資訊缺失的表個數(countS)

該指標反映了Auto Analyze的品質,如果長時間存在缺失統計資訊的表,可以對錶手動執行Analyze命令,詳情請參見ANALYZE和AUTO ANALYZE。推薦的警示如下:

  • 警示規則

    警告(Warn):“每個DB統計資訊缺失的表個數連續60個周期(1周期=1分鐘),監控值>=10countS”。

  • 不建議監控值設定過低。因為執行個體中表數量太多時,也會導致Auto Analyze執行速度降低。

常見監控問題排查

當監控指標出現不符合業務預期的波動,或者出現警示時,可以通過監控指標常見問題排查監控指標的問題並處理。

API方式訪問監控指標

除了CloudMonitor控制台,CloudMonitor也提供自訂監控大盤、API等方式訪問監控指標,以便業務能夠更加靈活地訪問監控。其中:

授予RAM使用者CloudMonitor查看許可權

預設情況下,RAM使用者無法查看CloudMonitor的指標資訊。此時需要您對該RAM使用者授予CloudMonitor查看許可權。

您可使用阿里雲帳號(主帳號)登入RAM控制台,為RAM使用者授予如下許可權,授權方法請參見為RAM使用者授權

說明

您也可根據需求自行選擇許可權。

許可權名稱

許可權功能描述

AliyunCloudMonitorFullAccess

管理CloudMonitor(CloudMonitor)的許可權。

AliyunCloudMonitorReadOnlyAccess

唯讀訪問CloudMonitor(CloudMonitor)的許可權。

AliyunCloudMonitorMetricDataReadOnlyAccess

訪問CloudMonitor(CloudMonitor)時序指標資料的許可權。