如何配置CloudMonitor監測Hologres執行個體的警示規則 - Hologres

CloudMonitor為您提供企業級開放型一站式監控解決方案。Hologres已經接入CloudMonitor的雲端服務監控，方便您通過CloudMonitor全面瞭解Hologres執行個體的資源使用、業務運行及健康情況，及時收到異常警示並做出響應，保證應用程式運行順暢。本文為您介紹如何通過CloudMonitor監測Hologres執行個體的相關指標並上報警示。

前提條件

已開通購買Hologres執行個體。

使用建議

目前CloudMonitor已經支援按照Hologres執行個體類型（包括即時數倉Hologres（從執行個體）、即時數倉Hologres（湖倉加速）、即時數倉Hologres（通用型）、即時數倉Hologres（計算群組））展示對應執行個體的監控指標，不同的執行個體類型對應專屬監控指標，以便更好的監控業務異常並處理，建議將實時數倉Hologres的監控切換為對應執行個體類型下的監控，以獲得更好的監控體驗。

CloudMonitor指標

當前CloudMonitor支援的Hologres執行個體監控指標詳情，更多有關CloudMonitor資訊請參見Hologres管控台的監控指標。

查看監控指標

您可以直接登入CloudMonitor控制台查看。

登入CloudMonitor控制台。
在左側導覽列，單擊雲產品監控。
在巨量資料計算地區，單擊目標執行個體類型（即時數倉Hologres（從執行個體）、即時數倉Hologres（湖倉加速）、即時數倉Hologres（通用型）或即時數倉Hologres（計算群組）），進入Hologres監控大盤。
單擊地區後的表徵圖，選擇目標地區。
單擊目標執行個體ID或操作列的監控圖表，查看執行個體相關指標的狀態。

說明
您可以自訂查看執行個體指標的時間段，監控資料最多保留30天。

監控警示實踐

一鍵警示

Hologres支援您在CloudMonitor中開啟一鍵警示功能，為所有執行個體設定預設的警示規則，開啟後，會建立CPU使用率、磁碟使用率、記憶體使用量率、串連數等相關警示規則，作用於阿里雲帳號（主帳號）下的所有Hologres執行個體，方便對多個常見的重要指標進行異常警示，快速發現問題。預設警示規則包括：

如果串連數使用率（Info）連續3次平均值>=95就通知，通知對象為雲帳號警示連絡人。
如果儲存水位（Warn）連續3次平均值>90就通知，通知對象為雲帳號警示連絡人。
如果記憶體水位（Warn）連續3次平均值>=90就通知，通知對象為雲帳號警示連絡人。
如果CPU水位（Info）連續3次平均值>=99就通知，通知對象為雲帳號警示連絡人。

說明

預設每次警示的周期為5分鐘，可自訂設定。

建立警示規則

除預設的一鍵警示外，您還可以根據業務情況，對更多的監控指標設定警示，操作詳情如下：

登入CloudMonitor控制台。
在左側導覽列，選擇警示服務 > 警示規則。
在警示規則頁面，單擊建立警示規則，根據提示設定警示資訊。具體操作，請參見建立警示規則。

警示設定最佳實務

Hologres對於不同監控指標，推薦設定的警示如下：

執行個體CPU使用率（%）

該指標反映了Hologres的資源是否存在瓶頸，也反映了您的資源使用是否充分。推薦的警示如下：

警示規則：
- 緊急（Critical）：“執行個體CPU使用率連續60個周期（1周期=1分鐘），監控值>=99%”，有效監測叢集的資源水位，長期打滿需要擴容。
- 警告（Warn）：“執行個體CPU使用率連續10個周期（1周期=1分鐘），監控值>=99%”，可以及時觀測是否因為業務變動導致CPU打滿。
不建議出現一次執行個體CPU使用率達到100%就警示。短時間內的CPU使用率達到100%並不表示系統過載或異常，而是代表了高效的資源利用。

不建議CPU的警示水位設定過低。因為沒有任務運行時，也可能有系統組件在運行，會佔用一定資源。

Worker節點CPU使用率（%）

該指標反映了Hologres中每個Worker資源是否存在瓶頸，也反映了資源使用是否充分。推薦警示如下：

警示規則
- 緊急（Critical）：“Worker節點CPU使用率連續60個周期（1周期=1分鐘），監控值>=99%”，有效監測每個Worker的資源水位，長期打滿需要擴容。
- 警告（Warn）：“Worker節點CPU使用率連續10個周期（1周期=1分鐘），監控值>=99%”，可以及時觀測是否因為業務變動導致CPU打滿。
不推薦出現一次Worker節點CPU使用率達到100%就警示。短時間內的CPU使用率達到100%並不表示系統過載或異常，而是代表了高效的資源利用。
不推薦CPU的警示水位設定過低，因為沒有任務運行時，也可能有系統組件在運行，會佔用一定資源。

執行個體記憶體使用量率（%）

該指標反映了執行個體的記憶體使用量情況。推薦的警示如下：

警示規則
- 緊急（Critical）：“執行個體記憶體使用量率連續60個周期（1周期=1分鐘），監控值>=99%”，有效監測叢集的記憶體水位，長期打滿建議擴容。
- 警告（Warn）：“執行個體記憶體使用量率連續10個周期（1周期=1分鐘），監控值>=99%”，可以及時觀測是否因為業務變動導致記憶體打滿。
不推薦記憶體指標的警示水位設定過低。因為記憶體不僅用於Query運行，也用於Meta、Cache等部分，在執行個體任務空閑時也有一定的記憶體使用量。

Worker節點記憶體使用量率（%）

該指標反映了Worker的記憶體使用量情況。推薦的警示如下：

警示規則
- 緊急（Critical）：“Worker節點記憶體使用量率連續60個周期（1周期=1分鐘），監控值>=99%”，有效監測叢集的記憶體水位，長期打滿建議擴容。
- 警告（Warn）：“Worker節點記憶體使用量率連續10個周期（1周期=1分鐘），監控值>=99%”，可以及時觀測是否因為業務變動導致記憶體打滿。
不推薦記憶體指標的警示水位設定過低，因為記憶體不僅用於Query運行，也用於Meta、Cache等部分，在執行個體任務空閑時也有一定的記憶體使用量。

串連數使用率最高的FE的串連數使用率（%）

該指標反映了當前每個FE的串連數使用率最大值。推薦的警示規則如下：

警告（Warn）：“串連數使用率最高的FE的串連數使用率連續5個周期（1周期=1分鐘），監控值>=95%”，可以有效監測叢集的串連數使用方式，及時清理空閑串連。

wal sender使用率最高的FE的wal sender使用率（%）

該指標反映了當前每個FE的Walsender使用率最大值。推薦的警示規則如下：

警告（Warn）：“wal sender使用率最高的FE的wal sender使用率連續5個周期（1周期=1分鐘），監控值>=95%”，可以有效監測叢集的Walsender使用方式。

本執行個體正在運行中Query最長的時間長度（milliseconds）

該指標可以有效監測執行個體中當前時刻是否有長時間啟動並執行Query。推薦的警示規則如下：

警告（Warn）：“本執行個體正在運行中Query最長的時間長度連續10個周期（1周期=1分鐘），監控值>=3600000milliseconds”。

正在啟動並執行 Serverless Computing 的查詢中，最長的時間長度（milliseconds）

該指標可以有效監測Serverless叢集中的任務運行情況，如果已耗用時間過長，可以及時取消相關任務。推薦的警示規則如下：

警告（Warn）：“正在啟動並執行Serverless Computing的查詢中，最長的時間長度連續10個周期（1周期=1分鐘），監控值>=3600000milliseconds”。

失敗Query QPS(countS)

該指標反映了執行個體中運行Query的失敗情況，可以針對失敗Query設定警示，方便及時瞭解執行個體中Query運行情況。推薦的警示規則如下：

警告（Warn）：“失敗Query QPS中，連續10個周期（1周期=1分鐘），監控值>=10countS”。如果執行個體中失敗Query較多，建議根據慢Query日誌查看詳情失敗詳情，並針對性治理。

FE replay延遲（milliseconds）

該指標反映了每個FE的replay時間，如果時間過長，說明replay慢，可能原因為FE卡住，導致Query卡住，需要及時處理。推薦的警示如下：

警示規則

警告（Warn）：“FE replay延遲連續10個周期（1周期=1分鐘），監控值>=300000milliseconds”，出現警示時，前往HoloWeb活躍Query查看是否有長時間啟動並執行Query，並嘗試取消Query。
不推薦FE replay延遲設定的時間過短。因為執行個體中有中繼資料的修改就有FE的replay，通常情況下，FE的replay時間在秒級都屬於正常現象。

主從同步延遲（milliseconds）

該指標僅在從執行個體中展示，反映了主從同步的延遲情況，推薦的警示規則如下：

警告（Warn）：“主從同步延遲連續10個周期（1周期=1分鐘），監控值>=600000milliseconds”。

每個DB統計資訊缺失的表個數（countS）

該指標反映了Auto Analyze的品質，如果長時間存在缺失統計資訊的表，可以對錶手動執行Analyze命令，詳情請參見ANALYZE和AUTO ANALYZE。推薦的警示如下：

警示規則

警告（Warn）：“每個DB統計資訊缺失的表個數連續60個周期（1周期=1分鐘），監控值>=10countS”。
不建議監控值設定過低。因為執行個體中表數量太多時，也會導致Auto Analyze執行速度降低。

常見監控問題排查

當監控指標出現不符合業務預期的波動，或者出現警示時，可以通過監控指標常見問題排查監控指標的問題並處理。

API方式訪問監控指標

除了CloudMonitor控制台，CloudMonitor也提供自訂監控大盤、API等方式訪問監控指標，以便業務能夠更加靈活地訪問監控。其中：

通過API方式訪問CloudMonitor，請參見雲產品監控。
使用自訂監控大盤，請參見管理自訂監控大盤。
通過ARMS方式訪問Hologres監控，請參見接入指南。

授予RAM使用者CloudMonitor查看許可權

預設情況下，RAM使用者無法查看CloudMonitor的指標資訊。此時需要您對該RAM使用者授予CloudMonitor查看許可權。

您可使用阿里雲帳號（主帳號）登入RAM控制台，為RAM使用者授予如下許可權，授權方法請參見管理RAM使用者的許可權。

說明

您也可根據需求自行選擇許可權。

許可權名稱	許可權功能描述
AliyunCloudMonitorFullAccess	管理CloudMonitor（CloudMonitor）的許可權。
AliyunCloudMonitorReadOnlyAccess	唯讀訪問CloudMonitor（CloudMonitor）的許可權。
AliyunCloudMonitorMetricDataReadOnlyAccess	訪問CloudMonitor（CloudMonitor）時序指標資料的許可權。