分組評估是警示監控規則中的一個參數。當警示監控系統對查詢和分析結果進行計算時,可基於特定欄位進行分組,每個分組單獨評估觸發條件並觸發警示。即您可以使用一條警示監控規則同時監控多個目標,並對每個分組進行獨立的警示管理和交易管理。
設定分組評估後,單次評估產生的警示分組最多為100個分組。超過100個分組時,會隨機取其中100個發送到警示策略。
選擇分組評估欄位時,請選擇具備標識監控實體特徵的欄位,欄位的值可枚舉。請勿選擇不具備區分監控實體特徵的欄位。使用這些欄位會產生很多分組,每個分組對應一個警示,造成警示風暴,導致錯過重要的警示資訊。
例如:選擇Nginx日誌中的host、method等欄位,OSS訪問日誌中的bucket欄位。請勿選擇Nginx日誌中的request_time、body_size等欄位,錯誤記錄檔中的err_cnt欄位。
樣本一:分組監控時序資料
例如您將多個伺服器的指標資料存放區在一個時序庫中,但希望每個伺服器的CPU使用率(cpu_util)超過95%時,Log Service可以分開發送每個伺服器的警示資訊。針對此需求,您可以在建立警示監控規則時設定分組評估。
具體配置如下:
查詢統計:
* | select promql_query_range('cpu_util') from metrics limit 1000
該查詢和分析語句用於統計CPU的使用率。
分組評估:標籤自動
時序資料的查詢和分析結果支援自動分組。
觸發條件:有資料匹配,value > 95,嚴重度:高
當查詢和分析結果中存在value的值大於95時,觸發進階別的警示。
添加標註:配置警示的標題和描述等標註資訊,您可以在標註資訊中引用欄位變數(例如${host})。更多資訊,請參見添加標籤和標註。
樣本二:分組監控日誌
例如您在監控OSS訪問日誌時,希望每分鐘發生500錯誤超過1000次的Bucket可以分開警示。針對此需求,您可以在建立警示監控規則時設定分組評估。
具體配置如下:
查詢統計:
http_status=500 | select bucket,count(1) as pv group by bucket having pv >1000 order by pv desc
該查詢和分析語句用於統計發生500錯誤超過1000次的Bucket。
分組評估:標籤自訂,bucket
查詢和分析結果將根據bucket進行分組。
觸發條件:
條件1:有資料匹配,pv > 3000,嚴重度:高
當查詢和分析結果中存在pv的值大於3000時,觸發進階別的警示。
條件2:有資料,嚴重度:中
當查詢和分析結果中存在資料時觸發中層級的警示。
添加標註:配置警示的標題和描述等標註資訊,您可以在標註資訊中引用欄位變數(例如${pv})。更多資訊,請參見添加標籤和標註。