本章節匯總了使用ARMS警示管理監控的常見問題。
本頁目錄
ARMS Prometheus監控新舊版本警示規則有何不同?
ARMS Prometheus監控新版警示提供的警示模板經過阿里雲驗證過,舊版警示規則是開源提供的警示規則,其有效性沒有經過阿里雲的驗證。
ARMS新版警示相比於舊版警示,引入了警示管理的概念。所有在ARMS上建立的警示規則,當警示觸發時都會發送警示事件到警示管理,然後使用者可以根據警示的特點來訂閱警示管理中感興趣的警示。
這樣做的好處有以下幾點:
配置警示的工作變得簡單,配置警示時只需要配置警示的觸發規則即可。可以大量設定警示,提高生產效率。
可以按照比警示規則更細的粒度來配置通知,如可以按照Kubernetes的命名空間來訂閱警示進行通知。
警示的通知策略只需要配置一次即可,極大的降低了配置工作量。
建議按照使用者組進行訂閱的思路來配置通知策略中的指派規則。
樣本情境:
基礎設施營運:使用者組需要訂閱生產叢集資源使用率和k8s組件警示。
對應的指派規則如下:
規則1:
alertName == 節點CPU使用率大於80% & clusterName == 生產叢集
規則2:
alertname == ApiServer 故障 & clusterName == 生產叢集
支付業務營運:使用者組需要訂閱生產叢集命名空間pay和pay-pre下的警示。
對應的指派規則如下:
namespace 正則匹配 pay.* & clustername == 生產叢集
P1警示緊急通知:使用者組需要訂閱嚴重程度為critical的生產叢集警示。
對應的指派規則如下:
severity == critial & clustername == 生產叢集
指定了新的通知策略,仍然收到了舊的警示通知?
找到收到的警示通知中的【通知策略】欄位,在警示控制台找到對應的通知策略。查看通知策略中的指派條件。
為什麼配置了警示規則的通知策略,警示還是發給我了?
為什麼通知策略中出現了標籤為_aliyun_arms_alert_rule_id
的指派條件?
在建立警示規則時如果指定了通知策略,則會在被指定的通知策略中添加_aliyun_arms_alert_rule_id == {{該警示規則ID}}
的指派條件。
為什麼警示選擇了不指定通知策略,還是能收到警示通知?
無論警示規則中是否指定了通知策略,警示都會發送到警示管理。只要該警示滿足了其他通知策略的指派條件就會通過其他通知策略進行通知。
通知策略之間是平級關係嗎?
通知策略之間是平級關係,如果一個警示觸發了多個通知策略的指派條件,則會由多個通知策略發送通知。
指派規則之間的關係是什嗎?
同一個通知策略中不同的指派規則之間的關係是或者的關係,只要警示滿足任意一個指派規則就會通過該通知策略發送通知。同一個指派規則內的多個條件是並且的關係,只有全部滿足了這些條件才能匹配這條指派規則。
建立警示規則時選擇指定通知策略還是不指定通知策略?
在建立警示時指定通知策略可以滿足最基礎的警示配置要求,即配置一個警示A發給B。對於更進階的警示需求(如分揀、靜默、抑制、分組、流程處理等),建議您配置警示規則為不指定通知策略,然後在ARMS控制台的警示管理中根據業務需求建立自訂的通知策略。具體操作,請參見通知策略。
為什麼警示會誤判?
警示出現以下誤判:
節點CPU警示數值異常,使用率顯示為8000%多。
Pod狀態異常。
Pod啟動逾時。
這個問題是由於歷史版本的警示模板存在配置不當造成的,ARMS警示管理已經升級了警示模板。但是對於已經使用了歷史模板建立警示的使用者還需要手動更新一下警示的內容才會生效。
如果您沒有修改過警示的配置,那麼更新警示模板方式如下:
刪除使用歷史模板建立的警示。
使用新的警示模板重新建立警示。
各監控產品刪除和建立警示的操作如下:
應用監控建立警示的操作,請參見應用監控警示規則。
前端監控建立警示的操作,請參見前端監控警示規則(新版)。
ARMS Prometheus監控建立警示的操作,請參見建立警示。
警示管理和Alertmanager是什麼關係,能否將ARMS Prometheus監控的警示發送到自己搭建的Alertmanager上?
在Prometheus開源體系中,Prometheus警示觸發後可以發送到Alertmanager中進行指派通知等處理。在ARMS Prometheus監控情境下,警示管理相當於一個阿里雲託管的多租戶Alertmanager, ARMS Prometheus監控警示在觸發後會自動發送到警示管理(無需配置)。ARMS警示管理支援開源Alertmanager的主要功能。
ARMS Prometheus監控警示不支援配置將警示發送到使用者自建的Alertmanager中。ARMS警示管理支援通過Webhook的方式以Alertmanager的格式向外上報警示。具體操作,請參見通過Webhook上報警示的格式說明。
為什麼警示通知內容中出現有事件新增
字樣?
警示通知內容中未配置有事件新增
字樣,實際收到的警示通知卻有。
警示事件按照Label進行分組,每一組事件會產生不同的警示,如果有新的事件添加到這個警示的一組事件中時, 會在警示內容裡增加有事件新增
字樣並且重新發送一次警示通知。
如何修改警示DingTalk卡片內容?
警示卡片分為2個部分,如下圖所示,警示內容部分是通過配置通知策略中的通知模板實現的(圖示①),其他部分可以通過配置機器人來實現。
配置通知策略的通知模板
- 登入ARMS控制台。
在左側導覽列選擇 ,然後單擊目標式通知策略操作列的編輯。
在彈出的面板單擊通知對象頁簽,然後在DingTalk/飛書/企微頁簽下修改通知內容資訊。
說明通知內容預設採用go template文法進行渲染。文法說明請參見配置通知模板和Webhook模板。
配置警示卡片上其他內容
在左側導覽列選擇 。
單擊DingTalk/飛書/企微頁簽,然後單擊目標式通知策略操作列的編輯。
在彈出的面板中,您可以根據需要編輯卡片樣式。