本文列出了ARMS警示管理的主要術語。
B
補零、補一、補Null
- 警示資料修訂策略可選擇為補零、補一或補Null(預設)。此功能一般用於無資料、複合指標和環比同比等異常的資料修複。
- 補零: 將被判斷的數值修複為0。
- 補一: 將被判斷的數值修複為1。
- 補Null: 不會觸發警示。
應用情境:- 異常情況一:無資料
使用者A想利用警示功能監控頁面訪問量。建立警示時,選擇前端監控警示,設定警示規則為N=5時頁面訪問量的總和小於等於10則警示。若該頁面一直沒有被訪問,則沒有資料上報,不會發送警示。為解決此類問題,可將警示資料修訂策略勾選為補零,將沒有收到資料視為收到零條資料,符合警示規則,即可發送警示。
- 異常情況二:複合指標異常
使用者B想利用警示功能監控商品的即時單價。建立警示時,選擇自訂監控警示,設定變數a的資料集為當前總價,變數b的資料集為當前商品總數,警示規則為N=3時 (當前總價)/(當前商品總數)的最小值小於等於10則警示。若當前商品總數為0時,複合指標(當前總價)/(當前商品總數)的值不存在,則不會發送警示。為解決此類問題,可將警示資料修訂策略勾選為補零,將複合指標(當前總價)/(當前商品總數)的值視為0,符合警示規則,即可發送警示。
- 異常情況三:指標環比、同比異常
使用者C想利用警示功能監控節點機使用者使用CPU百分比。建立警示時,選擇應用監控,設定警示規則為N=3時節點機使用者使用CPU百分比的平均值環比下降100%則警示。若最近N分鐘使用者的CPU故障無法工作,即α無法擷取,導致環比結果不存在,則不會發送警示。為解決此類問題,可將警示資料修訂策略勾選為補一,將環比結果視為下降100%,符合警示規則,即可發送警示。
C
重複升級規則
- 如果升級策略判斷過所有升級規則後,仍未解決警示,則將重新開始升級判斷。預設為重複1次,您也可以將其調整為9以內的其他次數。
G
警示
- 指需要通知連絡人去解決的警示。只有通過通知策略觸發的需要解決的事件,才會建立警示。
警示管理
- 指整個警示管理功能。
警示卡片
- DingTalk群的機器人通過卡片的形式向DingTalk群發送警示。連絡人可以通過卡片查看、處理、解決警示。您可以在控制台的釘群中配置DingTalk群的機器人。
警示自動解決
- 當警示的事件都已恢複時,警示會自動化佈建為已解決。
故障
- 業務的規則會引起監控資料異常,監控工具檢測到異常後會建置事件。
H
環比上升 / 下降%
- 若β為最近N分鐘的資料(可選擇為平均值、總和、最大值和最小值),α為前2N分鐘到前N分鐘的資料, 環比為β與α做比較。
J
整合
- 大多數監控產品可以通過API方式整合到警示管理中。
L
連絡人
- 處理警示的營運人員,連絡人可以通過DingTalk查看、處理和解決警示。
R
認領警示
- 如果連絡人想將自己設定為尚未解決的警示的處理人,則可以認領該警示。
S
升級逾時
- 升級逾時後,警示管理會將未確認或未解決的警示通知升級策略的連絡人。預設升級逾時設定為10分鐘,您也可以將其設定在90分鐘內的任一時間。
升級策略
- 在警示升級逾時,警示管理會依次通知升級規則定義的不同批次的連絡人。升級策略可以添加到特定的通知策略中。
事件
- 整合的監控產品會將事件發送到警示管理中。除非事件被抑制,否則每個事件都會有對應警示。
事件分組
- 事件管理將多個事件匯總到單一警示中,用來減少需要連絡人處理的警示。同時匯總關鍵資訊,降低通知疲勞。
事件靜默
- 不重要的事件可以將其靜默,被靜默的事件沒有對應的警示。
事件去重
- 當整合將事件發送到警示管理時,重複的事件會合并到一個事件中,僅統計重複次數。
事件自動回復
- 您可以設定在指定的時間後自動回復事件。此時間過後,事件將自動被認定為已解決。事件自動回復時間預設為5分鐘。
T
同比上升 / 下降%(與上小時)
- 若β為最近N分鐘的資料(可選擇為平均值、總和、最大值和最小值),α為上小時最近N分鐘的資料,與上小時同比為β與α做比較。
同比上升 / 下降%(與昨日)
- 若β為最近N分鐘的資料(可選擇為平均值、總和、最大值和最小值),α為昨日同一時刻最近N分鐘的資料,與昨日同比為β與α做比較。
通知
- 觸發警示後,警示管理會立即發送通知給連絡人。通知訊息中包含觸發的警示對象和警示標題。通知將通過簡訊、郵件、微信、釘群、WebHook等方式發送。
通知策略
- 通知策略確定了如何將事件匯總到單一警示中,以及如何將分配的警示通知發送給連絡人。您可以通過設定電話,簡訊,郵件或釘群等方式,將需要解決或需要連絡人知曉的警示1分鐘內通知到他。
Y
使用者
- 指阿里雲使用者和RAM使用者,使用者可以通過ARMS控制台實現以下操作:
- 建立、編輯、修改通知策略。
- 建立、編輯、修改升級策略。
- 建立、編輯、修改整合。
- 查看、處理、解決警示。
- 指阿里雲使用者和RAM使用者,使用者可以通過ARMS控制台實現以下操作: