Log Service以日誌形式記錄警示的整個生命週期,並儲存到專屬的Logstore中。您可以通過警示日誌,瞭解監控對象的整體狀況、穩定性等。本文介紹在專屬Logstore中進行警示日誌自訂分析的操作步驟。
背景資訊
在首次使用Log Service警示時,系統會提示您選擇一個地區,並自動在該地區建立Log Service資源,即在您所選的地區建立一個名為sls-alert-主帳號ID-地區的Project和名為internal-alert-center-log的Logstore,用於儲存警示日誌。
internal-alert-center-log Logstore為免費使用,並預設已建立索引。
Log Service基於internal-alert-center-log Logstore,產生內建儀錶盤,用於統計警示的觸發情況、通知情況等。更多資訊,請參見警示中心大盤。您也可以在該Logstore中,執行查詢和分析語句對警示日誌進行自訂分析。
日誌主題
不同階段的警示日誌的主題不同,因此您可以通過日誌中的__topic__ 欄位區分不同階段的警示日誌。常見的日誌主題如下所示。
日誌主題 | 說明 |
__topic__: alert_state | 警示規則評估資料。 |
__topic__: alert_received | 警示管理系統接收到警示訊息。 |
__topic__: alert_routed | 警示經過警示策略之後,進行路由合并。 |
__topic__: alert_pre_filter | 警示進入抑制靜默流程。 |
__topic__: alert_silenced | 警示被抑制或者靜默。 |
__topic__: alert_pre_notify | 警示進入通知發送流程。 |
__topic__: alert_notified | 警示通知被發送。 |
__topic__: system_config | 由於配置錯誤產生的日誌。 |
操作步驟
在Project列表中,單擊目標Project(例如sls-alert-13****47-cn-hangzhou)。
在 頁簽中,單擊internal-alert-center-log。
在Logstore查詢和分析頁面,自訂分析警示日誌。
查詢和分析語句由查詢語句和分析語句構成,格式為查詢語句|分析語句,查詢分析語句文法請參見查詢文法、SQL分析文法。
樣本1:統計一定時間範圍內,觸發警示的警示監控規則以及對應的觸發次數。
查詢和分析語句
__topic__: alert_received | select "alert.project" as project, "alert.alert_name" as alert_name, count(*) as cnt group by project, alert_name order by cnt desc
查詢和分析結果
樣本2:統計一定時間範圍內,各個通知渠道發送失敗的次數。
查詢和分析語句
__topic__: alert_notified and level: error | select "notifierConfig.type" as notificationType, count(*) as cnt group by notificationType order by cnt desc
查詢和分析結果
樣本3:查看警示通知失敗的原因。
查詢和分析語句
__topic__: system_config and alert.alert_id: alert -1626423664 -868572 | select level, error, msg, "desc"
查詢和分析結果
如果查詢和分析結果中有資料,則說明警示配置有問題。關於配置錯誤的具體說明,請參見配置錯誤詳情。
如果查詢和分析結果中無資料,可能是因為通知渠道問題(例如Webhook地址無效、DingTalk機器人被刪除等),您可以執行如下查詢和分析語句,進一步查看發送通知失敗的原因。
__topic__: alert_notified and level: error and alert.alert_id: alert -1626423664 -868572 | select error
例如返回如下資訊,說明是因為Webhook地址無效導致警示通知發送失敗。