全部產品
Search
文件中心

Simple Log Service:自訂分析警示日誌

更新時間:Jun 30, 2024

Log Service以日誌形式記錄警示的整個生命週期,並儲存到專屬的Logstore中。您可以通過警示日誌,瞭解監控對象的整體狀況、穩定性等。本文介紹在專屬Logstore中進行警示日誌自訂分析的操作步驟。

背景資訊

在首次使用Log Service警示時,系統會提示您選擇一個地區,並自動在該地區建立Log Service資源,即在您所選的地區建立一個名為sls-alert-主帳號ID-地區的Project和名為internal-alert-center-log的Logstore,用於儲存警示日誌。

說明

internal-alert-center-log Logstore為免費使用,並預設已建立索引。

Log Service基於internal-alert-center-log Logstore,產生內建儀錶盤,用於統計警示的觸發情況、通知情況等。更多資訊,請參見警示中心大盤。您也可以在該Logstore中,執行查詢和分析語句對警示日誌進行自訂分析。

日誌主題

不同階段的警示日誌的主題不同,因此您可以通過日誌中的__topic__ 欄位區分不同階段的警示日誌。常見的日誌主題如下所示。

日誌主題

說明

__topic__: alert_state

警示規則評估資料。

__topic__: alert_received

警示管理系統接收到警示訊息。

__topic__: alert_routed

警示經過警示策略之後,進行路由合并。

__topic__: alert_pre_filter

警示進入抑制靜默流程。

__topic__: alert_silenced

警示被抑制或者靜默。

__topic__: alert_pre_notify

警示進入通知發送流程。

__topic__: alert_notified

警示通知被發送。

__topic__: system_config

由於配置錯誤產生的日誌。

操作步驟

  1. 登入Log Service控制台

  2. 在Project列表中,單擊目標Project(例如sls-alert-13****47-cn-hangzhou)。

  3. 日誌儲存 > 日誌庫頁簽中,單擊internal-alert-center-log

  4. 在Logstore查詢和分析頁面,自訂分析警示日誌。

    查詢和分析語句由查詢語句和分析語句構成,格式為查詢語句|分析語句,查詢分析語句文法請參見查詢文法SQL分析文法

    • 樣本1:統計一定時間範圍內,觸發警示的警示監控規則以及對應的觸發次數。

      • 查詢和分析語句

        __topic__: alert_received |
        select
          "alert.project" as project,
          "alert.alert_name" as alert_name,
          count(*) as cnt
        group by
          project,
          alert_name
        order by
          cnt desc
      • 查詢和分析結果自訂分析警示記錄

    • 樣本2:統計一定時間範圍內,各個通知渠道發送失敗的次數。

      • 查詢和分析語句

        __topic__: alert_notified and level: error |
        select
          "notifierConfig.type" as notificationType,
          count(*) as cnt
        group by
          notificationType
        order by
          cnt desc
      • 查詢和分析結果自訂分析警示記錄

    • 樣本3:查看警示通知失敗的原因。

      • 查詢和分析語句

        __topic__: system_config
        and alert.alert_id: alert -1626423664 -868572 |
        select
          level,
          error,
          msg,
          "desc"
      • 查詢和分析結果

        • 如果查詢和分析結果中有資料,則說明警示配置有問題。關於配置錯誤的具體說明,請參見配置錯誤詳情自訂分析警示記錄

        • 如果查詢和分析結果中無資料,可能是因為通知渠道問題(例如Webhook地址無效、DingTalk機器人被刪除等),您可以執行如下查詢和分析語句,進一步查看發送通知失敗的原因。

          __topic__: alert_notified
          and level: error
          and alert.alert_id: alert -1626423664 -868572 |
          select
            error

          例如返回如下資訊,說明是因為Webhook地址無效導致警示通知發送失敗。

          自訂分析警示日誌