全部產品
Search
文件中心

Elasticsearch:配置叢集警示

更新時間:Aug 24, 2024

Elasticsearch支援監控執行個體,以及自訂警示閾值和接收警示資訊。為避免出現叢集狀態不正常、節點磁碟使用率過高等問題影響Elasticsearch服務,強烈建議您配置監控警示,即時監控叢集狀態、節點磁碟使用率等資訊,及時查收警示通知,提前做好防禦措施。本文介紹如何為Elasticsearch執行個體配置警示,包括一鍵警示和CloudMonitor警示。

開啟一鍵警示

Elasticsearch的一鍵警示功能由CloudMonitor提供,預設處於關閉狀態。開啟一鍵警示功能後系統會建立叢集狀態異常、節點磁碟使用率異常(>75%)、節點JVM Heap異常(>85%)等警示規則,作用於阿里雲帳號下的全部Elasticsearch執行個體。

  1. 登入Elasticsearch控制台
  2. 在左側導覽列,單擊Elasticsearch執行個體
  3. Elasticsearch執行個體頁面,單擊一鍵警示

    image

  4. 一鍵警示對話方塊中,單擊前往開啟

    說明

    如果介面顯示前往關閉,表明一鍵警示功能已開啟,無需繼續執行以下操作。

  5. 在CloudMonitor控制台中,開啟Elasticsearch服務的一鍵警示開關。

  6. (可選)返回Elasticsearch控制台,查看是否已經成功開啟一鍵警示功能。

    1. Elasticsearch執行個體頁面,單擊目標執行個體ID。

    2. 在左側導覽列,選擇監控與日誌 > 叢集監控

    3. 單擊基礎監控頁簽,在頁面右上方,查看一鍵警示的狀態。

      如果一鍵警示已開啟狀態,表示您已經成功開啟了一鍵警示。一鍵警示為開啟狀態

配置CloudMonitor警示

  1. 進入CloudMonitor控制台

  2. 在左側導覽列,選擇警示服務 > 警示規則

  3. 單擊建立警示規則

  4. 建立警示規則頁面,設定警示規則。

    以添加節點磁碟使用率監控、叢集狀態監控、節點HeapMemory使用率監控為例,參數配置如下,未提及的參數保持預設,詳細參數說明請參見建立警示規則

    參數

    說明

    產品

    選擇Elasticsearch

    資源範圍

    選擇執行個體

    關聯資源

    選擇待監控的執行個體。

    規則描述

    單擊添加規則,在添加規則描述面板,填寫規則名稱,並按照以下說明進行配置:

    • 指標類型:選擇多指標

    • 警示層級:選擇警告(Warn)

    • 指標類型:選擇標準建立

    • 多指標警示描述

      • 選擇clusterId > 叢集狀態的監控值>=2.0

      • 選擇nodeName > Elasticsearch執行個體節點磁碟使用率的平均值>=75%

      • 選擇nodeName > Elasticsearch執行個體節點HeapMemory使用率的平均值>=85%

    • 多指標關係:選擇有一個滿足就警示

    • 發出警示需要滿足達到閾值的次數:選擇連續3個周期

    您也可以通過配置單指標警示規則實現磁碟水位警示,詳細資料請參見配置磁碟警示樣本

    警示連絡人群組

    選擇您已建立的警示連絡人群組。關於如何建立警示連絡人群組,請參見建立警示連絡人或警示聯絡組

    說明

    您還可以開啟進階設定,在警示回調中填寫可通過公網訪問的URL,CloudMonitor會將警示資訊通過POST請求推送到該地址。目前僅支援HTTP協議,詳細資料請參見使用閾值警示回調

    在配置Elasticsearch的警示規則時,您可以參考以下監控指標說明選擇監控指標。更多監控指標資訊,請參見指標含義與異常處理建議

    監控項

    說明

    叢集狀態

    必選。主要監控叢集狀態為正常(綠色)還是非正常(黃色或紅色)。

    叢集狀態對應Green、Yellow、Red,轉換成數值對應0.00、1.00、2.00,所以在配置叢集狀態警示指標時,需要按照對應數值的大小配置。

    節點磁碟使用率(%)

    必選。警示閾值控制在75%以下,不要超過80%。

    節點HeapMemory使用率(%)

    必選。警示閾值控制在85%以下,不要超過90%。

    節點CPU使用率(%)

    可選。警示閾值控制在95%以下,不要超過95%。

    節點Load_1m

    可選。以CPU核心數的80%為參考值。

    叢集查詢QPS(Count/Second)

    可選。以實際測試結果作為參考。

    叢集寫入QPS(Count/Second)

    可選。以實際測試結果作為參考。

    FullGc次數(個)

    可選。當數值不為0時,服務異常。

    Exception次數(個)

    可選。當數值不為0時,服務異常。

    快照狀態

    可選。當數值為-1或0時,服務正常;為2時,服務異常。

  5. 單擊確定

    警示配置成功後,當配置的事件發生時,指定的警示通知人就可以通過配置的通知方式接收到警示通知。

配置磁碟警示樣本

您可以通過CloudMonitor配置磁碟水位警示,及時擷取執行個體節點的磁碟使用率警示資訊,提前處理相關問題。

您可以參見配置CloudMonitor警示,配置磁碟警示。對應警示規則配置樣本如下。

參數

樣本

規則名稱

設定為磁碟水位警示。

指標類型

選擇單指標

監控指標

選擇nodeName > Elasticsearch執行個體節點磁碟使用率

閾值及警示層級

  • 緊急:連續3個周期的平均值 >= 80%

  • 警告:連續3個周期的平均值 >= 75%

  • 普通:連續3個周期的平均值 >= 70%

監控圖表預覽

監控指標的監控圖表預覽效果。