Elasticsearch支援監控執行個體,以及自訂警示閾值和接收警示資訊。為避免出現叢集狀態不正常、節點磁碟使用率過高等問題影響Elasticsearch服務,強烈建議您配置監控警示,即時監控叢集狀態、節點磁碟使用率等資訊,及時查收警示通知,提前做好防禦措施。本文介紹如何為Elasticsearch執行個體配置警示,包括一鍵警示和CloudMonitor警示。
開啟一鍵警示
Elasticsearch的一鍵警示功能由CloudMonitor提供,預設處於關閉狀態。開啟一鍵警示功能後系統會建立叢集狀態異常、節點磁碟使用率異常(>75%)、節點JVM Heap異常(>85%)等警示規則,作用於阿里雲帳號下的全部Elasticsearch執行個體。
- 登入Elasticsearch控制台。
- 在左側導覽列,單擊Elasticsearch執行個體。
在Elasticsearch執行個體頁面,單擊一鍵警示。
在一鍵警示對話方塊中,單擊前往開啟。
說明如果介面顯示前往關閉,表明一鍵警示功能已開啟,無需繼續執行以下操作。
在CloudMonitor控制台中,開啟Elasticsearch服務的一鍵警示開關。
(可選)返回Elasticsearch控制台,查看是否已經成功開啟一鍵警示功能。
在Elasticsearch執行個體頁面,單擊目標執行個體ID。
在左側導覽列,選擇
。單擊基礎監控頁簽,在頁面右上方,查看一鍵警示的狀態。
如果一鍵警示為已開啟狀態,表示您已經成功開啟了一鍵警示。
配置CloudMonitor警示
在左側導覽列,選擇 。
單擊建立警示規則。
在建立警示規則頁面,設定警示規則。
以添加節點磁碟使用率監控、叢集狀態監控、節點HeapMemory使用率監控為例,參數配置如下,未提及的參數保持預設,詳細參數說明請參見建立警示規則。
參數
說明
產品
選擇Elasticsearch。
資源範圍
選擇執行個體。
關聯資源
選擇待監控的執行個體。
規則描述
單擊添加規則,在添加規則描述面板,填寫規則名稱,並按照以下說明進行配置:
指標類型:選擇多指標。
警示層級:選擇警告(Warn)。
指標類型:選擇標準建立。
多指標警示描述:
選擇
的監控值>=2.0選擇
的平均值>=75%選擇
的平均值>=85%
多指標關係:選擇有一個滿足就警示。
發出警示需要滿足達到閾值的次數:選擇連續3個周期。
您也可以通過配置單指標警示規則實現磁碟水位警示,詳細資料請參見配置磁碟警示樣本。
警示連絡人群組
選擇您已建立的警示連絡人群組。關於如何建立警示連絡人群組,請參見建立警示連絡人或警示聯絡組。
說明您還可以開啟進階設定,在警示回調中填寫可通過公網訪問的URL,CloudMonitor會將警示資訊通過POST請求推送到該地址。目前僅支援HTTP協議,詳細資料請參見使用閾值警示回調。
在配置Elasticsearch的警示規則時,您可以參考以下監控指標說明選擇監控指標。更多監控指標資訊,請參見指標含義與異常處理建議。
監控項
說明
叢集狀態
必選。主要監控叢集狀態為正常(綠色)還是非正常(黃色或紅色)。
叢集狀態對應Green、Yellow、Red,轉換成數值對應0.00、1.00、2.00,所以在配置叢集狀態警示指標時,需要按照對應數值的大小配置。
節點磁碟使用率(%)
必選。警示閾值控制在75%以下,不要超過80%。
節點HeapMemory使用率(%)
必選。警示閾值控制在85%以下,不要超過90%。
節點CPU使用率(%)
可選。警示閾值控制在95%以下,不要超過95%。
節點Load_1m
可選。以CPU核心數的80%為參考值。
叢集查詢QPS(Count/Second)
可選。以實際測試結果作為參考。
叢集寫入QPS(Count/Second)
可選。以實際測試結果作為參考。
FullGc次數(個)
可選。當數值不為0時,服務異常。
Exception次數(個)
可選。當數值不為0時,服務異常。
快照狀態
可選。當數值為-1或0時,服務正常;為2時,服務異常。
單擊確定。
警示配置成功後,當配置的事件發生時,指定的警示通知人就可以通過配置的通知方式接收到警示通知。
配置磁碟警示樣本
您可以通過CloudMonitor配置磁碟水位警示,及時擷取執行個體節點的磁碟使用率警示資訊,提前處理相關問題。
您可以參見配置CloudMonitor警示,配置磁碟警示。對應警示規則配置樣本如下。
參數 | 樣本 |
規則名稱 | 設定為磁碟水位警示。 |
指標類型 | 選擇單指標。 |
監控指標 | 選擇 。 |
閾值及警示層級 |
|
監控圖表預覽 | 監控指標的監控圖表預覽效果。 |