當您需要修改執行個體或節點的配置,或者遇到叢集或節點出現異常等情況時,可能需要重啟Elasticsearch執行個體或節點。本文介紹如何通過控制台重啟Elasticsearch執行個體或節點。
前提條件
確保執行個體的狀態為正常(綠色)、索引至少包含1個副本、資源使用率不是很高。
重要對於多可用性區域執行個體,在變更時,需要確保叢集中任意一個索引的副本數都小於可用性區域數。待變更完成後,您可以根據業務手動增加副本數。詳細資料請參見索引模板。
查看索引複本:登入對應執行個體的Kibana控制台(登入Kibana控制台),執行
GET _cat/indices?v
命令,在返回結果中查看對應索引的rep值,≥1表示該索引至少包含一個副本。查看資源使用率:在叢集監控頁面查看,例如節點CPU使用率為80%左右,節點HeapMemory使用率為50%左右,節點load_1m低於當前資料節點的CPU核心數。詳細資料,請參見指標含義與異常處理建議。
在Kibana控制台執行以下命令,檢查叢集中是否存在狀態為close的索引。如果存在,需要將對應索引的狀態暫時設定為open,否則變更不成功。
查看索引狀態
GET /_cat/indices?v
將close狀態的索引暫時設定為open狀態
POST /<index_name>/_open
<index_name>需要替換為狀態為close的索引名稱。
注意事項
如果叢集整體負載不高且索引存在副本分區,一般情況下重啟過程中可對外持續提供服務。但在某些情境下,重啟過程中可能會出現訪問逾時,例如強制重啟並發度高、叢集負載很高並且已經存在叢集訪問停用情況、沒有副本分區、在重啟或強制重啟過程中存在大量的寫入和查詢等情境,建議重啟前先在用戶端設計好重試機制並且在業務低峰期進行操作。
操作步驟
- 登入Elasticsearch控制台。
- 在左側導覽列,單擊Elasticsearch執行個體。
- 進入目標執行個體。
- 在頂部功能表列處,選擇資源群組和地區。
- 在Elasticsearch執行個體中單擊目標執行個體ID。
在基本資料頁面,單擊右上方的重啟。
在重啟對話方塊中,配置重啟參數。
參數
說明
操作類型
支援執行個體重啟、節點重啟和角色節點重啟:
執行個體重啟:重啟執行個體中所包含的所有節點。
節點重啟:重啟所選節點。
角色節點重啟:重啟所選的角色節點。
選擇節點
選擇待重啟的節點或角色節點。僅當操作類型為節點重啟或角色節點重啟時顯示。具體說明如下:
操作類型為節點重啟時:選擇待重啟的節點,支援選擇多個節點,實現大量重啟。
操作類型為角色節點重啟時:選擇待重啟的角色節點,例如資料節點、Kibana節點等。支援選擇多個角色節點。
藍綠變更
選擇是否進行藍綠變更。僅當操作類型為節點重啟或角色節點重啟時顯示。
選擇藍綠變更後進行重啟,Elasticsearch會在叢集中添加一個新節點,將原節點上的資料移轉到新節點後,再將原節點刪除。當叢集中單個節點的效能不佳時,例如CPU使用率持續高,可優先選擇藍綠變更功能。
重要請確保執行個體處於正常(綠色)狀態,以正常的方式觸發藍綠變更重啟。使用藍綠變更時,不允許對執行個體進行強制重啟。
勾選藍綠變更後進行重啟,會導致節點IP地址發生變化。如果在叢集配置中指定了節點IP地址,請在變更完成後及時更新。
1核2 GB規格的執行個體不支援藍綠變更。如果要進行藍綠變更,需要將執行個體升配至2核4 GB及以上規格,具體操作請參見升配叢集。
重啟方式
支援重啟和強制重啟:
重啟:當執行個體的狀態為正常(綠色)時,才可進行重啟,否則需要進行強制重啟。執行個體在重啟過程中可持續提供服務(需要滿足上文的前提條件),但耗時較長。
重要節點在重啟期間,對應的CPU和記憶體使用量率會存在臨時突增的情況,可能會造成服務抖動,正常情況下過一段時間後會恢複正常。
目前Elasticsearch執行個體的重啟耗時與叢集規模等因素有關。您可以在工作清單中查看執行個體的重啟進度。
強制重啟:當執行個體顯示為非正常狀態(黃色或紅色),此時將不支援重啟操作,需要進行強制重啟。
重要當磁碟的使用率超過cluster.routing.allocation.disk.watermark.low的配置時,可能會導致Elasticsearch執行個體的狀態變為非正常狀態(黃色或紅色)。當執行個體處於非正常狀態時,不建議對執行個體進行節點擴容、磁碟擴容、重啟、修改密碼或其他變更配置類的操作,請務必保證執行個體的狀態變為正常(綠色)後再進行這些操作。
設定並發度
並發度是指並發重啟的節點數,預設值為
(1/執行個體總節點數)*100%
。例如,並發度為10%,表示同時重啟叢集中10%的節點。僅當重啟方式為強制重啟時顯示該參數。
提升並發度可以顯著加快執行個體強制重啟的速度,但並發度越高,強制重啟的影響也越大。如果並發度為100%,將同時重啟所有節點,導致叢集無法訪問,未寫入磁碟的快取資料可能存在丟失情況,一般建議在叢集異常需緊急恢複情境應用。
說明預計所需總時間表示按照前一次單節點重啟時間的均值,乘以總節點個數進行評估。可能存在誤差,實際以真實重啟時間為準。
單擊確認,開始重啟操作。
說明如果是強制重啟,需要先勾選確認要強制重啟,進行重啟確認。
重啟過程中,執行個體狀態顯示為生效中。在頁面右上方單擊表徵圖,查看變更進度。重啟成功後,執行個體狀態顯示為正常。