aliyun-qos外掛程式是Elasticsearch團隊自研的外掛程式,能夠提高叢集的穩定性。該外掛程式能夠實現叢集層級的讀寫限流,在關鍵時刻對指定索引降級,將流量控制在合適範圍內。例如當上遊業務無法進行流量控制時,尤其對於讀請求業務,可根據aliyun-qos外掛程式設定的規則,按照業務的優先順序進行適當的降級,來保護Elasticsearch服務的穩定性。
前提條件
已升級外掛程式版本至最新版本。
您可以登入目標Elasticsearch執行個體的Kibana控制台,通過GET /_cat/plugins?v
命令查看該外掛程式的版本。
7.10版本Elasticsearch執行個體的外掛程式最新版本為7.10.0_ali1.6.0.2,其他版本為<執行個體版本>-rc4。如果外掛程式版本不是最新版本,您可通過以下方式處理:
7.10版本Elasticsearch執行個體:在控制台將核心升級到1.6.0版本,具體操作請參見升級版本。
非7.10版本Elasticsearch執行個體:提交工單聯絡Elasticsearch技術工程師升級外掛程式版本。升級後,需要您手動重啟Elasticsearch執行個體生效。
使用aliyun-qos外掛程式時,如果版本低於rc4,會出現
unsupported_operation_exception
的報錯。當前僅支援升級6.7.0及以上版本的Elasticsearch執行個體中的aliyun-qos外掛程式,低於6.7.0版本的Elasticsearch執行個體需要先將執行個體版本升級到6.7.0及以上,再升級外掛程式版本。
注意事項
aliyun-qos外掛程式為預裝外掛程式,限流功能預設關閉,不支援卸載。該外掛程式是為了保護叢集,提高穩定性,並不會精準計量讀寫流量。
說明使用aliyun-qos外掛程式前,您可以在外掛程式配置頁面查看是否已安裝該外掛程式。如果未安裝,可參見安裝或卸載系統預設外掛程式進行安裝。外掛程式安裝成功後不可卸載。
在將aliyun-qos外掛程式升級至最新版本時,您需要注意:
由於新舊版本實現機制不同,升級過程中可能出現短暫限流失效,待master節點上的限流外掛程式升級完成後會自動回復。
在新舊資料轉換過程中,可能存在部分限流器轉換失敗的情況。如果轉換失敗,您需要執行如下命令重新轉換。如果執行命令後報錯,可多次重試,直至hasError為false。
POST /_qos/limiter/ops/upgrade
說明如果執行以上命令長時間不返回,則說明執行個體中沒有舊版限流器,可忽略。
評估閾值
為了不影響讀寫請求的執行效率,aliyun-qos外掛程式會在叢集層級進行限流,但並不會對叢集中所有節點的讀寫流量進行嚴格精準的計量,可能會導致實際的流量有所偏差。因此在使用aliyun-qos外掛程式前,可先參考如下規則評估限流閾值:
查詢請求
查詢請求的限流閾值 = 用戶端查詢請求到達Elasticsearch的端到端QPS(Query Per Second)
說明端到端QPS僅指查詢請求到達協調節點的每秒請求數。
寫入請求
寫入請求的限流閾值的計算規則與查詢請求類似,但還需要根據副本數進行調整。
例如叢集中有2個資料節點、1個索引,該索引有1個shard、1個副本,每次寫入10 MB大小的資料。因為存在副本,所以每個資料節點上都會被寫入10 MB大小的資料。另外X-Pack自身的Monitor、Audit、Watcher等任務同樣會佔用寫入流量,設定閾值時需要預留出該部分的大小。
開啟限流功能
aliyun-qos外掛程式的限流功能預設關閉,使用時需要先開啟該功能。不同版本的aliyun-qos外掛程式,開啟限流功能的代碼不同,具體如下。
本文中的命令均可在Kibana控制台上執行,詳情請參見登入Kibana控制台。
7.10最新版本 | 其他版本 |
|
|
關閉限流功能
您可以通過將限流參數設定為false或null,關閉限流功能。aliyun-qos外掛程式的版本不同,關閉限流功能的代碼不同,具體如下。
關閉限流方式 | 7.10最新版本 | 其他版本 |
將限流參數設定為false |
|
|
將限流參數設定為null |
|
|
配置限流器(7.10最新版本)
以下配置限流器的內容僅適用於7.10版本執行個體的aliyun-qos外掛程式。
限流器主要由兩部分組成,limiters定義和tags定義。通過tags定義資源限制,通過limiters定義具體的限流類型和限流閾值。
限流器分為普通限流器和預設限流器。通過將tags設定為**可以實現預設限流器。例如預設每個shard的流量,預設每個應用的QPS等。
當請求超過限流值之後,Elasticsearch會拒絕之後發送的請求。
限流器配置的具體樣本,請參見配置限流器樣本。
PUT /_qos/limiter/<limiterName>
{
"limiters": {
${action}.${limiter_type}:${threshold}
},
"tags": {
${tagName}:${tagValue}
},
"priority":0,
"params":{
"watchMode":true
}
}
參數 | 說明 | 可選值 |
action | 限流的action,用於限制不同類型的請求。 |
|
limiter_type | 限流類型。支援三大類:
|
|
threshold | 限流閾值。 | int範圍內的整數,>=-1。 說明 部分類型支援帶單位的字串,具體請參見limiter_type說明。 |
tagName | tag名稱。 |
|
tagValue | tag的值。 | 字串,可為數組。如果為數組,則對應tag匹配數組中任意一個value即可。支援精確匹配、模糊比對和任意值,例如:
|
priority | 優先順序。 | int整數,預設為0。 說明 優先順序越大,排序越靠前。當有多個預設限流器同時命中時,只有優先順序最大的預設限流器會生效。 |
params | 進階參數。 | watchMode:是否啟用觀察模式,支援true和false(預設)。如果為true,Elasticsearch只會在metric中記錄拒絕數,但不會實際限流。您可以通過API查看指標監控資訊,用於提前驗證限流效果,避免由於配置錯誤造成錯誤的限流。API的詳細資料,請參見常見問題。 |
配置限流器樣本
設定查詢QPS限流
通過設定查詢索引每秒請求次數,限制協調節點每秒接收的查詢請求數。當每秒接收的查詢請求數超過限流值之後,Elasticsearch會拒絕接收請求。
index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定查詢QPS限流的代碼不同,具體如下。
操作 | 7.10最新版本 | 其他版本 |
設定單個索引的查詢QPS限流 |
|
|
設定指定名稱首碼的索引的查詢QPS限流 |
|
|
設定任意索引的查詢QPS限流 |
說明
| 不支援。 |
設定所有索引的查詢總QPS限流 |
說明
|
|
您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。
當您在用戶端或Kibana控制台上執行資料查詢操作時,如果查詢QPS超過您設定的限流值,系統會顯示如下報錯資訊。請根據報錯資訊適當減少查詢QPS限流。aliyun-qos外掛程式的版本不同,顯示的報錯資訊不同,具體如下:
7.10最新版本
{ "error": { "root_cause": [ { "type": "status_exception", "reason": "search blocked, limited by [<limiterName>][search.qps](<limiterId>) threshold:[x]" } ], "type": "status_exception", "reason": "search blocked, limited by [<limiterName>][search.qps](<limiterId>) threshold:[x]" }, "status": 429 }
其他版本
{ "error": { "root_cause": [ { "type": "rate_limited_exception", "reason": "request indices:data/read/search rejected, limited by [l1:t*:1.0]" } ], "type": "rate_limited_exception", "reason": "request indices:data/read/search rejected, limited by [l1:t*:1.0]" }, "status": 429 }
設定寫入TPS限流
通過設定寫入索引每秒請求次數,限制協調節點每秒接收的寫入請求數。當每秒接收的寫入請求數超過限流值之後,Elasticsearch會拒絕接收請求。
index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定寫入TPS限流的代碼不同,具體如下。
7.10最新版本 | 其他版本 |
| 不支援 |
設定Bulk每秒寫入大小限流
通過設定Bulk每秒寫入的總位元組數,限制協調節點每秒接收的寫入位元組數。當每秒接收的寫入位元組數超過限流值之後,Elasticsearch會拒絕接收請求。
index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定Bulk每秒寫入大小限流的代碼不同,具體如下。
7.10最新版本 | 其他版本 |
|
|
您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。
設定Bulk單次請求大小限流
通過設定Bulk單次請求的最大值,限制協調節點接收單次請求的寫入位元組數。當單次請求的寫入位元組數超過限流值之後,Elasticsearch會拒絕接收請求。
index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定Bulk單次請求大小限流的代碼不同,具體如下。
7.10最新版本 | 其他版本 |
|
|
您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。
當您在用戶端或Kibana控制台上執行資料寫入操作時,如果單次請求的寫入位元組數超過設定的限流值,系統會顯示如下報錯資訊。請根據報錯資訊適當減少單次請求的寫入位元組數。aliyun-qos外掛程式的版本不同,顯示的報錯資訊不同,具體如下:
7.10最新版本
{ "error" : { "root_cause" : [ { "type" : "status_exception", "reason" : "write_size blocked, limited by [<limiterName>][write.max_size_per_request](<limiterId>) threshold:[x] try acquire [x]" } ], "type" : "status_exception", "reason" : "write_size blocked, limited by [<limiterName>][write.max_size_per_request](<limiterId>) threshold:[x] try acquire [x]" }, "status" : 400 }
其他版本
{ "error": { "root_cause": [ { "type": "rate_limited_exception", "reason": "request indices:data/write/bulk rejected, limited by [b2:ByteSizePreSeconds:992.0]" } ], "type": "rate_limited_exception", "reason": "request indices:data/write/bulk rejected, limited by [b2:ByteSizePreSeconds:992.0]" }, "status": 413 }
設定查詢shard並發個數限流
通過設定並發查詢shard數,來降低叢集壓力。index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定查詢shard並發個數限流的代碼不同,具體如下。
7.10最新版本 | 其他版本 |
| 不支援 |
您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。
設定多個限流器配置
支援同時設定限流器的多個配置。index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定多個限流器配置的代碼不同,具體如下。
7.10最新版本 | 其他版本 |
| 不支援 |
您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。
擷取限流配置
aliyun-qos外掛程式的版本不同,擷取限流配置的代碼不同,具體如下。
操作 | 7.10最新版本 | 其他版本 |
擷取所有限流配置 |
|
|
擷取單個指定的限流配置 |
|
|
擷取多個指定的限流配置 說明 多個限流器之間用英文逗號(,)分隔,不支援萬用字元。 |
|
|
刪除限流配置
aliyun-qos外掛程式的版本不同,刪除限流配置的代碼不同,具體如下。
操作 | 7.10最新版本 | 其他版本 |
刪除單個指定的限流配置 |
|
|
刪除多個指定的限流配置 說明 多個限流器之間用英文逗號(,)分隔,不支援萬用字元。 |
|
|
常見問題
Q:如何擷取限流相關的指標監控資訊?
A:可以通過以下API擷取:
擷取當前指標資料
擷取當前所有指標資料
GET /_qos/limiter/nodes/stats
擷取當前指定{node}指標資料
GET /_qos/limiter/nodes/{nodeId}/stats
擷取當前指定{node}和{limiter}指標資料
GET /_qos/limiter/nodes/{nodeId}/stats/{limiterIds}
擷取歷史指標資料
擷取歷史所有指標資料
GET /_qos/limiter/metric
擷取歷史指定{limiter}指標資料
GET /_qos/limiter/metric/{limiterId}