全部產品
Search
文件中心

Elasticsearch:使用叢集限流外掛程式(aliyun-qos)

更新時間:Jun 30, 2024

aliyun-qos外掛程式是Elasticsearch團隊自研的外掛程式,能夠提高叢集的穩定性。該外掛程式能夠實現叢集層級的讀寫限流,在關鍵時刻對指定索引降級,將流量控制在合適範圍內。例如當上遊業務無法進行流量控制時,尤其對於讀請求業務,可根據aliyun-qos外掛程式設定的規則,按照業務的優先順序進行適當的降級,來保護Elasticsearch服務的穩定性。

前提條件

已升級外掛程式版本至最新版本。

您可以登入目標Elasticsearch執行個體的Kibana控制台,通過GET /_cat/plugins?v命令查看該外掛程式的版本。查看外掛程式版本

7.10版本Elasticsearch執行個體的外掛程式最新版本為7.10.0_ali1.6.0.2,其他版本為<執行個體版本>-rc4。如果外掛程式版本不是最新版本,您可通過以下方式處理:

  • 7.10版本Elasticsearch執行個體:在控制台將核心升級到1.6.0版本,具體操作請參見升級版本

  • 非7.10版本Elasticsearch執行個體:提交工單聯絡Elasticsearch技術工程師升級外掛程式版本。升級後,需要您手動重啟Elasticsearch執行個體生效。

說明
  • 使用aliyun-qos外掛程式時,如果版本低於rc4,會出現unsupported_operation_exception的報錯。

  • 當前僅支援升級6.7.0及以上版本的Elasticsearch執行個體中的aliyun-qos外掛程式,低於6.7.0版本的Elasticsearch執行個體需要先將執行個體版本升級到6.7.0及以上,再升級外掛程式版本。

注意事項

  • aliyun-qos外掛程式為預裝外掛程式,限流功能預設關閉,不支援卸載。該外掛程式是為了保護叢集,提高穩定性,並不會精準計量讀寫流量。aliyun-qos外掛程式

    說明

    使用aliyun-qos外掛程式前,您可以在外掛程式配置頁面查看是否已安裝該外掛程式。如果未安裝,可參見安裝或卸載系統預設外掛程式進行安裝。外掛程式安裝成功後不可卸載。

  • 在將aliyun-qos外掛程式升級至最新版本時,您需要注意:

    • 由於新舊版本實現機制不同,升級過程中可能出現短暫限流失效,待master節點上的限流外掛程式升級完成後會自動回復。

    • 在新舊資料轉換過程中,可能存在部分限流器轉換失敗的情況。如果轉換失敗,您需要執行如下命令重新轉換。如果執行命令後報錯,可多次重試,直至hasError為false。

      POST /_qos/limiter/ops/upgrade
      說明

      如果執行以上命令長時間不返回,則說明執行個體中沒有舊版限流器,可忽略。

評估閾值

為了不影響讀寫請求的執行效率,aliyun-qos外掛程式會在叢集層級進行限流,但並不會對叢集中所有節點的讀寫流量進行嚴格精準的計量,可能會導致實際的流量有所偏差。因此在使用aliyun-qos外掛程式前,可先參考如下規則評估限流閾值:

  • 查詢請求

    查詢請求的限流閾值 = 用戶端查詢請求到達Elasticsearch的端到端QPS(Query Per Second)

    說明

    端到端QPS僅指查詢請求到達協調節點的每秒請求數。

  • 寫入請求

    寫入請求的限流閾值的計算規則與查詢請求類似,但還需要根據副本數進行調整。

    例如叢集中有2個資料節點、1個索引,該索引有1個shard、1個副本,每次寫入10 MB大小的資料。因為存在副本,所以每個資料節點上都會被寫入10 MB大小的資料。另外X-Pack自身的Monitor、Audit、Watcher等任務同樣會佔用寫入流量,設定閾值時需要預留出該部分的大小。

開啟限流功能

aliyun-qos外掛程式的限流功能預設關閉,使用時需要先開啟該功能。不同版本的aliyun-qos外掛程式,開啟限流功能的代碼不同,具體如下。

說明

本文中的命令均可在Kibana控制台上執行,詳情請參見登入Kibana控制台

7.10最新版本

其他版本

PUT _cluster/settings
{
  "persistent": {
    "apack.qos.limiter.enabled": true
  }
}
PUT _cluster/settings
{
   "persistent" : {
      "apack.qos.ratelimit.enabled":"true"
   }
}

關閉限流功能

您可以通過將限流參數設定為false或null,關閉限流功能。aliyun-qos外掛程式的版本不同,關閉限流功能的代碼不同,具體如下。

關閉限流方式

7.10最新版本

其他版本

將限流參數設定為false

PUT _cluster/settings
{
  "persistent": {
    "apack.qos.limiter.enabled": false
  }
}
PUT _cluster/settings
{
   "persistent" : {
      "apack.qos.ratelimit.enabled":"false"
   }
}

將限流參數設定為null

PUT _cluster/settings
{
  "persistent": {
    "apack.qos.limiter.enabled": null
  }
}
PUT _cluster/settings
{
   "persistent" : {
      "apack.qos.ratelimit.enabled":null
   }
}

配置限流器(7.10最新版本)

說明
  • 以下配置限流器的內容僅適用於7.10版本執行個體的aliyun-qos外掛程式。

  • 限流器主要由兩部分組成,limiters定義和tags定義。通過tags定義資源限制,通過limiters定義具體的限流類型和限流閾值。

  • 限流器分為普通限流器和預設限流器。通過將tags設定為**可以實現預設限流器。例如預設每個shard的流量,預設每個應用的QPS等。

  • 當請求超過限流值之後,Elasticsearch會拒絕之後發送的請求。

  • 限流器配置的具體樣本,請參見配置限流器樣本

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
     ${action}.${limiter_type}:${threshold}
  },
  "tags": {
    ${tagName}:${tagValue}
  },
  "priority":0,               
  "params":{  
      "watchMode":true
  }
}

參數

說明

可選值

action

限流的action,用於限制不同類型的請求。

  • write:doc寫入請求,包含index和create。

  • update:doc更新要求。

  • delete:doc刪除請求

  • search:查詢請求。

  • search_shards:查詢索引的shard總數請求。

limiter_type

限流類型。支援三大類:

  • 速率

  • 並發度

  • 單要求節流

  • rate:速率,只支援整數。

  • qps:查詢速率,只支援整數。

  • tps:寫入速率,只支援整數。

  • throughput:輸送量,只支援action為write、update和delete。支援的單位包含GB、MB、KB等,最大支援2 GB。

  • thread_count:請求並發度,一個請求為一個並發。

  • concurrent_count:請求並發度,按照請求中的具體操作計算並發數。例如設定search_shards.concurrent_count:20,表示允許最大20個shard並發查詢。

  • max_per_request:單請求中包含的某類操作個數的上限。例如設定update.max_per_request:10,表示一個寫入請求最多有10個update。

  • max_size_per_request:單請求個數上限。只支援action為write、update和delete。

threshold

限流閾值。

int範圍內的整數,>=-1。

說明

部分類型支援帶單位的字串,具體請參見limiter_type說明。

tagName

tag名稱。

  • node:當前節點名。

  • is_master:當前節點是否為master,對應的tag值為true或false。

  • index:索引名。如果有多個索引名,則為數組。如果傳入的是別名,此處也是解析的實際索引名。僅IndicesRequest的子類請求才有此tag。

  • shard:shard名,即index[id],例如test[0]。僅ReplicationRequest的子類請求才有此tag。

  • index_in_url:URL中的index字串,如果傳入的是別名,則此處就是別名。僅IndicesRequest的子類請求才有此tag。

tagValue

tag的值。

字串,可為數組。如果為數組,則對應tag匹配數組中任意一個value即可。支援精確匹配、模糊比對和任意值,例如:

  • 精確匹配:"abc"

  • 模糊比對:"ab*"

  • 任意值:"**"

    說明

    如果為任意值,則為預設限流器。即對這個tag的任意值都會產生一個精確的限流器,例如設定為index:"**",search.tps:1,表示預設情況下,限制每個索引的search速率為1,而不是總search速率為1。

priority

優先順序。

int整數,預設為0。

說明

優先順序越大,排序越靠前。當有多個預設限流器同時命中時,只有優先順序最大的預設限流器會生效。

params

進階參數。

watchMode:是否啟用觀察模式,支援true和false(預設)。如果為true,Elasticsearch只會在metric中記錄拒絕數,但不會實際限流。您可以通過API查看指標監控資訊,用於提前驗證限流效果,避免由於配置錯誤造成錯誤的限流。API的詳細資料,請參見常見問題

配置限流器樣本

設定查詢QPS限流

通過設定查詢索引每秒請求次數,限制協調節點每秒接收的查詢請求數。當每秒接收的查詢請求數超過限流值之後,Elasticsearch會拒絕接收請求。

index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定查詢QPS限流的代碼不同,具體如下。

操作

7.10最新版本

其他版本

設定單個索引的查詢QPS限流

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "search.qps": "1000"
  },
  "tags": {
    "index": "twitter"
  }
}
PUT _qos/_ratelimit/<limiterName>
{
   "search.index_patterns" : "twitter",
   "search.max_queries_per_sec" : 1000
}

設定指定名稱首碼的索引的查詢QPS限流

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "search.qps": "1000"
  },
  "tags": {
    "index": "nginx-log-*"
  }
}
PUT _qos/_ratelimit/<limiterName>
{
   "search.index_patterns" : "nginx-log-*",
   "search.max_queries_per_sec" : 1000
}

設定任意索引的查詢QPS限流

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "search.qps": "1000"
  },
  "tags": {
    "index": "**"
  }
}
說明

index:**表示任意索引。例如叢集中有3個索引A、B、C,則這3個索引的限流值都為1000。

不支援。

設定所有索引的查詢總QPS限流

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "search.qps": "1000"
  },
  "tags": {
    "index": "*"
  }
}
說明

index:*表示任意索引。例如叢集中有3個索引A、B、C,則這3個索引的總限流值為1000。效果等同於不設定這個tags。

PUT _qos/_ratelimit/<limiterName>
{
   "search.index_patterns" : "*",
   "search.max_queries_per_sec" : 1000
}
說明

您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。

當您在用戶端或Kibana控制台上執行資料查詢操作時,如果查詢QPS超過您設定的限流值,系統會顯示如下報錯資訊。請根據報錯資訊適當減少查詢QPS限流。aliyun-qos外掛程式的版本不同,顯示的報錯資訊不同,具體如下:

  • 7.10最新版本

    {
      "error": {
        "root_cause": [
          {
            "type": "status_exception",
            "reason": "search blocked, limited by [<limiterName>][search.qps](<limiterId>) threshold:[x]"
          }
        ],
        "type": "status_exception",
        "reason": "search blocked, limited by [<limiterName>][search.qps](<limiterId>) threshold:[x]"
      },
      "status": 429
    }
  • 其他版本

    {
      "error": {
        "root_cause": [
          {
            "type": "rate_limited_exception",
            "reason": "request indices:data/read/search rejected, limited by [l1:t*:1.0]"
          }
        ],
        "type": "rate_limited_exception",
        "reason": "request indices:data/read/search rejected, limited by [l1:t*:1.0]"
      },
      "status": 429
    }

設定寫入TPS限流

通過設定寫入索引每秒請求次數,限制協調節點每秒接收的寫入請求數。當每秒接收的寫入請求數超過限流值之後,Elasticsearch會拒絕接收請求。

index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定寫入TPS限流的代碼不同,具體如下。

7.10最新版本

其他版本

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "write.tps": "100000"
  },
  "tags": {
    "index": "nginx-log-*"
  }
}

不支援

設定Bulk每秒寫入大小限流

通過設定Bulk每秒寫入的總位元組數,限制協調節點每秒接收的寫入位元組數。當每秒接收的寫入位元組數超過限流值之後,Elasticsearch會拒絕接收請求。

index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定Bulk每秒寫入大小限流的代碼不同,具體如下。

7.10最新版本

其他版本

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "write.throughput": "100MB"
  },
  "tags": {
    "index": "nginx-log-*"
  }
}
PUT _qos/_ratelimit/<limiterName>
{
   "bulk.index_patterns": "nginx-log-*",
   "bulk.max_throughput_in_bytes" : 104857600
}
說明

您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。

設定Bulk單次請求大小限流

通過設定Bulk單次請求的最大值,限制協調節點接收單次請求的寫入位元組數。當單次請求的寫入位元組數超過限流值之後,Elasticsearch會拒絕接收請求。

index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定Bulk單次請求大小限流的代碼不同,具體如下。

7.10最新版本

其他版本

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "write.max_size_per_request": "1000"
  },
  "tags": {
    "index": "nginx-log-*"
  }
}
PUT _qos/_ratelimit/<limiterName>
{
   "bulk.index_patterns": "nginx-log-*",
   "bulk.max_request_size_in_bytes" : 1000
}
說明

您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。

當您在用戶端或Kibana控制台上執行資料寫入操作時,如果單次請求的寫入位元組數超過設定的限流值,系統會顯示如下報錯資訊。請根據報錯資訊適當減少單次請求的寫入位元組數。aliyun-qos外掛程式的版本不同,顯示的報錯資訊不同,具體如下:

  • 7.10最新版本

    {
      "error" : {
        "root_cause" : [
          {
            "type" : "status_exception",
            "reason" : "write_size blocked, limited by [<limiterName>][write.max_size_per_request](<limiterId>) threshold:[x] try acquire [x]"
          }
        ],
        "type" : "status_exception",
        "reason" : "write_size blocked, limited by [<limiterName>][write.max_size_per_request](<limiterId>) threshold:[x] try acquire [x]"
      },
      "status" : 400
    }
  • 其他版本

    {
      "error": {
        "root_cause": [
          {
            "type": "rate_limited_exception",
            "reason": "request indices:data/write/bulk rejected, limited by [b2:ByteSizePreSeconds:992.0]"
          }
        ],
        "type": "rate_limited_exception",
        "reason": "request indices:data/write/bulk rejected, limited by [b2:ByteSizePreSeconds:992.0]"
      },
      "status": 413
    }

設定查詢shard並發個數限流

通過設定並發查詢shard數,來降低叢集壓力。index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定查詢shard並發個數限流的代碼不同,具體如下。

7.10最新版本

其他版本

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "search_shards.concurrent_count": "10"
  },
  "tags": {
    "index": "nginx-log-*"
  }
}

不支援

說明

您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。

設定多個限流器配置

支援同時設定限流器的多個配置。index和index_patterns的值支援完整索引名稱和索引萬用字元。aliyun-qos外掛程式的版本不同,設定多個限流器配置的代碼不同,具體如下。

7.10最新版本

其他版本

PUT /_qos/limiter/<limiterName>
{
  "limiters": {
    "search.qps": "1000",
    "write.tps": "100000",
    "write.throughput": "1000000",
    "write.max_size_per_request": "1000",
    "search_shards.concurrent_count": "10"
  },
  "tags": {
    "index": "nginx-log-*"
  }
}

不支援

說明

您可以定義多條不同的規則,只要請求命中任意一條規則,就會觸發限流。

擷取限流配置

aliyun-qos外掛程式的版本不同,擷取限流配置的代碼不同,具體如下。

操作

7.10最新版本

其他版本

擷取所有限流配置

GET _qos/limiter
GET _qos/_ratelimit

擷取單個指定的限流配置

GET _qos/limiter/<limiterName>
GET _qos/_ratelimit/<limiterName>

擷取多個指定的限流配置

說明

多個限流器之間用英文逗號(,)分隔,不支援萬用字元。

GET _qos/limiter/<limiterName1,limiterName2>
GET _qos/_ratelimit/<limiterName1,limiterName2>

刪除限流配置

aliyun-qos外掛程式的版本不同,刪除限流配置的代碼不同,具體如下。

操作

7.10最新版本

其他版本

刪除單個指定的限流配置

DELETE _qos/limiter/<limiterName>
DELETE _qos/_ratelimit/<limiterName>

刪除多個指定的限流配置

說明

多個限流器之間用英文逗號(,)分隔,不支援萬用字元。

DELETE _qos/limiter/<limiterName1,limiterName2>
DELETE _qos/_ratelimit/<limiterName1,limiterName2>

常見問題

Q:如何擷取限流相關的指標監控資訊?

A:可以通過以下API擷取:

  • 擷取當前指標資料

    • 擷取當前所有指標資料

      GET /_qos/limiter/nodes/stats
    • 擷取當前指定{node}指標資料

      GET /_qos/limiter/nodes/{nodeId}/stats
    • 擷取當前指定{node}和{limiter}指標資料

      GET /_qos/limiter/nodes/{nodeId}/stats/{limiterIds}
  • 擷取歷史指標資料

    • 擷取歷史所有指標資料

      GET /_qos/limiter/metric
    • 擷取歷史指定{limiter}指標資料

      GET /_qos/limiter/metric/{limiterId}