開源Elasticsearch的常見問題 - Elasticsearch

本文列舉了一些開源Elasticsearch（ES）相關的常見問題，例如，如何配置索引線程池大小，如何重新分配索引分區，如何大量刪除索引等。

常見問題概覽

如何配置索引線程池大小？
出現記憶體溢出OOM（OutOfMemory）的錯誤，如何處理？
如何手動對shard進行操作？
Elasticsearch的緩衝清除策略有哪些？
如何重新分配索引分區（reroute）？
索引查詢時，提示statusCode: 500的錯誤，如何處理？
如何修改自動建立索引auto_create_index參數？
OSS快照大概需要多久？
建立索引時，如何設定分區數？
自建Elasticsearch遷移資料，使用elasticsearch-repository-oss外掛程式遇到如下問題，如何解決？
如何調整Kibana可視化展示資料的時區？
Elasticsearch的Term查詢適用於哪種類型的資料？
使用ES的別名（aliases）功能需要注意哪些問題？
在查詢過程中，出現報錯too_many_buckets_exception，如何處理？
如何大量刪除索引？
script.painless.regex.enabled參數能否修改？
如何修改Elasticsearch的mapping、主分區和副本分區數量？
ES如何設定儲存某個欄位？
ES如何設定某個欄位是否可以參與彙總？
配置ES時遇到報錯Unknown char_filter type [stop] for ** ，如何處理？

如何配置索引線程池大小？

在YML參數配置中，指定thread_pool.write.queue_size參數的大小即可。具體操作步驟，請參見配置YML參數。配置線程池大小

重要

對於6.x以下版本的Elasticsearch叢集，需要使用thread_pool.index.queue_size參數。

出現記憶體溢出OOM（OutOfMemory）的錯誤，如何處理？

通過以下命令清理緩衝，然後觀察具體原因，根據原因升配叢集或調整業務。

curl -u elastic:<password> -XPOST "localhost:9200/<index_name>/_cache/clear?pretty"

變數名	說明
`<password>`	Elasticsearch執行個體的密碼，為您在建立Elasticsearch執行個體時設定的密碼，或初始化Kibana時指定的密碼。
`<index_name>`	索引名稱。

如何手動對shard進行操作？

使用reroute API，或通過Cerebro進行操作。具體操作步驟，請參見Cluster reroute API和Cerebro。

Elasticsearch的緩衝清除策略有哪些？

Elasticsearch支援以下三種緩衝清除策略：

清除全部緩衝
```
curl localhost:9200/_cache/clear?pretty
```

清除單一索引緩衝

curl localhost:9200/<index_name>/_cache/clear?pretty

清除多索引緩衝

curl localhost:9200/<index_name1>,<index_name2>,<index_name3>/_cache/clear?pretty

如何重新分配索引分區（reroute）？

當出現分區丟失、分區錯誤等分區問題時，您可以執行以下命令進行reroute操作。

curl -XPOST 'localhost:9200/_cluster/reroute' -d '{
    "commands" : [ {
        "move" :
            {
              "index" : "test", "shard" : 0,
              "from_node" : "node1", "to_node" : "node2"
            }
        },
        {
          "allocate" : {
              "index" : "test", "shard" : 1, "node" : "node3"
          }
        }
    ]
}'

索引查詢時，提示`statusCode: 500`的錯誤，如何處理？

建議您通過第三方外掛程式進行查詢（例如Cerebro）：

查詢正常：說明該錯誤大機率是由於索引名稱不規範引起的。規範的索引名稱只包含英文、底線和數字，您可以通過修改索引名稱來修複此問題。
查詢不正常：說明索引或叢集本身存在問題。請確保叢集中存在該索引，且叢集處於正常狀態。

如何修改自動建立索引`auto_create_index`參數？

執行以下命令修改。

PUT /_cluster/settings
{
    "persistent" : {
        "action": {
          "auto_create_index": "false"
        }
    }
}

重要

auto_create_index參數的預設值為false，表示不允許自動建立索引。一般建議您不要調整該值，否則會引起索引太多、索引Mapping和Setting不符合預期等問題。

OSS快照大概需要多久？

在叢集的分區數、記憶體、磁碟和CPU等正常的情況下，80 GB的索引資料進行OSS快照，大約需要30分鐘。

建立索引時，如何設定分區數？

建議您將單個分區儲存索引資料的大小控制在30 GB以內，不要超過50 GB，否則會極大降低查詢效能。根據上述建議，最終分區數量 = 資料總量/30 GB。

適當提升分區數量可以提升建立索引的速度。分區數過多或過少，都會降低查詢速度，具體說明如下：

分區數過多會導致需要開啟的檔案比較多。由於分區是儲存在不同機器上的，因此分區數越多，各個節點之間的互動也就越多，導致查詢效率降低。
分區數過少會導致單個分區索引過大，降低整體的查詢效率。

自建Elasticsearch遷移資料，使用elasticsearch-repository-oss外掛程式遇到如下問題，如何解決？

問題：ERROR: This plugin was built with an older plugin structure. Contact the plugin author to remove the intermediate "elasticsearch" directory within the plugin zip。

解決方案：將elasticsearch改名為elasticsearch-repository-oss，然後複製到plugins目錄下。

如何調整Kibana可視化展示資料的時區？

您可以在Kibana中，通過轉換時區來調整伺服器時間，如下圖（以6.7.0版本為例）。調整伺服器時間1 選擇時區如下圖所示。

Elasticsearch的Term查詢適用於哪種類型的資料？

Term為單詞層級的查詢，這些查詢通常用於結構化的資料，例如number、date、keyword等，而不是text。

說明

全⽂文字查詢之前要先對常值內容進行分詞，而單詞層級的查詢直接在相應欄位的反向索引中精確尋找，單詞層級的查詢一般用於數值、日期等類型的欄位上。

使用ES的別名（aliases）功能需要注意哪些問題？

需要將別名裡索引的分區控制在1024個以內。

在查詢過程中，出現報錯`too_many_buckets_exception`，如何處理？

報錯："type": "too_many_buckets_exception", "reason": "Trying to create too many buckets. Must be less than or equal to: [10000] but was [10001]

問題分析與解決方案：請參見控制彙總中建立的桶數。除了調整業務彙總的size大小，您還可以參見Increasing max_buckets for specific Visualizations來處理。

如何大量刪除索引？

預設情況下，Elasticsearch不允許大量刪除索引，需要通過以下命令手動開啟。開啟後，您可以通過萬用字元進行大量刪除操作。

PUT /_cluster/settings
{
  "persistent": {
     "action.destructive_requires_name": false
  }
}

script.painless.regex.enabled參數能否修改？

此參數預設值是false，不建議修改。如果要在painless指令碼中使用Regex，需要在elasticsearch.yml中設定script.painless.regex.enabled參數為true。由於Regex會消耗大量資源，官方不建議使用，因此沒有開啟此參數。

如何修改Elasticsearch的mapping、主分區和副本分區數量？

已經建立的索引修改mapping，建議通過reindex重建索引。
說明
mapping中支援的欄位類型，請參見Data field type。
已經建立的索引無法修改主分區，建議通過reindex重建索引修改。
說明
建議您在建立索引前規劃好分區數，減少後期調整。
已經建立的索引修改副本數，可以參考以下命令修改：
```
PUT test/_settings
{
  "number_of_replicas": 0
}
```

ES如何設定儲存某個欄位？

除_source欄位，預設情況下，ES不會單獨儲存欄位值。如果需要隔離儲存區 (Isolated Storage)某些欄位，可以在索引的映射中將欄位的store屬性設定為true。

說明

ES的_source欄位包含原始JSON文檔，提供了從原始文檔檢索任何欄位的能力。通常不推薦開啟欄位儲存，以免增加磁碟空間的使用。

以儲存my_field欄位為例：

PUT / my_index {
	"mappings": {
		"properties": {
			"my_field": {
				"type": "text",
				"store": true
			}
		}
	}
}

ES如何設定某個欄位是否可以參與彙總？

欄位是否可以彙總通常取決於欄位的類型和是否有相關的欄位資料（doc_values或fielddata）可用。

數字欄位、日期欄位和keyword類型欄位，預設使用doc_values，預設情況下可以彙總。
說明
doc_values是專為排序、彙總和指令碼操作最佳化的列儲存格式。
text類型欄位，預設情況下不支援彙總。如果您需要對text欄位進行彙總，必須在映射中啟用fielddata。
說明
開啟fielddata會顯著增加記憶體使用量，因為它會把所有的文本資料載入到記憶體中。
```
PUT /my_index{
  "mappings": {
    "properties": {
      "my_text_field": {
        "type": "text",
        "fielddata": true
      }
    }
  }
}
```
如果您不希望某個欄位參與彙總，可以根據您的應用邏輯選擇以下任一方式：
- 通過設定enabled屬性為false來排除整個對象欄位。
- 選擇不將非彙總欄位包含在文檔中。

配置ES時遇到報錯`Unknown char_filter type [stop] for **` ，如何處理？

在配置ES時遇到報錯Unknown char_filter type [stop] for ** ，表明您嘗試在char_filter部分使用stop類型，但實際上stop是一個Token Filter而非Character Filter。

解決方案如下：

更正配置位置：如果您意圖使用停用詞過濾器，請將stop配置移至analyzer配置的filter部分，而非char_filter。停用詞過濾器用於從Token流中移除指定的停用詞列表中的詞語。

樣本：

"settings": {
 "analysis": {
   "analyzer": {
      "my_custom_analyzer": {
        "type": "custom",
        "tokenizer": "standard",
        "filter": [       // 正確位置：在filter數組內
          "lowercase",
          "stop"        // 使用stop Token Filter
        ]
      }
   },
   "filter": {          // 定義stop Token Filter的具體配置（如有必要）
      "stop": {
        "type": "stop",
        "stopwords": "_english_" // 或自訂停用詞列表
      }
   }
 }
}

檢查類型名稱：確認其他配置如tokenizer或char_filter中是否正確的指定類型名稱，避免類似的類型誤用。
請根據您的實際需求調整配置，確保char_filter、tokenizer和filter各部分都使用了正確的組件類型。