本文列舉了一些開源Elasticsearch(ES)相關的常見問題,例如,如何配置索引線程池大小,如何重新分配索引分區,如何大量刪除索引等。
常見問題概覽
如何配置索引線程池大小?
在YML參數配置中,指定thread_pool.write.queue_size參數的大小即可。具體操作步驟,請參見配置YML參數。
對於6.x以下版本的Elasticsearch叢集,需要使用thread_pool.index.queue_size參數。
出現記憶體溢出OOM(OutOfMemory)的錯誤,如何處理?
通過以下命令清理緩衝,然後觀察具體原因,根據原因升配叢集或調整業務。
curl -u elastic:<password> -XPOST "localhost:9200/<index_name>/_cache/clear?pretty"
變數名 | 說明 |
| Elasticsearch執行個體的密碼,為您在建立Elasticsearch執行個體時設定的密碼,或初始化Kibana時指定的密碼。 |
| 索引名稱。 |
如何手動對shard進行操作?
使用reroute API,或通過Cerebro進行操作。具體操作步驟,請參見Cluster reroute API和Cerebro。
Elasticsearch的緩衝清除策略有哪些?
Elasticsearch支援以下三種緩衝清除策略:
清除全部緩衝
curl localhost:9200/_cache/clear?pretty
清除單一索引緩衝
curl localhost:9200/<index_name>/_cache/clear?pretty
清除多索引緩衝
curl localhost:9200/<index_name1>,<index_name2>,<index_name3>/_cache/clear?pretty
如何重新分配索引分區(reroute)?
當出現分區丟失、分區錯誤等分區問題時,您可以執行以下命令進行reroute操作。
curl -XPOST 'localhost:9200/_cluster/reroute' -d '{
"commands" : [ {
"move" :
{
"index" : "test", "shard" : 0,
"from_node" : "node1", "to_node" : "node2"
}
},
{
"allocate" : {
"index" : "test", "shard" : 1, "node" : "node3"
}
}
]
}'
索引查詢時,提示statusCode: 500
的錯誤,如何處理?
建議您通過第三方外掛程式進行查詢(例如Cerebro):
查詢正常:說明該錯誤大機率是由於索引名稱不規範引起的。規範的索引名稱只包含英文、底線和數字,您可以通過修改索引名稱來修複此問題。
查詢不正常:說明索引或叢集本身存在問題。請確保叢集中存在該索引,且叢集處於正常狀態。
如何修改自動建立索引auto_create_index
參數?
執行以下命令修改。
PUT /_cluster/settings
{
"persistent" : {
"action": {
"auto_create_index": "false"
}
}
}
auto_create_index
參數的預設值為false,表示不允許自動建立索引。一般建議您不要調整該值,否則會引起索引太多、索引Mapping和Setting不符合預期等問題。
OSS快照大概需要多久?
在叢集的分區數、記憶體、磁碟和CPU等正常的情況下,80 GB的索引資料進行OSS快照,大約需要30分鐘。
建立索引時,如何設定分區數?
建議您將單個分區儲存索引資料的大小控制在30 GB以內,不要超過50 GB,否則會極大降低查詢效能。根據上述建議,最終分區數量 = 資料總量/30 GB。
適當提升分區數量可以提升建立索引的速度。分區數過多或過少,都會降低查詢速度,具體說明如下:
分區數過多會導致需要開啟的檔案比較多。由於分區是儲存在不同機器上的,因此分區數越多,各個節點之間的互動也就越多,導致查詢效率降低。
分區數過少會導致單個分區索引過大,降低整體的查詢效率。
自建Elasticsearch遷移資料,使用elasticsearch-repository-oss外掛程式遇到如下問題,如何解決?
問題:ERROR: This plugin was built with an older plugin structure. Contact the plugin author to remove the intermediate "elasticsearch" directory within the plugin zip
。
解決方案:將elasticsearch改名為elasticsearch-repository-oss, 然後複製到plugins目錄下。
如何調整Kibana可視化展示資料的時區?
您可以在Kibana中,通過轉換時區來調整伺服器時間,如下圖(以6.7.0版本為例)。選擇時區如下圖所示。
Elasticsearch的Term查詢適用於哪種類型的資料?
Term為單詞層級的查詢,這些查詢通常用於結構化的資料,例如number、date、keyword等,而不是text。
全⽂文字查詢之前要先對常值內容進行分詞,而單詞層級的查詢直接在相應欄位的反向索引中精確尋找,單詞層級的查詢一般用於數值、日期等類型的欄位上。
使用ES的別名(aliases)功能需要注意哪些問題?
需要將別名裡索引的分區控制在1024個以內。
在查詢過程中,出現報錯too_many_buckets_exception
,如何處理?
報錯:"type": "too_many_buckets_exception", "reason": "Trying to create too many buckets. Must be less than or equal to: [10000] but was [10001]
問題分析與解決方案:請參見控制彙總中建立的桶數。除了調整業務彙總的size大小,您還可以參見Increasing max_buckets for specific Visualizations來處理。
如何大量刪除索引?
預設情況下,Elasticsearch不允許大量刪除索引,需要通過以下命令手動開啟。開啟後,您可以通過萬用字元進行大量刪除操作。
PUT /_cluster/settings
{
"persistent": {
"action.destructive_requires_name": false
}
}
script.painless.regex.enabled參數能否修改?
此參數預設值是false,不建議修改。如果要在painless指令碼中使用Regex,需要在elasticsearch.yml中設定script.painless.regex.enabled參數為true。由於Regex會消耗大量資源,官方不建議使用,因此沒有開啟此參數。
如何修改Elasticsearch的mapping、主分區和副本分區數量?
已經建立的索引修改mapping,建議通過reindex重建索引。
說明mapping中支援的欄位類型,請參見Data field type。
已經建立的索引無法修改主分區,建議通過reindex重建索引修改。
說明建議您在建立索引前規劃好分區數,減少後期調整。
已經建立的索引修改副本數,可以參考以下命令修改:
PUT test/_settings { "number_of_replicas": 0 }
ES如何設定儲存某個欄位?
除_source
欄位,預設情況下,ES不會單獨儲存欄位值。如果需要隔離儲存區 (Isolated Storage)某些欄位,可以在索引的映射中將欄位的store屬性設定為true。
ES的_source
欄位包含原始JSON文檔,提供了從原始文檔檢索任何欄位的能力。通常不推薦開啟欄位儲存,以免增加磁碟空間的使用。
以儲存my_field
欄位為例:
PUT / my_index {
"mappings": {
"properties": {
"my_field": {
"type": "text",
"store": true
}
}
}
}
ES如何設定某個欄位是否可以參與彙總?
欄位是否可以彙總通常取決於欄位的類型和是否有相關的欄位資料(doc_values或fielddata)可用。
數字欄位、日期欄位和keyword類型欄位,預設使用doc_values,預設情況下可以彙總。
說明doc_values是專為排序、彙總和指令碼操作最佳化的列儲存格式。
text類型欄位,預設情況下不支援彙總。如果您需要對text欄位進行彙總,必須在映射中啟用fielddata。
說明開啟fielddata會顯著增加記憶體使用量,因為它會把所有的文本資料載入到記憶體中。
PUT /my_index{ "mappings": { "properties": { "my_text_field": { "type": "text", "fielddata": true } } } }
如果您不希望某個欄位參與彙總,可以根據您的應用邏輯選擇以下任一方式:
通過設定enabled屬性為false來排除整個對象欄位。
選擇不將非彙總欄位包含在文檔中。
配置ES時遇到報錯Unknown char_filter type [stop] for **
,如何處理?
在配置ES時遇到報錯Unknown char_filter type [stop] for **
,表明您嘗試在char_filter
部分使用stop類型,但實際上stop是一個Token Filter
而非Character Filter
。
解決方案如下:
更正配置位置:如果您意圖使用停用詞過濾器,請將stop配置移至analyzer配置的filter部分,而非
char_filter
。停用詞過濾器用於從Token流中移除指定的停用詞列表中的詞語。樣本:
"settings": { "analysis": { "analyzer": { "my_custom_analyzer": { "type": "custom", "tokenizer": "standard", "filter": [ // 正確位置:在filter數組內 "lowercase", "stop" // 使用stop Token Filter ] } }, "filter": { // 定義stop Token Filter的具體配置(如有必要) "stop": { "type": "stop", "stopwords": "_english_" // 或自訂停用詞列表 } } } }
檢查類型名稱:確認其他配置如
tokenizer
或char_filter
中是否正確的指定類型名稱,避免類似的類型誤用。請根據您的實際需求調整配置,確保
char_filter
、tokenizer
和filter
各部分都使用了正確的組件類型。