検索アナライザー - Tair (Redis® OSS-Compatible) - Alibaba Cloud ドキュメントセンター

アナライザーを使用して、ドキュメントをインデックスに保存できる単語に分解および分割します。ほとんどの場合、TairSearchの組み込みアナライザーまたはニーズに合ったカスタムアナライザーを使用できます。このトピックでは、TairSearchアナライザーの使用方法について説明します。

TairSearchアナライザーのワークフロー

TairSearchアナライザーは、文字フィルター、トークナイザー、およびトークンフィルターで構成され、これらは順次適用されます。文字フィルターとトークンフィルターは空のままにできます。分词器工作流程の説明:

文字フィルター: ドキュメントを前処理します。 TairSearchアナライザーでは、指定した順序で実行する0個以上の文字フィルターを設定できます。例えば、文字フィルタは、"(:" を "happy" に置き換えることができる。
Tokenizer: ドキュメントを複数のトークンに分割します。 TairSearchアナライザーごとに指定できるトークナイザーは1つだけです。たとえば、空白トークナイザーを使用して、"I am very happy" を ["I", "am", "very", "happy"] に分割できます。
トークンフィルター: 指定されたトークナイザーによって生成されたトークンを処理します。 TairSearchアナライザーに対して、指定した順序で実行するゼロ以上のトークンフィルターを設定できます。たとえば、ストップトークンフィルターを使用してストップワードをフィルタリングできます。

内蔵アナライザー

標準

標準アナライザーは、Unicode標準付録 #29で指定されているように、Unicodeテキスト分割アルゴリズムに基づいてドキュメントを分割し、トークンを小文字に変換し、ストップワードを除外します。アナライザーはほとんどの言語でうまく機能します。

コンポーネント:

Tokenizer: 標準
トークンフィルター: 小文字およびstop

説明

文字フィルタがないことは、使用可能な文字フィルタがないことを示す。

オプションパラメータ:

stopwords: 除外するストップワード。データ型: ARRAY。各ストップワードは文字列でなければなりません。このパラメーターを指定すると、デフォルトのストップワードが上書きされます。デフォルトの停止ワード:
```
["a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or" 、"such" 、"that" 、"the" 、"their" 、"then" 、"there" 、"these" 、"they" 、"this" 、"to" 、"was" 、"will" 、"with"]
```
max_token_length: トークンに許可される最大文字数。デフォルト値: 255 最大長を超えるトークンは、指定された最大長に基づいて分割されます。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"standard"
      }
    }
  }
}

# Use of custom stop words:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_analyzer":{
          "type":"standard",
          "max_token_length":10,
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ]
        }
      }
    }
  }
}

停止

ストップアナライザーは、ドキュメントを任意の文字以外のトークンに分割し、トークンを小文字に変換し、ストップワードを除外します。

コンポーネント:

Tokenizer: 小文字
トークンフィルター: stop

オプションパラメータ:

stopwords: 除外するストップワード。データ型: ARRAY。各ストップワードは文字列でなければなりません。このパラメーターを指定すると、デフォルトのストップワードが上書きされます。デフォルトの停止ワード:
```
["a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or" 、"such" 、"that" 、"the" 、"their" 、"then" 、"there" 、"these" 、"they" 、"this" 、"to" 、"was" 、"will" 、"with"]
```

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"stop"
      }
    }
  }
}

# Use of custom stop words:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_analyzer":{
          "type":"stop",
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ]
        }
      }
    }
  }
}

ジーバ

jiebaアナライザーは、中国語のドキュメントに推奨されます。トレーニング済みまたは指定された辞書に基づいてドキュメントを分割し、英語のトークンを小文字に変換し、ストップワードを除外します。

コンポーネント:

Tokenizer: jieba
トークンフィルター: 小文字およびstop

オプションパラメータ:

userwords: ユーザー定義の単語の辞書。データ型: ARRAY。各単語は文字列でなければなりません。このパラメーターを指定すると、ユーザー定義の単語がデフォルトの辞書に追加されます。詳しくは、 jiebaのデフォルト辞書。
重要
- jiebaアナライザーには、サイズが20 MBの大きな組み込み辞書があります。この辞書の単一のコピーのみがjiebaのメモリに保持されます。この辞書は、jiebaが初めて使用された場合にのみロードされます。これは、jiebaを使用している間、レイテンシにわずかなジッタを引き起こす可能性があります。
- カスタム辞書内の単語には、\t、\n、、、。
use_hmm: 辞書に含まれていない単語を処理するために隠れマルコフモデル (hmm) を使用するかどうかを指定します。有効な値: trueおよびfalse。デフォルト値：true
stopwords: 除外するストップワード。データ型: ARRAY。各ストップワードは文字列でなければなりません。このパラメーターを指定すると、デフォルトのストップワードが上書きされます。詳しくは、 jiebaのデフォルトのストップワード。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"jieba"
      }
    }
  }
}

# Use of custom stop words:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_analyzer":{
          "type":"jieba",
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ],"userwords":[
            "Redis",
            "open-source",
            "flexible"
          ],
          "use_hmm":true
        }
      }
    }
  }
}

IK

IKアナライザーは中国語のドキュメントに使用され、Alibaba Cloud ElasticsearchのIKアナライザープラグインと互換性があります。 IKは、ik_max_wordモードとik_smartモードをサポートしています。 ik_max_wordモードでは、IKはすべての可能なトークンを識別する。 ik_smartモードでは、ikはik_max_wordモードの結果をフィルタリングして、最も可能なトークンを識別します。

説明

```
 
```
```
 
```

コンポーネント:

Tokenizer: IK

オプションパラメータ:

stopwords: 除外するストップワード。データ型: ARRAY。各ストップワードは文字列でなければなりません。このパラメーターを指定すると、デフォルトのストップワードが上書きされます。デフォルトの停止ワード:
```
["a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or" 、"such" 、"that" 、"the" 、"their" 、"then" 、"there" 、"these" 、"they" 、"this" 、"to" 、"was" 、"will" 、"with"]
```
userwords: ユーザー定義の単語の辞書。データ型: ARRAY。各単語は文字列でなければなりません。このパラメーターを指定すると、ユーザー定義の単語がデフォルトの辞書に追加されます。詳しくは、 IKのデフォルト辞書。
quantifiers: ユーザー定義のquantifiersのディクショナリ。データ型: ARRAY。このパラメーターを指定すると、ユーザー定義の量子がデフォルトのディクショナリに追加されます。詳しくは、 IKのデフォルトの数量化ディクショナリ。
enable_lowercase: 大文字を小文字に変換するかどうかを指定します。有効な値: trueおよびfalse。デフォルト値：true
重要
カスタム辞書に大文字が含まれている場合は、ドキュメントを分割する前に変換が実行されるため、このパラメーターをfalseに設定します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"ik_smart"
      },
      "f1":{
        "type":"text",
        "analyzer":"ik_max_word"
      }
    }
  }
}

# Use of custom stop words:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_ik_smart_analyzer"
      },
      "f1":{
        "type":"text",
        "analyzer":"my_ik_max_word_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_ik_smart_analyzer":{
          "type":"ik_smart",
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ],"userwords":[
            "Redis",
            "open-source",
            "flexible"
          ],
          "quantifiers":[
            "ns"
          ],
          "enable_lowercase":false
        },
        "my_ik_max_word_analyzer":{
          "type":"ik_max_word",
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ],"userwords":[
            "Redis",
            "open-source",
            "flexible"
          ],
          "quantifiers":[
            "ns"
          ],
          "enable_lowercase":false
        }
      }
    }
  }
}

Pattern

パターンアナライザーは、指定された正規表現に基づいてドキュメントを分割します。正規表現と一致する単語は、区切り文字として使用されます。たとえば、"aaa" 正規表現を使用して "bbbaaaccc" を分割すると、分割結果は "bbb" と "ccc" になります。同時に、小文字パラメーターを指定してトークンを小文字に変換し、ストップワードを除外することができます。

コンポーネント:

Tokenizer: パターン
トークンフィルター: 小文字およびstop

オプションパラメータ:

pattern: 正規表現。正規表現と一致する単語は、区切り文字として使用されます。デフォルト値: \W + 正規表現の構文の詳細については、『GitHub』をご参照ください。
stopwords: 除外するストップワード。ストップワードのディクショナリは配列でなければならず、各ストップワードは文字列でなければなりません。ストップワードを指定すると、デフォルトのストップワードが上書きされます。デフォルトの停止ワード:
```
["a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or" 、"such" 、"that" 、"the" 、"their" 、"then" 、"there" 、"these" 、"they" 、"this" 、"to" 、"was" 、"will" 、"with"]
```
lowercase: トークンを小文字に変換するかどうかを指定します。有効な値: trueおよびfalse。デフォルト値：true
flags: 正規表現が大文字と小文字を区別するかどうかを指定します。デフォルトでは、このパラメーターは空のままです。これは、正規表現が大文字と小文字を区別することを示します。 CASE_INSENSITIVEの値は、正規表現が大文字と小文字を区別しないことを示します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"ik_smart"
      },
      "f1":{
        "type":"text",
        "analyzer":"ik_max_word"
      }
    }
  }
}

# Use of custom stop words:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_ik_smart_analyzer"
      },
      "f1":{
        "type":"text",
        "analyzer":"my_ik_max_word_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_ik_smart_analyzer":{
          "type":"ik_smart",
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ],"userwords":[
            "Redis",
            "open-source",
            "flexible"
          ],
          "quantifiers":[
            "ns"
          ],
          "enable_lowercase":false
        },
        "my_ik_max_word_analyzer":{
          "type":"ik_max_word",
          "stopwords":[
            "memory",
            "disk",
            "is",
            "a"
          ],"userwords":[
            "Redis",
            "open-source",
            "flexible"
          ],
          "quantifiers":[
            "ns"
          ],
          "enable_lowercase":false
        }
      }
    }
  }
}

ホワイトスペース

空白アナライザーは、空白文字に遭遇するたびにドキュメントをトークンに分割します。

コンポーネント:

Tokenizer: 空白

オプションパラメータ: なし

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"whitespace"
      }
    }
  }
}

シンプル

シンプルアナライザーは、文書を任意の文字以外の文字でトークンに分割し、トークンを小文字に変換します。

コンポーネント:

Tokenizer: 小文字

オプションパラメータ: なし

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"simple"
      }
    }
  }
}

キーワード

キーワードアナライザは、文書を分割せずに文書をトークンに変換する。

コンポーネント:

Tokenizer: キーワード

オプションパラメータ: なし

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"simple"
      }
    }
  }
}

言語

言語アナライザーは、中国語、アラビア語、cjk、ブラジル、チェコ語、ドイツ語、ギリシャ語、ペルシャ語、フランス語、オランダ語、ロシア語で利用できます。

オプションパラメータ:

stopwords: 除外するストップワード。ストップワードのディクショナリは配列でなければならず、各ストップワードは文字列でなければなりません。ストップワードを指定すると、デフォルトのストップワードが上書きされます。さまざまな言語のデフォルトのストップワードの詳細については、このトピックの付録4: 組み込み言語アナライザーのデフォルトのストップワードを参照してください。
説明
中国語アナライザーのストップワードは変更できません。
stem_exclusion: 語幹が抽出されない単語。たとえば、"apples" の茎を抽出すると、結果は "apple" になります。デフォルトでは、このパラメータは空のままです。 stem_exclusionパラメーターの値は配列で、各単語は文字列である必要があります。
説明
このパラメータは、ブラジル、ドイツ、フランス、およびオランダのアナライザでのみサポートされています。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"arabic"
      }
    }
  }
}

# Use of custom stop words:
{
    "mappings":{
        "properties":{
            "f0":{
                "type":"text",
                "analyzer":"my_analyzer"
            }
        }
    },
    "settings":{
        "analysis":{
            "analyzer":{
                "my_analyzer":{
                    "type":"german",
                    "stopwords":[
                        "ein"
                    ],
                    "stem_exclusion":[
                        "speicher"
                    ]
                }
            }
        }
    }
}

カスタムアナライザー

カスタムTairSearchアナライザーは、文字フィルター、トークナイザー、およびトークンフィルターの組み合わせとして定義されます。ニーズに応じて、対応するchar_filter、トークナイザー、およびフィルターパラメーターを指定できます。

メソッド: analyzerパラメーターを、propertiesのmy_custom_analyzerなどのカスタムアナライザーに設定します。 設定でmy_custom_analyzerカスタムアナライザーを設定します。

下表に、各パラメーターを説明します。

パラメーター	説明
タイプ	カスタムアナライザー。このパラメーターは必須で、customに設定されています。
char_filter	文字をフィルターしてドキュメントを前処理します。デフォルトでは、このパラメーターは空のままです。これは、TairSearchがドキュメントを前処理しないことを示します。このパラメーターはオプションで、マッピングにのみ設定できます。フィールド： type: このパラメーターは必須で、mappingに設定されています。詳細については、このトピックの「付録1: サポートされる文字フィルター」をご参照ください。
tokenizer	トークナイザー。 This parameter is required. 単一のトークナイザーのみを指定できます。有効な値: whitespace、小文字、standard、classic、letter、keyword、jieba、pattern、ik_max_word、ik_smart 詳細については、このトピックの「付録2: サポートされるトークナイザー」を参照してください。
フィルター	トークンを小文字に変換し、ストップワードを除外します。このパラメーターはオプションです。このパラメーターには複数の値を指定できます。デフォルトでは、このパラメーターは空のままです。これは、Tairsearchがトークンを処理しないことを示します。有効な値: classic、elision、小文字、snowball、stop、asciifolding、length、arabic_normalization、persian_normalization。詳細については、このトピックの「付録3: サポートされるトークンフィルター」を参照してください。

設定例：

# Configure the custom analyzer:
# In this example, emoticons and conjunctions are specified as the character filters. In addition, the whitespace tokenizer and the lowercase and stop token filters are specified. 
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":[
            "lowercase",
            "stop"
          ],
          "char_filter": [
            "emoticons",
            "conjunctions"
          ]
        }
      },
      "char_filter":{
        "emoticons":{
          "type":"mapping",
          "mappings":[
            ":) => _happy_",
            ":( => _sad_"
           ]
        },
        "conjunctions":{
          "type":"mapping",
          "mappings":[
            "&=>and"
          ]
        }
      }
    }
  }
}

付録1: サポートされている文字フィルター

マッピング文字フィルター

マッピングでキーと値のペアを設定できます。このように、キーが識別されると、キーは対応する値に置き換えられる。たとえば、":) =>_ happy_" は、":)" が "_happy_" に置き換えられることを示します。複数の文字フィルターを指定できます。

パラメーター：

mappings: このパラメーターは必須です。データ型: ARRAY。各要素には => を含める必要があります。例: "&=> and"

設定例：

{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"standard",
          "char_filter": [
            "emoticons"
          ]
        }
      },
      "char_filter":{
        "emoticons":{
          "type":"mapping",
          "mappings":[
            ":) => _happy_",
            ":( => _sad_"
          ]
        }
      }
    }
  }
}

付録2: サポートされるトークナイザー

空白

空白トークナイザーは、空白文字に遭遇するたびにドキュメントをトークンに分割します。

オプションパラメータ:

max_token_length: トークンに許可される最大文字数。デフォルト値: 255 最大長を超えるトークンは、指定された最大長に基づいて分割されます。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace"
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"token1"
        }
      },
      "tokenizer":{
        "token1":{
          "type":"whitespace",
          "max_token_length":2
        }
      }
    }
  }
}

標準

標準トークナイザは、Unicode standard Annex #29で指定されているように、Unicode Text Segmentationアルゴリズムに基づいてドキュメントを分割します。トークナイザーはほとんどの言語でうまく機能します。

オプションパラメータ:

max_token_length: トークンに許可される最大文字数。デフォルト値: 255 最大長を超えるトークンは、指定された最大長に基づいて分割されます。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"standard"
        }
      }
    }
  }
}
# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"token1"
        }
      },
      "tokenizer":{
        "token1":{
          "type":"standard",
          "max_token_length":2
        }
      }
    }
  }
}

クラシック

クラシックトークナイザーは、英語の文法に基づいてドキュメントを分割し、次のセクションで説明するように、頭字語、会社名、電子メールアドレス、およびIPアドレスを特別な方法で処理します。

句読点でドキュメントを分割し、句読点を削除します。空白のない期間 (.) は句読点とは見なされません。たとえば、red.appleは分割されず、red.[space] appleはredとappleに分割されます。
ハイフンでドキュメントを分割します。トークンに数字が含まれている場合、トークンは製品番号として解釈され、分割されません。
電子メールアドレスとホスト名をトークンとして識別します。

オプションパラメータ:

max_token_length: トークンに許可される最大文字数。デフォルト値: 255 最大長を超えるトークンはスキップされます。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"classic"
        }
      }
    }
  }
}
# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"token1"
        }
      },
      "tokenizer":{
        "token1":{
          "type":"classic",
          "max_token_length":2
        }
      }
    }
  }
}

手紙

文字トークナイザは、文書を任意の文字以外の文字でトークンに分割し、ヨーロッパ言語でうまく機能します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"letter"
        }
      }
    }
  }
}

小文字

小文字のトークナイザーは、文書を任意の文字以外の文字でトークンに分割し、すべてのトークンを小文字に変換します。小文字のトークナイザーの分割結果は、文字トークナイザーと小文字のトークンフィルターの組み合わせの分割結果と同じです。対照的に、小文字のトークナイザーはドキュメントを1回だけトラバースするため、時間がかかりません。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"lowercase"
        }
      }
    }
  }
}

キーワード

キーワードトークナイザは、文書を分割せずに文書をトークンに変換する。通常、キーワードトークナイザは、ドキュメントを小文字に変換するために、小文字のトークンフィルタなどのトークンフィルタと共に使用される。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"keyword"
        }
      }
    }
  }
}

ジーバ

中国語にはjieba tokenizerをお勧めします。トレーニング済みまたは指定された辞書に基づいてドキュメントを分割します。

オプションパラメータ:

userwords: ユーザー定義の単語の辞書。データ型: ARRAY。各単語は文字列でなければなりません。このパラメーターを指定すると、ユーザー定義の単語がデフォルトの辞書に追加されます。詳しくは、 jiebaのデフォルト辞書。
重要
カスタム辞書内の単語には、\t、\n、、、。
use_hmm: 辞書に含まれていない単語を処理するために隠れマルコフモデル (hmm) を使用するかどうかを指定します。有効な値: trueおよびfalse。デフォルト値：true

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"jieba"
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f1":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"token1"
        }
      },
      "tokenizer":{
        "token1":{
          "type":"jieba",
          "userwords":[
            "Redis",
            "open-source",
            "flexible"
          ],
          "use_hmm":true
        }
      }
    }
  }
}

パターン

パターントークナイザーは、指定された正規表現に基づいてドキュメントを分割します。正規表現と一致する単語は、区切り文字として使用されるか、トークンとして識別されます。

オプションパラメータ:

pattern: 正規表現。デフォルト値: \W + 詳細については、『GitHub』をご参照ください。
group: 指定された正規表現を区切り文字またはトークンとして使用します。デフォルト値: -1。有効な値：
- -1: 指定された正規表現の一致した単語を区切り文字として使用します。たとえば、"aaa" 正規表現を使用して "bbbaaaccc" を分割した場合、分割結果は "bbb" と "ccc" になります。
- 0または0を超える整数: 正規表現によって一致する単語をトークンとして識別します。値0は、TairSearchが正規表現全体で単語と一致することを示します。 1または1を超える整数の値は、TairSearchが正規表現内の対応するキャプチャグループによって単語と一致することを示します。たとえば、正規表現「a(b +)c」を使用して「abbbcdefabc」を分割するとします。 groupが0に設定されている場合、分割結果は "abbbc" と "abc" になります。 groupが1に設定されている場合、「a(b +)c」の最初のキャプチャグループb + を使用して単語を照合します。この場合、分割結果は "bbb" と "b" です。
flags: 指定された正規表現が大文字と小文字を区別するかどうかを指定します。デフォルトでは、このパラメーターは空のままです。これは、正規表現が大文字と小文字を区別することを示します。 CASE_INSENSITIVEの値は、指定された正規表現が大文字と小文字を区別しないことを示します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"pattern"
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f1":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"pattern_tokenizer"
        }
      },
      "tokenizer":{
        "pattern_tokenizer":{
          "type":"pattern",
          "pattern":"AB(A(\\w+)C)",
          "flags":"CASE_INSENSITIVE",
          "group":2
        }
      }
    }
  }
}

IK

IKトークナイザーはドキュメントを中国語で分割します。 IKは、ik_max_wordモードとik_smartモードをサポートしています。 ik_max_wordモードでは、IKはすべての可能なトークンを識別する。 ik_smartモードでは、ikはik_max_wordモードの結果をフィルタリングして、最も可能なトークンを識別します。

オプションパラメータ:

stopwords: 除外するストップワード。データ型: ARRAY。各ストップワードは文字列でなければなりません。このパラメーターを指定すると、デフォルトのストップワードが上書きされます。デフォルトの停止ワード:
```
["a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or" 、"such" 、"that" 、"the" 、"their" 、"then" 、"there" 、"these" 、"they" 、"this" 、"to" 、"was" 、"will" 、"with"]
```
userwords: ユーザー定義の単語の辞書。データ型: ARRAY。各単語は文字列でなければなりません。このパラメーターを指定すると、ユーザー定義の単語がデフォルトの辞書に追加されます。詳しくは、 IKのデフォルト辞書。
quantifiers: ユーザー定義のquantifiersのディクショナリ。データ型: ARRAY。このパラメーターを指定すると、ユーザー定義の量子がデフォルトのディクショナリに追加されます。詳しくは、 IKのデフォルトの数量化ディクショナリ。
enable_lowercase: 大文字を小文字に変換するかどうかを指定します。有効な値: trueおよびfalse。デフォルト値：true
重要
カスタム辞書に大文字が含まれている場合は、ドキュメントを分割する前に変換が実行されるため、このパラメーターをfalseに設定します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_ik_smart_analyzer"
      },
      "f1":{
        "type":"text",
        "analyzer":"my_custom_ik_max_word_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_ik_smart_analyzer":{
          "type":"custom",
          "tokenizer":"ik_smart"
        },
        "my_custom_ik_max_word_analyzer":{
          "type":"custom",
          "tokenizer":"ik_max_word"
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_ik_smart_analyzer"
      },
      "f1":{
        "type":"text",
        "analyzer":"my_custom_ik_max_word_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_ik_smart_analyzer":{
          "type":"custom",
          "tokenizer":"my_ik_smart_tokenizer"

        },
        "my_custom_ik_max_word_analyzer":{
          "type":"custom",
          "tokenizer":"my_ik_max_word_tokenizer"

        }
      },
      "tokenizer":{
        "my_ik_smart_tokenizer":{
          "type":"ik_smart",
          "userwords":[
            "The tokenizer for the Chinese language",
            "The custom stop words"
          ],
          "stopwords":[
            "about",
            "test"
          ],
          "quantifiers":[
            "ns"
          ],
          "enable_lowercase":false
        },
        "my_ik_max_word_tokenizer":{
          "type":"ik_max_word",
          "userwords":[
            "The tokenizer for the Chinese language",
            "The custom stop words"
          ],
          "stopwords":[
            "about",
            "test"
          ],
          "quantifiers":[
            "ns"
          ],
          "enable_lowercase":false
        }
      }
    }
  }
}

付録3: サポートされるトークンフィルター

クラシック

クラシックトークンフィルターは、トークンの末尾と頭字語のピリオド (.) を除外します。例えば、図は図に変換される。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"classic",
          "filter":["classic"]
        }
      }
    }
  }
}

elision

削除トークンフィルタは、トークンの先頭から指定された削除を削除します。このフィルタは主にフランス語に適用されます。

オプションパラメータ:

articles: 指定されたelisions。このパラメーターは、カスタム設定を指定する場合に必要です。データ型: ARRAY。配列内の各要素は文字列でなければなりません。デフォルト値: ["l", "m", "t", "qu", "n", "s", "j"] このパラメーターを指定すると、デフォルト値が上書きされます。
articles_case: 大文字と小文字を区別するかどうかを指定します。このパラメーターはオプションです。有効な値: trueおよびfalse。デフォルト値：false

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["elision"]
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["elision_filter"]
        }
      },
      "filter":{
        "elision_filter":{
          "type":"elision",
          "articles":["l", "m", "t", "qu", "n", "s", "j"],
          "articles_case":true
        }
      }
    }
  }
}

小文字

小文字のトークンフィルターは、トークンを小文字に変換します。

オプションパラメータ:

language: トークンフィルターが使用する言語。有効な値: greekとrussian。このパラメーターを指定しない場合、トークンフィルターは英語を使用します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["lowercase"]
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_greek_analyzer"
      },
      "f1":{
        "type":"text",
        "analyzer":"my_custom_russian_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_greek_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["greek_lowercase"]
        },
        "my_custom_russian_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["russian_lowercase"]
        }
      },
      "filter":{
        "greek_lowercase":{
          "type":"lowercase",
          "language":"greek"
        },
        "russian_lowercase":{
          "type":"lowercase",
          "language":"russian"
        }
      }
    }
  }
}

雪玉

スノーボールトークンフィルタは、すべてのトークンから抽出します。例えば、トークンフィルタは、catからcatを抽出する。

オプションパラメータ:

language: トークンフィルターが使用する言語。有効な値: english、german、french、dutch。デフォルト値: english。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["snowball"]
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"standard",
          "filter":["my_filter"]
        }
      },
      "filter":{
        "my_filter":{
          "type":"snowball",
          "language":"english"
        }
      }
    }
  }
}

停止

ストップトークンフィルターは、指定されたストップワードの配列に基づいて、トークンからストップワードを削除します。

オプションパラメータ:

stopwords: ストップワードの配列。各ストップワードは文字列でなければなりません。このパラメーターを指定すると、デフォルトのストップワードが上書きされます。デフォルトの停止ワード:
```
["a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or" 、"such" 、"that" 、"the" 、"their" 、"then" 、"there" 、"these" 、"they" 、"this" 、"to" 、"was" 、"will" 、"with"]
```
ignoreCase: ストップワードが大文字と小文字を区別するかどうかを指定します。有効な値: trueおよびfalse。デフォルト値：false

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["stop"]
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"standard",
          "filter":["stop_filter"]
        }
      },
      "filter":{
        "stop_filter":{
          "type":"stop",
          "stopwords":[
            "the"
          ],
          "ignore_case":true
        }
      }
    }
  }
}

asciifolding

拡張トークンフィルタは、Basic Latin Unicodeブロックに含まれていないアルファベット文字、数字文字、および記号文字をASCII相当物に変換します。たとえば、このトークンフィルターは é をeに変換します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"standard",
          "filter":["asciifolding"]
        }
      }
    }
  }
}

長さ

長さトークンフィルタは、指定された文字長よりも短いまたは長いトークンを除去する。

オプションパラメータ:

min: トークンに許可される最小文字数。データ型: INTEGER。デフォルト値：0
max: トークンに許可される最大文字数。データ型: INTEGER。デフォルト値: 2 ^ 31 - 1。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["length"]
        }
      }
    }
  }
}

# Custom configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_custom_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_custom_analyzer":{
          "type":"custom",
          "tokenizer":"whitespace",
          "filter":["length_filter"]
        }
      },
      "filter":{
        "length_filter":{
          "type":"length",
          "max":5,
          "min":2
        }
      }
    }
  }
}

正規化

正規化トークンフィルタは、特定の言語の特定の文字を正規化する。有効な値: arabic_normalizationおよびpersian_normalization。このトークンフィルターは、標準のトークナイザーと一緒に使用することを推奨します。

設定例：

# Default configuration:
{
  "mappings":{
    "properties":{
      "f0":{
        "type":"text",
        "analyzer":"my_arabic_analyzer"
      },
      "f1":{
        "type":"text",
        "analyzer":"my_persian_analyzer"
      }
    }
  },
  "settings":{
    "analysis":{
      "analyzer":{
        "my_arabic_analyzer":{
          "type":"custom",
          "tokenizer":"arabic",
          "filter":["arabic_normalization"]
        },
        "my_persian_analyzer":{
          "type":"custom",
          "tokenizer":"arabic",
          "filter":["persian_normalization"]
        }
      }
    }
  }
}

付録4: 異なる言語の組み込み言語アナライザーのデフォルトの停止語

アラビア语

["من","ومن","منها","منه","في","وفي","فيها","فيه","و","ف","ثم","او","أو","ب","بها","به","ا","أ","اى","اي","أي","أى","لا","ولا","الا","ألا","إلا","لكن","ما","وما","كما","فما","عن","مع","اذا","إذا","ان","أن","إن","انها","أنها","إنها","انه","أنه","إنه","بان","بأن","فان","فأن","وان","وأن","وإن","التى","التي","الذى","الذي","الذين","الى","الي","إلى","إلي","على","عليها","عليه","اما","أما","إما","ايضا","أيضا","كل","وكل","لم","ولم","لن","ولن","هى","هي","هو","وهى","وهي","وهو","فهى","فهي","فهو","انت","أنت","لك","لها","له","هذه","هذا","تلك","ذلك","هناك","كانت","كان","يكون","تكون","وكانت","وكان","غير","بعض","قد","نحو","بين","بينما","منذ","ضمن","حيث","الان","الآن","خلال","بعد","قبل","حتى","عند","عندما","لدى","جميع"]

cjk

["with" 、"will" 、"to" 、"this" 、"there" 、"then" 、"the" 、"t" 、"that" 、"such" 、"s" 、"on" 、"not" 、"no" 、"it" 、"www" 、"was" 、"is" 、"" 、"into" 、"their","or","in","if","for","by","but","they","be","these","at","are","as","and","of","a"

ブラジル

["uns" 、"umas" 、"uma" 、"teu" 、"tambem" 、"tal" 、"suas" 、"sobre" 、"sob" 、"seu" 、"sendo" 、"seja" 、"sem" 、"se" 、"quem" 、"tua" 、"que" 、"" por "、" perante "、" pelos "、" pelo "、" outros "、" outra "、" outra "、" os "、" o "、" nesse "、" nas "、" na "、" mesmos "、" mesma "、" um "、" neste "、" menos "、" "mediante" 、"proprio" 、"logo" 、"isto" 、"isso" 、"ha" 、"estes" 、"este" 、"proios" 、"estas" 、"esta" 、"todas" 、"essas" 、"toda" 、"entre" 、"nos" 、"entao" 、"、" qual "、" elas "、" tuas "、" ela "、" tudo "、" do "、" mesmo "、" diversas "、" todos "、" diversa "、" seus "、" dispoem "、" ou "、" dispoe "、" teus "、" deste "、" dessos "、" 、"" quanto "、" depois "、" demais "、" quando "、" essa "、" deles "、" pois "、" dele "、" dela "、" dos "、" de "、" da "、" nem "、" cujos "、" das "、" cujo "、" durante "、" 、"" cuja "、" contudo "、" ele "、" contra "、" como "、" com "、" pelas "、" assim "、" as "、" aqueles "、" mais "、" esse "、" aquele "、" mas "、" apos "、" aos "、" aonde "、" sua "、" 、"e" "antes" 、"nao" 、"ambos" 、"ambas" 、"alem" 、"ainda" 、"a"]

チェコ

["a" 、"s" 、"k" 、"o" 、"i" 、"u" 、"v" 、"z" 、"dnes" 、"cz" 、"t í mto" 、"bude š" 、"byli" 、"jse š" 、"muj" 、"sv ý m" 、"ta" 、"tomto" 、"tohle" 、"tuto" 、"tyto" 、"jej" 、"zda" 、"proc" 、"m á te" 、"tato" 、"kam" 、"tohoto" 、"kdo" 、"kter í" 、"mi" 、"n á m" 、"tomuto" 、"m í t" 、"、" "byla" 、"toho" 、"proto ž e" 、"asi" 、"ho" 、"na š i" 、"napi š te" 、"re" 、"co ž" 、"t í m" 、"tak ž e" 、"sv ý ch" 、"jej í" 、"sv ý mi" 、"jste" 、"aj" 、"tu" 、"" kde "、" ke "、" prav é "、" ji "、" nad "、" nejsou "、" ci "、" pod "、" t é ma "、" mezi "、" pres "、" ty "、" pak "、" v á m、"ani" 、"kdy ž" 、"v š ak" 、"neg" 、"" cl á nku "、" cl á nky "、" aby "、" jsme "、" pred "、" pta "、" jejich "、" byl "、" je š te "、" a ž "、" bez "、" tak é "、" pouze "、" prvn í "、" va š e "、" 、"npy" 、"" mu ž e "、" strana "、" jeho "、" sv é "、" jin é "、" zpr á vy "、" nove "、" nen í "、" v á s "、" jen "、" podle "、" zde "、" u ž "、" b ý t "、" 、"" kter é "、" co "、" nebo "、" ten "、" tak "、" m á "、" pri "、" od "、" po "、" jsou "、" jak "、" dal š í "、" ale "、" si "、" se "、" ve "、" to "、" jako "、" za "、" zpet "" ze "、" do "、" pro "、" je "、" na "、" atd "、" atp "、" jakmile "、" pricem ž "、" j á "、" on "、" ona "、" ono "、" oni "、" ony "、" my "、" vy "、" j í "、" ji "、" me "、" mne "、" jemu "、" tomu "、" temu "、" nemu "、" nemu ž "、" jeho ž "、" j í ž "、" jeliko ž "、" je ž "、" jako ž "、" nace ž"

ドイツ人

["wegen" 、"mir" 、"mich" 、"dich" 、"dir" 、"ihre" 、"wird" 、"sein" 、"auf" 、"durch" 、"ihres" 、"ist" 、"aus" 、"von" 、"im" 、"war" 、"mit" 、"ohne" 、"" kein "、" wie "、" was "、" es "、" sie "、" mein "、" er "、" du "、" da ß "、" dass "、" die "、" als "、" ihr "、" wir "、" der "、" f ü r "、" das "、" einen "、" 、"" am "、" und "、" eines "、" eine "、" in "、" einer "]

greek

["ο" 、"η" 、"τ ο ι" 、"ο ι" 、"τ α" 、"τ ο σ" 、"τ η σ" 、"τ ο ν" 、"τ ι ν" 、"τ ι ν" 、"τ ι τ ι ν" 、"κ" 、"ε ι μ α ι" 、"ε ε" 、"" 、"ε ε" 、"、" "「 σ τ ο ν 」、「 σ τ η 」、「 σ τ η ν 」、「 μ α 」、「 α λ λ α 」、「 α π ο 」、「 γ ι α 」、「 π ρ τ ο σ 」、「 μ ε 」、「 σ ε 」、「 ω σ 」、「 π α ρ α 」、「 α ε τ α 」、「 α 」、「 ε ε τ α 」、「 α 」、「 η 」" μ ν "、" ε π ι "、" ε ν ω "、" α ε α ι "、" α ν "、" τ ο τ ε "、" π ο τ ε "、" π ω ι "、" π ο ι ο σ "、" π ο ι ω "、" π ο ι ω "、" π ο ι "α υ" 、"α υ" 、"ο" "、" "" υ "、" "" "" "" "、" "、" σ 、"" "" "" "α υ τ ο υ σ" 、"α υ τ ι ε σ" 、"α υ τ α" 、"ε κ ε ι ν ο σ" 、"ε κ ε ι ν ο" 、"ε κ ε ι ν ο" 、"ε κ ε ι κ ι ν ο ι" 、"ε κ ε ι ν σ" 、"ε ε ε σ" ω ο "" ω ο "" "" 、"" ε σ"

ペルシャ語

["ا ن ا ن" 、"ن د ا ش ت ه" 、"س ر ا س ر" 、"و ي ي ا ه" 、"ا ي ش ا ن" 、"و ي" 、"ت ا م ن و ن" 、"ب ي ش ت ر ي" 、"ا م س ا ل" 、"د ي گر" 、"ب ر و ه ي" 、"ش د ن د" 、"چطو ر" 、"د ه" 、"د و" 、"د و و" 、"ا ل ي" 、"د ر" 、"ه ی ا ر" 、"ب ل ي" 、"ب ل ي" 、"ش ا ي د" 、"ا م ا" 、"ش ن ا س ي" 、"ل ر و ا س ت ه" 、"د ا ش ت ه ت ه" 、"د ا و و و و س س س س ن" 、"ا ه ي" "" 、"ا ق" "ب ل م ه","ب د م ا ت","ش د ن","ب ر خي","ن ب و د","ب س ي ا ر ي","م ل و ر ي ي","ا و ع ر د ن د" 、"ن و و و ر ر ب ر ر 「 د 」、、" ن و ا 」、"" ش و د "、" د ن ب ا ل "、" د ا د س س "、" ب ا ي د "、" س ا ب ق "、" ه ي چ "、" ه م ا ن "、" ا ن ج ا "、" ا ن ج ا ت ت "、" ب ر د ر 「 د ر ر د 」、"ن ا 」、" 「 م گر 」、「 ي ا ر د س ر د 」、「 د ا ر د ا ر د 」、「 ب ن ا ب ر ا ي ن 」、「 ه ن ا ب ر ا م ي 」、「 س م ت 」、「 م ا ل ب ه ت ت 」、「 د ا ن ب ب ه ت ت ت 」、「 د ر ب ب ر 」、「 ا 」、「 ن 」、「 ا 」 "ب ي ر و ن" 、"ا ن و ر د" 、"ب ع ضي" 、"ب ع ر و ت" 、"ا ي" 、"م ي ل ي و ن" 、"ا و" 、"ج ر ي ا ن" 、"ب ل و ت" ت ت "、" م ر و و د "、" ن "" چن د "、" ب ي "、" ن ش د ه "、" ا ر د ن "、" ا و ر د م "、" ب و ر د ي د "、" ا ر د ي م "、" ن م ي "、" ن م ي "、" ر و ي م س س س "、" و و ر "、" ا "、" "د ا ن ن د" 、"س و ي" 、"ا س ت ف ا د ه" 、"ش م ا" 、"ا ن ا ر" 、"د ا ر ا ر ي م" 、"س ا ب و ر" 、"ا م د ه" 、"ا م د ه" 、"ا ن م ي" 「 طر ي ق 」、「 ا ش 」、「 ر و س ت 」、「 ن م ا ي د 」、「 ن م ا ي د 」、「 گن د ي ن 」、「 چن د ي ي 」、「 ت و ي ب ي ا د 」、「 ا م 」、「 ا و ي ا 」、「 ر و ي ا 」 "ه م چن ا ن","پا ع ي ن","기 س س","ح د و د","م خت ل و د","م ق ا ب ل","چي ب ر د","ن د ا ر ي د","ه د م و ر و ر و ر" 、"ا" "ش ش" 、"ه ن و ز" 、"ت ح ت" 、"ه س ت ي م" 、"ه س ت ي م" 、"ف و و ت ه" 、"ب س ي ا ر" 、"ب س ي ش" 、"ب ر ي ا ي" 、"ر و ب ا ي" 、"ل ي"" 、"ب ن ن د" 、"ب ي ن" 、"ت م ا م ه" 、"م ا" 、"ب ا ش ن د" 、"م ا ش ن د" 、"ا ر ي" 、"ب ا ش د" 、"ب ا ش د" 、"ا ن د" 、"ː ي ر ر ا" 、"ب ا ر" 、"ب ا ر ر" 、"م ي" 、"د ر ب ا ر ه" 、"د ر ب ا ر ه" 、"م ن" 、"د ي ي د ه" 、"م ه ي ب ي" 、"د ا ر ر ه" 、"" ه م و ا ر ه "、" ه ر "、" ا و ل "、" ب و ا ه ن د "、" چه ا ر "、" ن ا م ا م "、" م ا ن "、" م ا ن "、" ه ا ي "、" ل ل ب ت "、" ل و و م ر "、"

フランス语

["ô" 、"ê tre" 、"vu" 、"vous" 、"votre" 、"un" 、"toute" 、"tout" 、"tous" 、"toi" 、"tiens" 、"tes" 、"suivant" 、"soit" 、"soi" 、"、" sinon "、" siennes "、" "se" 、"sauf" 、"s" 、"quoi" 、"vers" 、"qui" 、"quels" 、"ton" 、"quelle" 、"quoique" 、"quand" 、"pr è s" 、"pourquoi" 、"plus" 、"à" 、"pendant" 、"partant" 、"outre" 、"、" on "" notre "、" nos "、" tienne "、" ses "、" non "、" qu "、" ni "、" ne "、" m ê mes "、" m ê me "、" moyennant "、" mon "、" moins "、" va "、" sur "、" moi "、" miens "、" proche "、" "tien" 、"mien" 、"n" 、"malgr é" 、"quelles" 、"plein" 、"mais" 、"l à" 、"revoil à" 、"lui" 、"leurs" 、"๺" 、"toutes" 、"le" 、"o ù" 、"la" 、"l" 、"jusque" 、"" h é las "、" ou "、" hormis "、" laquelle "、" il "、" eu "、" n ô tre "、" etc "、" est "、" environ "、" une "、" entre "、" en "、" son "、" elles "、" elle "、" d è s "、" durant "、" 、"" du "、" voui "、" par "、" dont "、" donc "、" voil à "、" hors "、" doit "、" plusieurs "、" diverses "、" divers "、" divers "、" devra "、" devers "、" detre "、" desus "、" desquels "、" 、"" è s "、" et "、" d é sormais "、" des "、" te "、" pas "、" derri è re "、" depuis "、" del à "、" hui "、" dehors "、" sans "、" dedans "、" debout "、" v ô tre "、" de "、" dans "、" "" "y" 、"vos" 、"je" 、"concernant" 、"comme" 、"comment" 、"combien" 、"lorsque" 、"ci" 、"ta" 、"n ບnmoins" 、"lequel" 、"chez" 、"contre" 、"cex" 、"cette" 、"cet" 、"seront" 、"、" "ces" 、"leur" 、"certains" 、"proceres" 、"puisque" 、"certaine" 、"certaine" 、"passés é" 、"cependant" 、"celui" 、"quel" 、"celle" 、"devant" 、"cela" 、"revoici" 、"eci" 、"、" "merci" 、"ce" 、"c" 、"siens" 、"les" 、"avoir" 、"sous" 、"avec" 、"pour" 、"parmi" 、"avant" 、"car" 、"avait" 、"sont" 、"me" auxquels "、" sien "、" sa "、" excent "、" 、"" aux "、" ma "、" autres "、" autre "、" aussi "、" auquel "、" aujourd "、" au "、" attendu "、" selon "、" apr è s "、" ont "、" ainsi "、" ai "、" afin "、" v ô tres "、" lesquels "、"

オランダ語

["andere" 、"uw" 、"niets" 、"wil" 、"na" 、"tegen" 、"ons" 、"wordt" 、"werd" 、"hier" 、"eens" 、"onder" 、"alles" 、"zelf" 、"hun" 、"dus" 、"kan" 、"ben" 、"meer" 、"iets" 、"me" 、"veel" 、"omdat" 、"zal" 、"nog" 、"altijd" 、"ja" 、"want" 、"u" 、"zander" 、"deze" 、"hebben" 、"wie" 、"zij" 、"heft" 、"hoe" 、"nu" 、"heb" 、"" worden "、" haar "、" daar "、" der "、" je "、" doch "、" moet "、" tot "、" uit "、" bij "、" geweest "、" kon "、" ge "、" zich "、" wezen "、" ze "、" al "、" zo "、" dit "、" waren "、" men "、" mijn "、" kunnen "、" wat "、" zou "、" dan "、" hem "、" om "、" maar "、" ook "、" er "、" had "、" voor "、" of "、" als "、" reeds "、" door "、" met "、" over "、" aan "、" mij "、" was "、" is "、" geen "、" zijn "、" niet "、" iemand "、" het "、" hij "、" een "、" toen "、" in "、" toch "、" die "、" dat "、" te "、" doen "、" ik "、" van "、" op "、" en "、" de "]

ロシア

["а" 、"б е з" 、"б о л е е" 、"б ы л" 、"б ы л а" 、"б ы л и" 、"б ы л о" 、"б ы л о" 、"б ы т ь" 、"в а м" 、"в е с ь" 、"в е г" 、"в е с" 、"г д е" 、"д а" 、"д а ж е" 、"д л я" 、"д о" 、"е г о" 、"е е е" 、"е й" 、"е ;" 、" е с л и "、" е с т х "、" е ш е "、" ж е "、" з и и з "、" 、"、" 、"、" 、"" к "、" к а к "、" к о г д а "、" к о г д а "、" к т о "、" л и б о "、" м н е "、" м о ж е т "、" м ы "、" н а д о "、" н а д о "、" н е х "、" "н е х" 、"" "、" н о "、" "н у" 、"о" 、"о б" 、"о д н а к о" 、"о н а" 、"о н а" 、"о н и" 、"о т" 、"о ч е н ь" 、"п о" 、"п о д" 、"п р и" 、"п р и" 、"т а 、" т а 、"" т е м "、" т о г о "、" т о ж е "、" т о й "、" т о л ь к о "、" т о м "、" т ы "、" у ж е "、" ч о т я "、" ч о т я "、" ч о т и "、" ч о т и "、" ь 、"、" "эт о" 、"я"]

内蔵アナライザー	文字フィルター	Tokenizer	トークンフィルター
標準停止 Jieba IK パターンホワイトスペースシンプルキーワード Language	マッピング	Whitespace Tokenizer 標準的なTokenizer 古典的なTokenizer 文字Tokenizer LowerCase Tokenizer キーワードTokenizer Jieba Tokenizer パターンTokenizer IK Tokenizer	クラシックトークンフィルター Elisionトークンフィルター LowerCaseトークンフィルター Snowballトークンフィルター Stop Token Filter Asciifoldingトークンフィルタ長さトークンフィルタ正規化トークンフィルタ

ナビゲーション

TairSearchアナライザーのワークフロー

内蔵アナライザー

標準

停止

ジーバ

IK

Pattern

ホワイトスペース

シンプル

キーワード

言語

カスタムアナライザー

付録1: サポートされている文字フィルター

マッピング文字フィルター

付録2: サポートされるトークナイザー

空白

標準

クラシック

手紙

小文字

キーワード

ジーバ

パターン

IK

付録3: サポートされるトークンフィルター

クラシック

elision

小文字

雪玉

停止

asciifolding

長さ

正規化

付録4: 異なる言語の組み込み言語アナライザーのデフォルトの停止語

アラビア语

cjk

ブラジル

チェコ

ドイツ人

greek

ペルシャ語

フランス语

オランダ語

ロシア