すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:テキストアナライザー

最終更新日:Dec 28, 2024

キーワードアナライザー

はじめに: このアナライザーは、テキストを用語に分割しません。完全一致検索に適しています。たとえば、タグ、キーワード、全体として処理する必要がある文字列、および数値に適用できます。

注記: このアナライザーは、LITERAL、ARRAY、および INT タイプのフィールドに適用されます。

:

If the value of a field is "菊花茶" in a document and the keyword analyzer is enabled, the document can be retrieved only when a user searches for "菊花茶".

中国語向け汎用アナライザー

はじめに: このアナライザーは、中国語のセマンティクスに基づいて検索単位ごとにテキストを分割します。ほとんどの業界に適用される汎用アナライザーです。このアナライザーは、業界固有のアナライザーです。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

:

If the value of a field is "菊花茶" in a document and the general analyzer for Chinese is enabled, the document can be retrieved when a user searches for "菊花茶", "菊花", "茶", or "花茶".

中国語向けEコマースアナライザー

はじめに: このアナライザーは、Eコマース業界に適しています。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

:

If the value of a field is "大宝SOD蜜" in a document and the E-commerce analyzer for Chinese is enabled, the document can be retrieved when a user searches for "大宝", "sod", "sod蜜", "SOD蜜", or "蜜".

中国語向け単一文字アナライザー

はじめに: このアナライザーは、テキストを漢字と単語に分割します。作成者名や店舗名などの中国語のセマンティクスに基づかない検索に適しています。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

:

If the value of a field is "菊花茶" in a document and the single character analyzer for Chinese is enabled, the document can be retrieved when a user searches for "菊花茶", "菊花", "茶", "花茶", "菊", "花", or "菊茶".

あいまい検索アナライザー

はじめに: このアナライザーを使用すると、システムはピンイン、接頭辞または接尾辞、および単一の単語または単一の文字による検索をサポートできます。中国語のテキストは、接頭辞または接尾辞による検索をサポートしていません。文字、数字、およびピンインは、接頭辞または接尾辞による検索をサポートします。このアナライザーは、サイズが 100 バイトを超えないフィールドのみをサポートします。詳細については、あいまい検索 を参照してください。

注記: このアナライザーは、SHORT_TEXT タイプのフィールドにのみ適用されます。

:

If the value of a field is "菊花茶" in a document and the fuzzy analyzer is enabled, the document can be retrieved when a user searches for "菊花茶", "菊花", "茶", "花茶", "菊", "花", "菊茶", "ju", "juhua", "juhuacha", "j", "jh", or "jhc". 
If the value of a field is the mobile number "138****5678" in a document and the fuzzy analyzer is enabled, the document can be retrieved when a user searches for "^138" or "5678$." "^138" instructs the system to search for all numbers that start with "138". "5678$" instructs the system to search for all numbers that end with "5678". 
If the value of a field is "OpenSearch" in a document and the fuzzy analyzer is enabled, the document can be retrieved when a user searches for a single letter that is contained in the value or a combination of the letters.

英語向け語幹アナライザー

はじめに: このアナライザーは、各英語の単語を語幹形に変換します。英語のセマンティクスに基づく検索に適しています。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

:

If the value of a field is "英文分词器 english analyzer" in a document and the word stemming analyzer for English is enabled, the document can be retrieved when a user searches for "英文分词器", "english", "analyz", "analyzer", "analyzers", "analyze", "analyzed", or "analyzing". 
Note that an English text analyzer analyzes consecutive Chinese characters as one word.

英語向け非語幹単語アナライザー

はじめに: このアナライザーは、スペースと句読点に基づいてテキストを分割します。書籍のタイトルや作成者名など、英語のセマンティクスに基づかない検索に適しています。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

:

If the value of a field is "英文分词器 english analyzer" in a document and the unstemmed word analyzer for English is enabled, the document can be retrieved when a user searches for "英文分词器", "english", or "analyzer". 
Note that an English text analyzer analyzes consecutive Chinese characters as one word.

英語向け詳細分析用アナライザー

はじめに: このアナライザーは、英語のセマンティクスに基づいて検索単位ごとにテキストを分割します。一般産業の英語テキスト分析に適用されるアナライザーです。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、専用アプリケーションに固有です。

:

If the value of a field is "dataprocess" in a document and the analyzer for fine-grained analysis for English is enabled, the analysis result is "data process". In this case, the document can be retrieved when a user searches for "dataprocess", "data process", "data", or "process".

完全ピンインスペルアナライザー

はじめに: このアナライザーを使用すると、ユーザーは完全ピンインスペルまたは省略ピンインスペルの最初の文字を使用して、短いテキストで漢字を検索できます。映画名や作成者名など、完全ピンインスペルまたは省略ピンインスペルに基づく検索に適しています。完全ピンインスペルに基づいて文字を検索するには、ユーザーは完全ピンインスペルの一部ではなく、完全ピンインスペル全体を入力する必要があります。

注記: このアナライザーは、SHORT_TEXT タイプのフィールドにのみ適用されます。

:

If the value of a field is "大内密探007" in a document and the full pinyin spelling analyzer is enabled, the document can be retrieved when a user searches for "d", "dn", "dnm", "dnmt", "dnmt007", "da", "danei", "daneimi", or "daneimitan". The document cannot be retrieved when a user searches for "an" or "anei".

省略ピンインスペルアナライザー

はじめに: このアナライザーを使用すると、ユーザーは省略ピンインスペルの文字を使用して、短いテキストで漢字を検索できます。映画名や作成者名など、省略ピンインスペルに基づく検索に適しています。

注記: このアナライザーは、SHORT_TEXT タイプのフィールドにのみ適用されます。

:

If the value of a field is "大内密探007" in a document and the abbreviated pinyin spelling analyzer is enabled, the document can be retrieved when a user searches for "d", "dn", "dnm", "dnmt", "dnmt0", "damt007", "m", "mt", "mt007", or "007".

シンプルアナライザー

はじめに: このアナライザーを使用すると、検索を完全に制御できます。他の組み込みアナライザーでは要件を満たすことができない特殊なシナリオに適しています。ドキュメントとクエリでは、タブ文字(\t)を使用して、フィールド値と検索クエリの用語を区切ります。フィールド値と検索クエリが同じ方法でセグメント化されていることを確認してください。そうでない場合、ドキュメントを取得できません。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドに適用されます。

:

If the value of a field is "菊\t花茶\thao" in a document and the simple analyzer is enabled, the document can be retrieved only when a user searches for "菊", "花茶", "菊\t花茶", "花茶\thao", "菊\thao", or "菊\t花茶\thao".

数値アナライザー

はじめに: このアナライザーは、時間間隔または数値範囲に基づく検索に適しています。

注記: このアナライザーは、INT および TIMESTAMP タイプのフィールドに適用されます。

:

query=default:'開放搜索' AND index:[number1,number2]
// In this example, index is the name of the index for which the numerical value analyzer is configured.

地理位置情報アナライザー

はじめに: このアナライザーは、地理的な場所に基づく検索に適しています。

注記: このアナライザーは、GEO_POINT タイプのフィールドにのみ適用されます。

:

query=spatial_index:'circle(116.5806 39.99624, 1000)'
// Queries geographical locations within a circle whose radius can be several kilometers.

IT コンテンツアナライザー

はじめに: このアナライザーは、IT 業界の技術コンテンツに適しています。このアナライザーは、業界固有のアナライザーです。汎用アナライザーと比較して、IT コンテンツアナライザーは IT 関連のテキストを別の方法でセグメント化します。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

:

Original content: c++数组使用注意事项
General analyzer: c ++数组使用注意事项
IT content analyzer: c++数组使用注意事项

中国語向け E コマース用汎用アナライザー

はじめに: このアナライザーは、E コマース業界のシナリオに適しており、業界固有です。長年にわたって蓄積された業界経験と DAMO アカデミーの自然言語処理技術により、OpenSearch は E コマース業界専用のクエリ分析機能を提供し、業界の課題を解決し、ニーズを満たします。

使用上の注意

このアナライザーは、TEXT タイプのテキストにのみ適用されます。

このアナライザーは、E コマース向け業界別拡張版の専用アプリケーションに固有です。

:

Original content: 小金管遮瑕膏
General analyzer: 小金管遮瑕膏
General analyzer for E-commerce for Chinese: 小金管 遮瑕 膏

タイ語向け汎用アナライザー

はじめに: このアナライザーは、検索単位に基づいてタイ語のテキストをセグメント化します。一般産業のタイ語テキスト分析に適用される汎用アナライザーです。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、専用アプリケーションに固有です。

:

If the value of a field is "แหล่งดึงดูดนักท่องเที่ยว" in a document and the general analyzer for Thai is enabled, the analysis result is "แหล่ง ดึง ดูด นักท่องเที่ยว". In this case, the document can be retrieved when a user searches for "นักท่องเที่ยว" or "แหล่งดึงดูดนักท่องเที่ยว".

タイ語向け E コマース用アナライザー

はじめに: このアナライザーは、E コマース業界のタイ語テキスト分析に適用できます。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、専用アプリケーションに固有です。

:

If the value of a field is "หน้าจอโทรศัพท์" in a document and the analyzer for E-commerce for Thai is enabled, the analysis result is "น้าจอ โทรศัพท์". In this case, the document can be retrieved when a user searches for "หน้าจอโทรศัพท์", "หน้าจอ", or "โทรศัพท์".

ベトナム語向け汎用アナライザー

はじめに: このアナライザーは、一般産業のベトナム語テキスト分析に適用できます。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、専用アプリケーションに固有です。

ゲーム向け汎用アナライザー

はじめに: このアナライザーは、ゲーム業界に適用できます。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、ゲーム向け業界別拡張版の専用アプリケーションに固有です。

:

If the value of a field is "原神装备" in a document and the general analyzer for gaming is enabled, the analysis result is "原神 装备". In this case, the document can be retrieved when a user searches for "原神装备", "原神", or "装备".

英語向け E コマース用汎用アナライザー

はじめに: このアナライザーは、英語シナリオの E コマース業界に適用できます。

注記: このアナライザーは、TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、E コマース向け業界別拡張版の専用アプリケーションに固有です。

中国語向け文字アナライザー

はじめに: このアナライザーは、漢字、数字、英字、句読点に基づいてテキストをセグメント化します。このアナライザーは、中国語のセマンティクスに基づかない検索に適用できます。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

このアナライザーは、専用アプリケーションに固有です。

:

If the value of a field is "开放搜索OpenSearch123" in a document and the character analyzer for Chinese is enabled, the document can be retrieved when a user searches for "开", "放", "搜", "索", "O", "p", "e", "n", "S", "e", "a", "r", "c", "h", or ".".

テキスト向けカスタムアナライザー

はじめに: このアナライザーは、汎用アナライザー、E コマースアナライザー、または個人名アナライザーである業界固有のアナライザーと、カスタム介入エントリを組み合わせたものです。詳細については、カスタムアナライザー を参照してください。

注記: このアナライザーは、TEXT および SHORT_TEXT タイプのフィールドにのみ適用されます。

アナライザーテスト

業界固有のアナライザーまたはカスタムアナライザーをテストして、分析結果を確認できます。OpenSearch コンソールにログオンします。左側のナビゲーションペインで、[検索アルゴリズムセンター] > [検索設定] を選択します。[基本設定] ページで、左側のペインの [アナライザー管理] をクリックします。[アナライザー管理] ページで、テストするアナライザーを見つけ、[アクション] 列の [単語分析テスト] をクリックします。次の図を参照してください。

image

シナリオ

  • 中国語のセマンティクスに基づく検索のシナリオでは、中国語向け汎用アナライザーまたは中国語向け E コマースアナライザーを使用することをお勧めします。

  • 短い中国語テキスト検索シナリオまたはセマンティクスに基づかない中国語検索シナリオでは、厳密な並べ替えは必要ありません。これらのシナリオでは、中国語向け単一文字アナライザーを使用して、取得できるドキュメントの数を増やすことをお勧めします。

  • ピンインに基づく検索シナリオでは、あいまい検索アナライザーを使用します。

  • 英語検索シナリオでは、英語向け語幹アナライザーを使用します。

  • 一部のシナリオでは、中国語向けセマンティクスベースのアナライザーと中国語向け単一文字アナライザーを一緒に使用して、より良い検索結果を得ることができます。サンプルクエリ: query=title_index:'菊花茶' OR sws_title_index:'菊花茶'. 詳細ソート式: text_relevance(title)*5+field_proximity(sws_title). 前述の設定により、ユーザーは「xx菊xx花xx茶xx」を含むすべてのドキュメントを取得できます。さらに、「菊花茶」を含むドキュメントが最初にランク付けされます。

使用上の注意

  • 次のタイプのフィールドをインデックスフィールドとして設定できます。

    INT、INT_ARRAY、TEXT、SHORT_TEXT、LITERAL、LITERAL_ARRAY、TIMESTAMP、および GEO_POINT

    次のタイプのフィールドは、インデックスフィールドとして設定できません。

    FLOAT、FLOAT_ARRAY、DOUBLE、および DOUBLE_ARRAY

  • TEXT タイプのフィールドに検索結果の概要が設定されている場合、前述の例のように、拡張検索単位の一部の用語(「菊花茶」など)は、強調表示用の HTML タグに追加されません。

  • 中国語向け単一文字アナライザーは、数字または英単語を単一文字と見なします。たとえば、ドキュメントに値が「hello word」のフィールドが含まれていて、中国語向け単一文字アナライザーが有効になっている場合、ユーザーが「hello」を検索すると、ドキュメントを取得できます。ただし、ユーザーが「he」を検索した場合、ドキュメントは取得できません。ユーザーが英単語の一部を検索したときにシステムがドキュメントを返すようにするには、あいまい検索アナライザーを使用します。

  • デフォルトでは、アプリケーションスキーマのプライマリテーブルの主キーがインデックスフィールドとして設定され、インデックスフィールドの名前は id です。このインデックスフィールドは変更できません。